python - Sk Learn CountVectorizer:将表情符号保持为单词
问题描述
我CountVectorizer
在字符串上使用 Sk Learn,但CountVectorizer
丢弃了文本中的所有表情符号。
例如, Welcome
应该给我们:["\xf0\x9f\x91\x8b", "welcome"]
但是,运行时:
vect = CountVectorizer()
test.fit_transform([' Welcome'])
我只得到:["welcome"]
这与token_pattern
which 不将编码的 emoji 视为一个单词有关,但是有token_pattern
处理 emoji 的习惯吗?
解决方案
推荐阅读
- c# - 如何在 xamarin 表单的行为中获取条目后退按钮按下事件
- php - 连接的 MySQL 查询优化
- java - java中如何通过接口对象访问派生类成员变量?
- linux - 将 Docker 日志尾部的最后一行存储到 shell 变量
- ios - 如何在 perform(mutation: GraphQLMutation) 函数中重新加载 tableView 数据?
- python - 在每行有多个值的 pandas 列中查找唯一值
- typo3 - PHP 警告:count(): 参数必须是数组或实现 Countable 的对象
- c# - 同一个解决方案中有多个版本的项目?
- python - 彩色图像的 UNET 图像分割测试结果不正确
- c# - 如何动态访问所有孩子的?