python - Sklearn CountVectorizer token_pattern 允许带有任何字符的字符串
问题描述
我想编写一个token_pattern=
for CountVectorizer
( docs ),它允许将任何字符串作为标记传递。
默认排除很多,包括带有连字符的字符串......
我最接近的是:
vectorizer = CountVectorizer(token_patten=r"(?u)\b\w\w+\b|!|\?|\"|\'")
从这个帖子。
但是我缺乏正则表达式的技能,所以我无法成功地自定义它。
解决方案
我想到了。
这允许任何字符串。
vectorizer = CountVectorizer(token_pattern=r'.*')
推荐阅读
- c# - 智能卡将 null 作为私钥的值
- javascript - 如何使用状态实现暗模式并将设置保存到我的本地存储?
- react-native - 从子导航器屏幕导航到父导航器屏幕
- javascript - 翻译后 Chrome 视频标签呈现不正确
- amazon-web-services - 如何限制用户仅查看特定存储桶
- amazon-web-services - 如何解决在 aws sagemaker 中部署模型的错误?
- jsf - 无法在多列上对 primefaces 的数据表进行排序?
- python - Pandas:将列中的列表值映射到基于组的字典
- scala - Scala:具有通用函数参数的案例类
- javascript - 如何使动作可重用?ReactJS 与 Redux