首页 > 解决方案 > Sklearn CountVectorizer token_pattern 允许带有任何字符的字符串

问题描述

我想编写一个token_pattern=for CountVectorizer( docs ),它允许将任何字符串作为标记传递。

默认排除很多,包括带有连字符的字符串......

我最接近的是:

vectorizer = CountVectorizer(token_patten=r"(?u)\b\w\w+\b|!|\?|\"|\'") 

这个帖子

但是我缺乏正则表达式的技能,所以我无法成功地自定义它。

标签: pythonregexscikit-learncountvectorizer

解决方案


我想到了。

这允许任何字符串。

vectorizer = CountVectorizer(token_pattern=r'.*')

推荐阅读