python - 用于情绪分析的增益比库
问题描述
我目前正在使用特征选择 tf-idf 和增益率从 twitter 数据中研究关于在线学校主题的分析情绪。我的问题是 python 有我可以使用的增益比库吗?类似 sklearn 的 tf-idf。如果不是,我如何在我的代码上实现它?先感谢您。这是我的代码现在的样子:
#preprocessing
def preprocess(tweet):
#Case Folding
tweet = tweet.lower()
#menghilangkan hashtag
tweet = re.sub(r'#([^\s]+)', r'\1', tweet)
#menghilangkan URL
tweet = re.sub('((www\.[^\s]+)|(https?://[^\s]+))','',tweet)
#menghilangkan username
tweet = re.sub('@[^\s]+','',tweet)
#trim
tweet = tweet.strip('\'"')
#Menghapus kata berulang
repeat_char = re.compile(r"(.)\1{1,}", re.IGNORECASE)
tweet = repeat_char.sub(r"\1\1", tweet)
#Tokenization
#Normalisasi Kata
#Stopword Removal
#Stemming
factory = StemmerFactory()
stemmer = factory.create_stemmer()
kalimat =
katadasar = stemmer.stem(kalimat)
return tweet
#tf-idf
vec = TfidfVectorizer(min_df=5, max_df=0.95, sublinear_tf = True,use_idf = True,ngram_range=(1, 2))
X_train_vec = vec.fit_transform(X_train)
nb = MultinomialNB()
nb.fit(X_train_vec,y_train)
X_test_vec = vec.transform(X_test)
pred = nb.predict(X_test_vec)
#Gain Ratio
#gain ratio code here
解决方案
推荐阅读
- javascript - 您如何将您的网址放入 img 标签 (html) 中?
- docker - 同一程序无法完全使用另一台机器上的 CPU 资源
- python - 类定义之外的类的新方法
- php - 为什么我的 laravel 项目的 config 文件夹中没有文件?如何更改我的 laravel 项目的配置?
- php - 如何禁用 wordpress 仅针对特定邮件地址发送外发电子邮件
- vim - termdebug vim 中的初始窗口拆分
- python - namedtuple() 得到了一个意外的关键字参数“详细”
- laravel - Laravel:我如何在生产和开发中将我的图像移动到 s3 让它留在本地?
- c# - 如何使 TableLayoutPanel 可聚焦
- php - 突出显示选定元素/从登录页面重定向用户