首页 > 解决方案 > 用于情绪分析的增益比库

问题描述

我目前正在使用特征选择 tf-idf 和增益率从 twitter 数据中研究关于在线学校主题的分析情绪。我的问题是 python 有我可以使用的增益比库吗?类似 sklearn 的 tf-idf。如果不是,我如何在我的代码上实现它?先感谢您。这是我的代码现在的样子:

#preprocessing

def preprocess(tweet): 
    
    #Case Folding
    tweet = tweet.lower()
    
    #menghilangkan hashtag
    tweet = re.sub(r'#([^\s]+)', r'\1', tweet)
    
    #menghilangkan URL
    tweet = re.sub('((www\.[^\s]+)|(https?://[^\s]+))','',tweet)
    
    #menghilangkan username
    tweet = re.sub('@[^\s]+','',tweet)
    
    #trim
    tweet = tweet.strip('\'"')
    
    #Menghapus kata berulang
    repeat_char = re.compile(r"(.)\1{1,}", re.IGNORECASE)
    tweet = repeat_char.sub(r"\1\1", tweet)
    
    #Tokenization
    
    #Normalisasi Kata
    
    #Stopword Removal
    
    #Stemming
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()

    kalimat = 
    katadasar = stemmer.stem(kalimat)
    
    return tweet

#tf-idf
vec = TfidfVectorizer(min_df=5, max_df=0.95, sublinear_tf = True,use_idf = True,ngram_range=(1, 2))
X_train_vec = vec.fit_transform(X_train)
nb = MultinomialNB()
nb.fit(X_train_vec,y_train)
X_test_vec = vec.transform(X_test)
pred = nb.predict(X_test_vec)

#Gain Ratio
#gain ratio code here

标签: pythonfeature-selection

解决方案


推荐阅读