首页 > 解决方案 > Python 编程反复“被杀”

问题描述

我正在开发一个预测文本程序,该程序使用整本书来拟合和测试随机森林分类器。最初,我从我的 Pandas 数据帧中抽取少量数据点只是为了测试;但是,如果我尝试使用整个数据集,程序会运行几分钟并返回“Killed”。

通过带有 Windows 10 主机的 VirtualBox 在 Arch Linux 上运行 Python 3.7.3。虚拟机分配了 10 GB 的 RAM,所以我认为这不是问题。

 #vectorize
 tfidf = TfidfVectorizer(min_df = 10)
 tfidf_result = tfidf.fit_transform(df['input']).toarray()
 tfidf_df = pd.DataFrame(tfidf_result, columns=tfidf.get_feature_names())
 tfidf_df.index = df.index
 df = pd.concat([df, tfidf_df], axis = 1)

 #split data into train and test - including 'input' in x so it can be connected w/ output
 columns = [c for c in df.columns if c != 'output']

 x_train, x_test, y_train, y_test = train_test_split(df[columns], df['output'], test_size = 0.2)

 #random forest classifier
 columns = [c for c in x_train.columns if c != 'input']

 rf = RandomForestClassifier(n_estimators = 100)
 rf.fit(x_train[columns], y_train)

 #predict
 predictions = rf.predict(x_test[columns])

标签: pythonvirtualboxarchlinux

解决方案


推荐阅读