python - Python 编程反复“被杀”
问题描述
我正在开发一个预测文本程序,该程序使用整本书来拟合和测试随机森林分类器。最初,我从我的 Pandas 数据帧中抽取少量数据点只是为了测试;但是,如果我尝试使用整个数据集,程序会运行几分钟并返回“Killed”。
通过带有 Windows 10 主机的 VirtualBox 在 Arch Linux 上运行 Python 3.7.3。虚拟机分配了 10 GB 的 RAM,所以我认为这不是问题。
#vectorize
tfidf = TfidfVectorizer(min_df = 10)
tfidf_result = tfidf.fit_transform(df['input']).toarray()
tfidf_df = pd.DataFrame(tfidf_result, columns=tfidf.get_feature_names())
tfidf_df.index = df.index
df = pd.concat([df, tfidf_df], axis = 1)
#split data into train and test - including 'input' in x so it can be connected w/ output
columns = [c for c in df.columns if c != 'output']
x_train, x_test, y_train, y_test = train_test_split(df[columns], df['output'], test_size = 0.2)
#random forest classifier
columns = [c for c in x_train.columns if c != 'input']
rf = RandomForestClassifier(n_estimators = 100)
rf.fit(x_train[columns], y_train)
#predict
predictions = rf.predict(x_test[columns])
解决方案
推荐阅读
- php - 在 Woocommerce 3 中获取产品属性标签名称
- spring-boot - 使用@Retryable 方法时如何访问当前的重试尝试
- kdb - 无法在 KDB 中加载脚本文件
- php - startDate 和 endDate 在 yii2 kartik 插件的 DateRangePicker 小部件中不起作用
- java - 2 如何在 Java 中输入参数?
- git - git branch -h 创建了名为“-h”的分支。这是预期的吗?
- angular - 如何使用 EventEmitter 将函数传递给子组件?
- hana - 将 CV 中数据的输入参数设置为 HANA 中其他 CV 中的输入参数
- c# - 为 Episerver、Episerver 11、tinyMCE 2.5.0 的 tinyMCE 上的 Styleselect 添加字体菜单
- angular - How to animate ionic page/modal to slide in from right