python - 在 pyspark 中调整二项式 Logistic 回归参数;
问题描述
我尝试在 pyspark 中调整 Tuning Binomial Logistic Regression 参数的参数,但结果完全没有改变 Fist 参数
第一个没有参数的逻辑回归模型。
from pyspark.ml.classification import LogisticRegression
train_data, test_data = pipe_df.randomSplit([0.7,0.3])
print("Training Dataset Count: " + str(train_data.count()))
print("Test Dataset Count: " + str(test_data.count()))
# First Logistic regression model without parameters.
lr_model = LogisticRegression(featuresCol='features',labelCol='state')
lr_model = lr_model.fit(train_data)
results = lr_model.transform(test_data)
evaluator = MulticlassClassificationEvaluator(
labelCol="state", predictionCol="prediction", metricName="accuracy")
print ("Test set accuracy = " + str(accuracy))
准确性
测试集准确率 = 0.6401755241345685
具有新参数的第二个逻辑回归模型。
mlr = LogisticRegression(featuresCol='features',labelCol='state', maxIter=60, regParam=0.8, elasticNetParam=0.8, family="multinomial")
lrModel = mlr.fit(train_data)
results2 = lrModel.transform(test_data)
evaluator = MulticlassClassificationEvaluator(labelCol="state", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(results2)
print ("Test set accuracy = " + str(accuracy))
准确性
测试集准确率 = 0.6401755241345685
解决方案
推荐阅读
- python - Docker 容器中的 Selenium 找不到 chromedriver
- php - Google Drive API - 使用 PHP Curl 可恢复上传无响应
- woocommerce - Wocomerce 自定义支付网关
- docker - 从 github 构建 grafana 的生产自定义 docker 镜像
- api - YouTube 数据 API 未实时返回
- performance - 二分查找的实际效率
- r - 子集嵌套列表以仅包含在向量中命名的元素
- c++ - 将 std::sort 与并行执行策略一起使用时,我必须考虑什么?
- r - 如何根据 R Shiny 中的输入值数量动态更新计算值?
- r - 从R中的不同数据框中按名称从一个数据框中选择列