pyspark - 尝试在 Databricks 上安装 H2O。如何在 Databricks 中安装 3rd 方包?
问题描述
我现在正在玩 Databricks,并在线查看演示。该演示需要安装 H2O。在 Databricks 中,我尝试了以下操作:
click clusters (then click on the name of the cluster)
click libraries
click install new
finally, click maven
在坐标框中,我粘贴以下内容:
$SPARK_HOME/bin/spark-shell --packages ai.h2o:sparkling-water-package_2.12:3.30.0.6-1-3.0
我正在按照以下链接中的说明进行操作。
https://docs.databricks.com/applications/machine-learning/third-party/index.html
如何在 Databricks 中安装 3rd 方包?谢谢!
解决方案
要使第三方或本地构建的代码可用于集群上运行的笔记本和作业,您可以安装一个库。库可以用 Python、Java、Scala 和 R 编写。您可以上传 Java、Scala 和 Python 库并指向 PyPI、Maven 和 CRAN 存储库中的外部包。
安装第三方库的步骤:
方法1:使用Maven
步骤 1:创建 Databricks 集群。
Step2:选择创建的集群。
步骤3:选择库=>安装新=>选择库源=“Maven”=>坐标=>搜索包=>选择Maven中心=>搜索所需的包。示例:(ai.h20) => 选择所需的版本 (sparkling-water-package_2.11:3.30.0.6-1-2.4) => 安装
方法2 :使用PYPI
步骤 1:创建 Databricks 集群。
Step2:选择创建的集群。
第3步:选择库=>安装新的=>选择库源=“PyPI”=>坐标=>输入包=>h2o-pysparkling-2.4=>安装
方法3:使用pip安装
%sh
pip install h2o-pysparkling-2.4==3.30.0.6-1
有关详细信息,请参阅“ Azure Databricks - 库”。
推荐阅读
- debugging - 如何在错误终止之前调试 MPI 程序?
- java - SpringBoot-Hibernate-Mysql id 主键值序列在我的所有域中使用@GeneratedValue 共享
- azure - Azure:从另一个函数应用调用一个函数应用
- logging - 以 JSON 格式制作 Keycloak 日志
- elasticsearch - 按别名删除索引
- regex - 我想在 kibana 中删除/使用正则表达式
- powershell - 为什么要在 PowerShell 中使用有序哈希?
- r - 从R中的大字符串中提取带小数的数字
- amazon-ec2 - Terraform AWS:使用 aws_launch_template 和 block_device_mappings 覆盖根设备大小
- elasticsearch - 从搜索中排除某些字段 - Elasticsearch