首页 > 解决方案 > 在databricks中使用cobrix处理大型机文件-Pyspark python 3

问题描述

有谁知道如何将 cobrix 集成到 azure databricks - pyspark 以处理大型机文件,具有 comp-3 列(Python 3)

有关详细问题,请找到以下链接。 https://github.com/AbsaOSS/cobrix/issues/236#issue-550885564

标签: python-3.xpysparkdatabrickscobolmainframe

解决方案


要使第三方或本地构建的代码可用于集群上运行的笔记本和作业,您可以安装一个库。库可以用 Python、Java、Scala 和 R 编写。您可以上传 Java、Scala 和 Python 库并指向 PyPI、Maven 和 CRAN 存储库中的外部包。

安装第三方库的步骤:

步骤 1:创建 Databricks 集群。

Step2:选择创建的集群。

步骤3:选择库=>安装新=>选择库源=“Maven”=>坐标=>搜索包=>选择Maven中心=>搜索所需的包。示例: (spark-cobol, cobol-parser, scodec) => 选择所需版本 => 安装

在此处输入图像描述

有关更多详细信息,请参阅“ Azure Databricks - 库”和“ Cobrix:Spark SQL 和流式处理的大型机数据源”。

希望这可以帮助。如果您有任何进一步的疑问,请告诉我们。


推荐阅读