python-3.x - 在databricks中使用cobrix处理大型机文件-Pyspark python 3
问题描述
有谁知道如何将 cobrix 集成到 azure databricks - pyspark 以处理大型机文件,具有 comp-3 列(Python 3)
有关详细问题,请找到以下链接。 https://github.com/AbsaOSS/cobrix/issues/236#issue-550885564
解决方案
要使第三方或本地构建的代码可用于集群上运行的笔记本和作业,您可以安装一个库。库可以用 Python、Java、Scala 和 R 编写。您可以上传 Java、Scala 和 Python 库并指向 PyPI、Maven 和 CRAN 存储库中的外部包。
安装第三方库的步骤:
步骤 1:创建 Databricks 集群。
Step2:选择创建的集群。
步骤3:选择库=>安装新=>选择库源=“Maven”=>坐标=>搜索包=>选择Maven中心=>搜索所需的包。示例: (spark-cobol, cobol-parser, scodec) => 选择所需版本 => 安装
有关更多详细信息,请参阅“ Azure Databricks - 库”和“ Cobrix:Spark SQL 和流式处理的大型机数据源”。
希望这可以帮助。如果您有任何进一步的疑问,请告诉我们。
推荐阅读
- google-chrome - Chrome Shockwave Flash 文件夹已删除
- powershell - Powershell 5.1 三元数组赋值
- gitlab - 即使 Group runner 可用,GitLab Ci/CD 作业仍处于待处理状态
- linux - logrotation 中的 maxage 7 在 linux 服务器中不起作用
- python-3.x - 多处理 python 实现中的 OpenVino 推理请求块
- python - 根据 Python Dash 中的唯一值绘制条形图
- python - 使用 win32com 查找工作表索引
- android - 删除第一项时 RecyclerView SelectionTracker IndexOutOfBoundsException
- html - 图像悬停或特异性导致悬停效果出现问题
- python - 两个不同DataFrame的列之间的余弦相似度