apache-spark - Spark DataFrame 中的领域特定语言 API 是什么?
问题描述
需要示例帮助以了解 Spark DataFram 中的 DSL
“DataFrame 允许开发人员将结构强加到分布式数据集合上,从而实现更高级别的抽象;它提供了一个特定于领域的语言 API 来操作您的分布式数据”
在上面的定义中,什么是域特定语言 API 来操作您的分布式数据?这是什么意思。请用一些代码示例进行解释
解决方案
没有上下文很难确定,但我认为作者的意思是:
DataFrame 有一个 API(您可以在其上调用的一组函数),它提供了一种处理内部数据的方法,它是处理数据方向的更高级别的抽象。
例如,要执行“分组依据”(如在 SQL 中),您可以将数据存储在数组中,并使用 for 循环对其进行循环,同时保留包含分组键和相应值的字典。或者您可以直接在 DataFrame 上调用“groupBy”,这对您隐藏了复杂性 - 它通过允许您使用更抽象的分组概念来“抽象”它,而不是使用数据循环遍历数组的更具体概念.
这种抽象有时称为 DSL,因为您可以将函数调用视为特定于此类问题/领域的编程语言本身,即 DataFrame 中的数据。
推荐阅读
- javascript - 为什么 watcher 在响应 vue.js 中的数据变化时比计算更好地执行异步或昂贵的操作?
- winforms - DataGridView 中重写的 CellPainting 仅在单元格失去焦点后才显示内容
- javascript - 将包含空数组的对象数组映射为属性会忽略整个对象
- python - 我不断收到此错误:列表索引必须是整数或切片,而不是 str
- java - 为什么 try 块没有在 Kotlin 的 lambda 表达式中返回值?
- javascript - 动态表:而不是单元格为一个特定列提供输入字段(如何?)
- node.js - 我有一个 nodejs 应用程序,这篇文章是黑客攻击吗?
- ios - 意外发现 UIView 类型的 @IBOutlet 为 nil
- node.js - 使用 MongoDB/Mongoose.js 按月分组标签
- css - 如何为 SCSS 变量设置颜色荧光笔?