apache-spark - 使用 Spark Cassandra 连接器的不同方式
问题描述
我正在尝试使用 Spark Cassandra 连接器对 Cassandra 中的数据进行分析,并发现了两种类型的实现。任何人都可以阐明两者之间的区别和优点/缺点吗?我正在尝试查看使用哪一个来查询大型数据集。谢谢
选项 1 - 使用 Spark 会话 SQL
sparkSession.read
.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> table, "keyspace" -> keyspace))
.load()
选项 2 - 使用 SCC API
CassandraJavaUtil.javaFunctions(sc)
.cassandraTable("my_keyspace", "my_table", .mapColumnTo(Integer.class))
.select("column1");
解决方案
推荐阅读
- django - How to remove csrf token from search result url in Django?
- android-studio - Not have drawable-mdpi, drawable-hdpi, drawable-xhdpi, drawable-xxhdpi
- angular - 通过 URL 从 Angular 应用程序提供文件
- spring - spring webflux - 不要为特定路径创建会话
- c# - Group By then Select内部元素Linq asp.net Core 3
- python - 我可以将 Conda 与从源代码构建的 python 版本一起使用吗?
- sql - DUPLICATE KEY UPDATE 上的字符串比较在 SQL 中不起作用
- c# - 将事务流入 gRpc
- r - 根据 R 中的优先级计数映射特征
- arrays - 无法将数组原型扩展应用于 TypeScript 中的只读数组