performance - 调整写入配置时触发 cassandra 连接器写入超时
问题描述
在将数据从 spark 插入到 cassandra 时,我注意到管道中的吞吐量非常低(每个核心小于 1 MB/s)。在尝试调整 write conf ( spark.cassandra.output.concurrent.writes
, spark.cassandra.output.batch.grouping.key
and spark.cassandra.output.batch.size.rows
) 时,我很快就会出现写入超时。
我的问题:
- 批量写入数据(通过spark)时是否建议/正常增加cassandra写入超时?
- 是否可以仅针对 spark 工作负载增加它?还是仅用于批量写入?
- 默认值为
spark.cassandra.output.batch.size.bytes
1024,我发现默认值太低了,我猜大多数时候对应 1 或 2 行,我错过了什么吗?
我正在使用 spark-cassandra-connector 2.4.3
解决方案
推荐阅读
- python - 如何在查询访问期间重置存储在 SQLAlchemy 中的值?
- php - 如何使用锚标签在 PHP 的 highlight_file 中包装函数?
- node.js - 谷歌云上的环境变量?
- c - 为什么使用此代码中的“LD_QUEUE_AVAILABLE”状态
- javascript - 如何知道是否触发了必填字段验证?
- php - Laravel 可能的路由问题,得到 404
- python - 使用正则表达式从给定目录中提取文件名
- android - .cameraPosition.target 不提供当前视图的中心
- mysql - 如何在MYSQL中获取当前一周的总天数
- python - 连接sqlite数据库时如何解决缩进错误?