mysql - 从 mysql 到 HDFS 或 Hive 表的数据实时更新(CDC 方法)
问题描述
我已经安装CDH 5.16
在 RHEL 7 服务器中并kafka
单独安装。我正在尝试实时从表或表中加载数据mysql
(HDFS
方法Hive
)CDC
。即如果某些数据更新或添加到mysql table
,它应该立即反映在HDFS
或Hive
表中。
我想出的方法:
用于kafka-connect
连接mysql
服务器并将表数据推送到 kafka
主题并编写消费者代码,spark-stream
从主题中读取数据并将其存储在HDFS
. 这种方法的一个问题是,这些文件顶部的配置单元表应该定期刷新以反映更新。
我也开始了解Kafka-Hive
HDP 3.1 中的集成。不幸的是,我正在使用Hadoop 2.6.0
. 所以不能利用这个功能。
有没有其他更好的方法来实现这一目标?
我正在使用Hadoop 2.6.0
和CDH 5.16.1
解决方案
推荐阅读
- laravel - 需要从数据透视表中获取相关ID
- android-security - 如何在 TrustManager 中使用 CertificateException?
- wordpress - 如何获取 ACF 关系字段的特色图像
- python - 求和转化率,然后按年龄分组
- java - 转换列表
到 Class... 获取声明的方法 - javascript - 滚动位置固定元素与非固定元素同步
- codemirror - CodeMirror 6 React 包装器?
- python - 有没有办法在整个 sqlite 表中用另一个值替换特定值?
- c# - How can I properly activate Windows authentication prompt in ASP.NET?
- java - Pyspark,执行者在执行连接时失去连接