首页 > 解决方案 > 从 mysql 到 HDFS 或 Hive 表的数据实时更新(CDC 方法)

问题描述

我已经安装CDH 5.16在 RHEL 7 服务器中并kafka单独安装。我正在尝试实时从表或表中加载数据mysqlHDFS方法HiveCDC。即如果某些数据更新或添加到mysql table,它应该立即反映在HDFSHive表中。

我想出的方法:

用于kafka-connect连接mysql服务器并将表数据推送到 kafka主题并编写消费者代码,spark-stream从主题中读取数据并将其存储在HDFS. 这种方法的一个问题是,这些文件顶部的配置单元表应该定期刷新以反映更新。

我也开始了解Kafka-HiveHDP 3.1 中的集成。不幸的是,我正在使用Hadoop 2.6.0. 所以不能利用这个功能。

有没有其他更好的方法来实现这一目标?

我正在使用Hadoop 2.6.0CDH 5.16.1

标签: mysqlhadoophiveapache-kafkareal-time

解决方案


推荐阅读