Kafka 数据如何同步到 MaxCompute
Kafka 数据如何同步到 MaxCompute
目录:
l 试验意图
l 计划阐明
l Kafka 音讯行列运用以及原理
l 资源组介绍以及装备
l 同步进程及其注意事项
l 开发测验以及出产布置
试验意图 :
日常作业中,企业需求将 APP 或网站发生的行为日志和业务数据,经过 Kafka 音讯行列统一搜集后,投递到数据仓库 MaxCompute 中,再经过大数据剖析后将指标数据在报表中展现,如用户特征、销售排名、订单区域分布等。
经过本次试验,咱们能够学习了解 Kafka数据如何经过 Dataworks 数据集成同步到 MaxCompute ;
计划阐明 :
计划一,运用自定义资源组的布景一般为网络环境杂乱适用于数据上云的场景,该试验将展现使 CS 作为自定义资源组的操作进程。
计划二,运用独享集成资源组布景一般为集成资源不足影响数据同步进程,该试验将展现运用独享资源组的操作方法
(要点关注 VPC 的绑定).
一.Kafka 音讯行列运用以及原理
1、Kafka 产 品概述
音讯行列 for Apache Kafka 是阿里云提供的分布式、高吞吐、可扩展的音讯行列服务。音讯行列 for Apache Kafka 广泛用于日志搜集、监控数据聚合、流式数据处理、在线和离线剖析等大数据范畴。
音讯行列 for Apache Kafka 针对开源的Apache Kafka 提供全托管服务,彻底解决开源产品长期以来的痛点。有了音讯行列 for Apache Kafka ,您只需专注于业务开发,无需布置运维,具有低成本、更弹性、更牢靠的优势。
2、Kafka 架构介绍
一个典型的音讯行列 for Apache Kafka 集群包括四个部分:
(1) Producer :经过 push 形式向音讯行列 for Apache Kafka 的 Kafka Broker 发送音讯。发送的音讯能够是网站自官自 的页面拜访、服务器日志,也能够是 CPU 和内存相关的系统资源信息。
(2) Kafka Broker :用于存储音讯的服务器。 Kafka Broker 支撑水平扩展。 Kafka Broker 节点的数量越多, Kafka 集群的吞吐率越高。
(3) Consumer Group :经过 pul 形式从音讯行列 for Apache Kafka Broker 订阅并消费音讯。
(4) Zookeeper :办理集群的装备、选举 leader 分区,并且在 Consumer Group 发生变化时,进行负载均衡。
3.Kafka 音讯行列购买以及布置
1) 到 Kafka 音讯行列产品页面点击购买,挑选对应消费方法,区域,实例类型,磁盘,流量以及息寄存时间。
2) 开通完结之后点击布置,挑选合适的 VPC 以及交 换机注意可用区的位置。
3) 进入 Topic 办理页面,点击创立 Topic 按钮,创立个人的 Topic . Group .
4) 进入 Consumer Group 办理,点击创立 Consumer Group ,创立自己所需的 Consumer Group .
4.Kafka 白名单装备
确认需求拜访需求拜访 Kafka 的网段信息。
二.资源组介绍以及装备
1. 自定义资源组的运用布景
DataWorks 能够经过免费传输才能(默许使命资源组)进行海量数据上云,但默许资源组无法实现传输速度存在较高要求或杂乱环境中的数据源同步上云的需求。您能够新增自定义的使命资源运转数据同步使命,解决DataWorks 默许资源组与您的数据源不通的问题,或实现更高速度的传输才能。
当默许使命资源无法与您的杂乱的网络环境连通时,能够经过数据集成自定义资源的布置,打通恣意网络环境之间的数据传输同步。
2.自定义资源组的装备
1) 进入 Dataworks 控制台,点击需求数据同步的项目空间,点击数据集成。
2) 进入数据源界面,点击新増自定义资租。
3) 确认 Kafka 与需求增加自定义资源组归于同一个 VPC下.
4) 登录 ECs ,履行命令 dmidecode I grep UUID 得到ECs 的 UUID .
5) 将 ECS 的 UUID 以及护,所占用资源的 CPU 与内存填写进来。
6) 在 ECS 上履行安装 Agent 的命令,增加完结测验连通性。
3.独享资源组的运用布景
独享资源形式下,机器的物理资源(网络、磁盘、 CPU 和内存等)完全独享。不仅能够隔离用户间的资源运用,也能够隔离不同作业空间使命的资源运用。此外,独享资源也支撑灵活的扩容、缩容功能,能够满足资源独享、灵活装备等需求。
独享资源组能够拜访同一地域的 VPC 数据源,也能够拜访跨地域的公网 RDS 地址。
7) 进入 DataWorks 控制台的资源组列表,点击新增独享集成资源组,点击购买挑选对应的区域, CPU 以及内存。
8) 点击专有网路绑定,挑选与 Kafka 对应 VPC 以及交换机明显的区别是可用区),安全组。
三.同步进程及其注意事项
1. DataWorks 数据集成操作
1) 进入 DataWorks 操作界面,点击创立业务流程,在新建的业务流程里增加数据同步节点。
2) 进入数据同步节点,点击数据源为 Kafka ,点击转化为脚本形式。
2. Kafka Reader的主要参数讲解
3.Kafka同步数据到MaxCompute
4.参阅Kafka出产者SDK编写代码
详细代码参阅文档涉及到装备文件,音讯来源,出产者顾客的代码模板:
https://help.alivm.com/document detail/9995 7 .html?spma2c4g.11186623.6.566.45fc54eaxX69b0
5.代码打包运转之在ECS上(与Kafka同一个可用区)
1.履行 crontab - e 履行定时使命发送音讯
017***java - jar home / expot/ upload/javaCode З. jar >> home / export / upload /logfile . log
2.检查发送音讯的定时使命日志
6.在 MaxCompute 上创立表
1.创立目标表界面
2.DDL句子
CREATE TABLE ` testkafka З`(`
value ` string ,
` timestampl ` string ,[ partition ` string , offset ` string
));
四.开发测验以及出产布置
1.挑选自定义资源组(或独享集成资源组)进行同步操作
① 挑选可运用的独享资源组与自定义资源组进行同步。
② 同步使命成功会显示,同步数据记录以及成果标志。
2.查询同步的数据成果
在 Datalorks 的临时界面检查同步数据成果。
3.设置调度参数
① 点击右侧调度装备,输入调入时间。
② 参阅 Datalork 官方文档完善业务处理流程。
4.业务流程节点,并打包发布
① 点击业务流程,提交业务流程节点。
② 进入使命发布界面,将节点增加到特发布进行使命的布置。
5.确认业务流程发布成功
在运维中心页面,确认发布是否在出产环境中存在,至此 Kafka 同步数据到 MaxCompute 进程完毕。
我有话说: