详情页标题前

阿里云对象存储OSS使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务-云淘科技

详情页1

本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS-HDFS服务

前提条件

  • 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。
  • 已创建DataLake集群,并选择了Flume服务。具体操作,请参见创建集群。
  • 已创建DataFlow集群,并选择了Kafka服务。具体操作,请参见创建集群。

操作步骤

  1. 配置Flume。
    1. 进入Flume的配置页面。
      1. 登录EMR on ECS控制台。
      2. 在顶部菜单栏处,根据实际情况选择地域和资源组。
      3. 在集群管理页面,单击目标集群操作列的集群服务。
      4. 在集群服务页面,单击FLUME服务区域的配置。
    2. 设置JVM最大可用内存(Xmx)。Flume向OSS-HDFS写入数据时需要占用较大的JVM内存,建议增加Flume Agent的Xmx。具体步骤如下:
      1. 单击flume-env.sh页签。

        本文采用了全局配置方式。如果您希望按照节点配置,可以在FLUME服务配置页面的下拉列表中选择独立节点配置。

      2. 修改JAVA_OPTS的参数值。

        例如,JVM最大可用内存设置为1 GB,则参数值修改为-Xmx1g。

      3. 单击保存。
    3. 修改flume-conf.properties配置。
      1. 单击flume-conf.properties页签。

        本文采用了全局配置方式。如果您希望按照节点配置,可以在FLUME服务配置页面的下拉列表中选择独立节点配置。

      2. 在flume-conf.properties右侧,输入以下配置项。


        说明 以下示例中的default-agent的值需与FLUME服务配置页面的agent_name参数值保持一致。

        default-agent.sources = source1
        default-agent.sinks = k1
        default-agent.channels = c1
        
        default-agent.sources.source1.type = org.apache.flume.source.kafka.KafkaSource
        default-agent.sources.source1.channels = c1
        default-agent.sources.source1.kafka.bootstrap.servers = 
        default-agent.sources.source1.kafka.topics = flume-test
        default-agent.sources.source1.kafka.consumer.group.id = flume-test-group
        
        default-agent.sinks.k1.type = hdfs
        default-agent.sinks.k1.hdfs.path = oss://..oss-dls.aliyuncs.com/
        default-agent.sinks.k1.hdfs.fileType=DataStream
        
        # Use a channel which buffers events in memory
        default-agent.channels.c1.type = memory
        default-agent.channels.c1.capacity = 100
        default-agent.channels.c1.transactionCapacity = 100
        
        # Bind the source and sink to the channel
        default-agent.sources.source1.channels = c1
        default-agent.sinks.k1.channel = c1
        参数 描述
        default-agent.sources.source1.kafka.bootstrap.servers Kafka集群Broker的Host和端口号。
        default-agent.sinks.k1.hdfs.path OSS-HDFS的路径。填写格式为oss://..oss-dls.aliyuncs.com/。示例值为oss://flume-test.cn-hangzhou.oss-dls.aliyuncs.com/result。

        各参数说明如下:

        • :填写已开启OSS-HDFS服务的Bucket名称。
        • :填写Bucket所在的地域ID。
        • :填写OSS-HDFS服务的目录名称。
        default-agent.channels.c1.capacity 通道中存储的最大事件数。请根据实际环境修改该参数值。
        default-agent.channels.c1.transactionCapacity 每个事务通道将从源接收或提供给接收器的最大事件数。请根据实际环境修改该参数值。
      3. 单击保存。
  2. 测试数据同步情况。
    1. 通过SSH方式连接DataFlow集群,详情请参见登录集群。
    2. 创建名称为flume-test的Topic。
      kafka-topics.sh --partitions 10 --replication-factor 2 --zookeeper master-1-1:2181/emr-kafka --topic flume-test --create
    3. 生成测试数据。
      kafka-console-producer.sh --topic flume-test --broker-list master-1-1:9092

      例如,输入abc并回车。

      在oss://flume-test.cn-hangzhou.oss-dls.aliyuncs.com/result路径下会以当前时间的时间戳(毫秒)为后缀生成格式为FlumeData.xxxx的文件。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/158929.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云日志服务SLS产品架构-云淘科技

    本文介绍日志服务的架构。 日志服务的架构如下图所示: 数据来源 日志服务支持采集开源软件、服务器与应用、阿里云产品、标准协议、移动端、物联网等多种来源的数据。 日志服务 数据类型 日志服务为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。更多信息,请参见日志(Log)、时序数据(Metric)、链路数据(Trace)。 功能特性 …

    阿里云日志服务SLS 2023年12月10日
  • 阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技

    由于DLF中数据入湖功能已经停止更新,本文采用DataWorks数据集成的入湖方式,以MySQL数据入湖为例,为您介绍在MaxCompute中如何创建外部项目,并查询DLF中的表数据。 MySQL数据入湖 DLF入湖详情请参见快速入门。 步骤一:创建数据湖的元数据库 登录数据湖管理控制台,在页面上方选择地域,在元数据 > 元数据管理页面创建元数据库。具…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云大数据开发治理平台 DataWorksMySQL数据源-云淘科技

    MySQL数据源为您提供读取和写入MySQL的双向通道,本文为您介绍DataWorks的MySQL数据同步的能力支持情况。 支持的MySQL版本 离线读写: 支持MySQL 5.5.x、MySQL 5.6.x、MySQL 5.7.x、MySQL 8.0.x,兼容Amazon RDS for MySQL。 离线同步支持读取视图表。 实时读取: 数据集成实时读取…

  • 阿里云日志服务SLS采集Log4j日志-云淘科技

    本文介绍如何通过Loghub Log4j Appender或Logtail采集Log4j日志。 背景信息 Log4j是Apache的一个开放源代码项目,通过Log4j,可以控制日志的优先级、输出目的地和输出格式。日志的优先级从高到低为ERROR、WARN、 INFO、DEBUG,日志的输出目的地指定了将日志打印到控制台还是文件中,输出格式控制了输出的日志内容…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云RDS数据库事件订阅-云淘科技

    数据库自治服务DAS(Database Autonomy Service)为RDS MySQL提供事件订阅功能,开启该功能后,如果相关事件被触发,将会根据设置的方式通知您。 前提条件 实例为如下版本: RDS MySQL 8.0 高可用版或集群版 RDS MySQL 5.7 高可用版或集群版 RDS MySQL 5.6 高可用版 RDS MySQL 5.5 …

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。