详情页标题前

腾讯云对象存储使用 DataX 导入或导出 COS

详情页1

环境依赖

HADOOP-COS 与对应版本的 cos_api-bundleDataX 版本:DataX-3.0。

下载与安装

获取 HADOOP-COS

在官方 Github 上下载 HADOOP-COS 与对应版本的 cos_api-bundle

获取 DataX 软件包

在官方 Github 上下载 DataX

安装 HADOOP-COS

下载 HADOOP-COS 后,将 hadoop-cos-2.x.x-${version}.jarcos_api-bundle-${version}.jar 拷贝到 Datax 解压路径plugin/reader/hdfsreader/libs/以及plugin/writer/hdfswriter/libs/下。

使用方法

DataX 配置

修改 datax.py 脚本

打开 DataX 解压目录下的 bin/datax.py 脚本,修改脚本中的 CLASS_PATH 变量为如下:

CLASS_PATH = ("%s/lib/*:%s/plugin/reader/hdfsreader/libs/*:%s/plugin/writer/hdfswriter/libs/*:.") % (DATAX_HOME, DATAX_HOME, DATAX_HOME)

在配置 JSON 文件里配置 hdfsreader 和 hdfswriter

示例 JSON 如下:

{    "job": {        "setting": {            "speed": {                "byte": 10485760            },            "errorLimit": {                "record": 0,                "percentage": 0.02            }        },        "content": [{            "reader": {                "name": "hdfsreader",                "parameter": {                    "path": "testfile",                    "defaultFS": "cosn://examplebucket-1250000000/",                    "column": ["*"],                    "fileType": "text",                    "encoding": "UTF-8",                    "hadoopConfig": {                        "fs.cosn.impl": "org.apache.hadoop.fs.CosFileSystem",                        "fs.cosn.userinfo.region": "ap-beijing",                        "fs.cosn.tmp.dir": "/tmp/hadoop_cos",                        "fs.cosn.userinfo.secretId": "COS_SECRETID",                        "fs.cosn.userinfo.secretKey": "COS_SECRETKEY"                    },                    "fieldDelimiter": ","                }            },            "writer": {                "name": "hdfswriter",                "parameter": {                    "path": "/user/hadoop/",                    "fileName": "testfile1",                    "defaultFS": "cosn://examplebucket-1250000000/",                    "column": [{                            "name": "col",                            "type": "string"                        },                        {                            "name": "col1",                            "type": "string"                        },                        {                            "name": "col2",                            "type": "string"                        }                    ],                    "fileType": "text",                    "encoding": "UTF-8",                    "hadoopConfig": {                        "fs.cosn.impl": "org.apache.hadoop.fs.CosFileSystem",                        "fs.cosn.userinfo.region": "ap-beijing",                        "fs.cosn.tmp.dir": "/tmp/hadoop_cos",                        "fs.cosn.userinfo.secretId": "COS_SECRETID",                        "fs.cosn.userinfo.secretKey": "COS_SECRETKEY"                    },                    "fieldDelimiter": ":",                    "writeMode": "append"                }            }        }]    }}

配置说明如下:hadoopConfig 配置为 cosn 所需要的配置。defaultFS 填写为 cosn 的路径,例如cosn://examplebucket-1250000000/fs.cosn.userinfo.region 修改为存储桶所在的地域,例如ap-beijing,详情请参见 地域和访问域名COS_SECRETID 和 COS_SECRETKEY 修改为 COS 密钥。其他配置同 hdfs 配置项即可。

执行数据迁移

将配置文件保存为 hdfs_job.json,存放到 job 目录下,执行以下命令行:

bin/datax.py job/hdfs_job.json

观察屏幕正常输出如下:

2020-03-09 16:49:59.543 [job-0] INFO  JobContainer -          [total cpu info] =>                 averageCpu                     | maxDeltaCpu                    | minDeltaCpu                                    -1.00%                         | -1.00%                         | -1.00%

[total gc info] => NAME | totalGCCount | maxDeltaGCCount | minDeltaGCCount | totalGCTime | maxDeltaGCTime | minDeltaGCTime PS MarkSweep | 1 | 1 | 1 | 0.024s | 0.024s | 0.024s PS Scavenge | 1 | 1 | 1 | 0.014s | 0.014s | 0.014s 
2020-03-09 16:49:59.543 [job-0] INFO JobContainer - PerfTrace not enable!2020-03-09 16:49:59.543 [job-0] INFO StandAloneJobContainerCommunicator - Total 2 records, 33 bytes | Speed 3B/s, 0 records/s | Error 0 records, 0 bytes | All Task WaitWriterTime 0.000s | All Task WaitReaderTime 0.033s | Percentage 100.00%2020-03-09 16:49:59.544 [job-0] INFO JobContainer - 任务启动时刻 : 2020-03-09 16:49:48任务结束时刻 : 2020-03-09 16:49:59任务总计耗时 : 11s任务平均流量 : 3B/s记录写入速度 : 0rec/s读出记录总数 : 2读写失败总数 : 0



对象存储官网1折活动,限时活动,即将结束,速速收藏
同尘科技腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/144543.html

(0)
上一篇 2023年12月9日
下一篇 2023年12月9日
详情页2

相关推荐

  • 腾讯云Serverless SSR产品概述-云淘

    Serverless SSR 产品基于 Serverless Cloud Framework 产品服务,针对 SSR 场景开发了对应的 Serverless 框架组件,帮助用户实现本地框架的快速云上迁移。为用户提供了方便配置、SEO 友好、首屏加载速度快、开发成本低的网页应用项目的开发/托管服务。 主要功能 快速迁移应用通过 Serverless SSR 提…

    腾讯云 2023年12月9日
  • 腾讯云对象存储深度归档存储简介

    简介 深度归档存储(Deep Archive)是对象存储(Cloud Object Storage,COS)提供的可让海量数据长期归档的存储服务。深度归档存储提供了磁带存储级别的存储单价,为用户数据长期存储提供了低成本方案。用户无需在本地维护复杂的磁带库配置,无需关注底层存储介质的演进,通过对象存储 COS 提供的 API、SDK、生态工具和控制台等丰富的人…

    2023年12月9日
  • 阿里云RDS数据库RDS实例间数据迁移-云淘科技

    本文介绍如何使用数据传输服务(Data Transmission Service,简称DTS),实现RDS实例间的数据迁移。DTS支持结构迁移、全量数据迁移以及增量数据迁移,同时使用这三种迁移类型可以实现在自建应用不停服的情况下,平滑地完成数据库的迁移。 前提条件 迁移场景中RDS实例的数据库类型必须满足如下条件: 源数据库 目标数据库 RDS MySQL(…

    阿里云数据库 2023年12月9日
  • 腾讯云容器服务集群 API Server 网络无法访问排障处理同尘科技

    开启内网访问后无法访问 您可以直接在容器服务控制台上 开启内网访问。如果开启内网访问之后仍出现无法访问的情况,建议您对应集群类型进行如下检查: 托管集群 参考 查看节点安全组配置 检查集群中节点的安全组是否正确放通30000-32768端口区间。 独立集群 1. 参考 查看节点安全组配置 检查集群中节点的安全组是否正确放通30000-32768端口区间。2.…

    腾讯云 2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云云直播自主拼装直播 URL

    注意事项 创建转码模板 并与播放域名进行 绑定 后,转码配置后的直播流,需将播放地址的 StreamName 拼接为StreamName_转码模板名称,更多详情请参见 播放配置。 前提条件 已注册腾讯云账号,并开通 腾讯云直播服务。已在 域名注册 申请域名,并备案成功。已在 云直播控制台 > 域名管理 中添加推流/播放域名,并 CNAME 成功。详细…

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。