详情页标题前

腾讯云对象存储Hadoop 文件系统与 COS 之间的数据迁移

详情页1

简介

Hadoop Distcp(Distributed copy)主要是用于 Hadoop 文件系统内部或之间进行大规模数据复制的工具,它基于 Map/Reduce 实现文件分发、错误处理以及最终的报告生成。由于利用了 Map/Reduce 的并行处理能力,每个 Map 任务负责完成源路径中部分文件的复制,因此它可以充分利用集群资源来快速完成集群或 Hadoop 文件系统之间的大规模数据迁移。由于 Hadoop-COS 实现了 Hadoop 文件系统的语义,因此利用 Hadoop Distcp 工具可以方便地在对象存储(Cloud Object Storage,COS)与其他 Hadoop 文件系统之间进行双向的数据迁移,本文就以 HDFS 为例,介绍 Hadoop 文件系统与 COS 之间利用 Hadoop Distcp 工具完成数据迁移的方式。

前提条件

1. Hadoop 集群中已经安装 Hadoop-COS 插件,并且正确配置了 COS 的访问密钥等。可使用如下 Hadoop 命令检查 COS 访问是否正常:

hadoop fs -ls cosn://examplebucket-1250000000/

如果能够正确地列出 COS Bucket 中的文件列表,则表示 Hadoop-COS 安装和配置正确,可以进行以下实践步骤。2. COS 的访问账户必须要具备读写 COS 存储桶中目标路径的权限。注意您可以按需授予子账号读写 COS 存储桶内资源的权限,建议按照 最小权限原则子用户授权指南 进行授权,以下几种是常见预设策略:DataFullControl:数据全读写权限,包含读、写、列出文件列表以及删除操作,建议谨慎授予。QcloudCOSDataReadOnly:数据只读权限。QcloudCOSDataWriteOnly:数据只写权限。如果需要使用自定义监控能力,需要授权腾讯云可观测平台指标上报和读取接口操作权限,请谨慎授予 QcloudMonitorFullAccess 或者按需授予 腾讯云可观测平台接口 权限。

实践步骤

将 HDFS 中的数据复制到 COS 的存储桶中

通过 Hadoop Distcp 将本地 HDFS 集群中/test目录下的文件迁移到 COS 的 hdfs-test-1250000000 存储桶中。

腾讯云对象存储Hadoop 文件系统与 COS 之间的数据迁移


1. 执行如下命令启动迁移:

hadoop distcp hdfs://10.0.0.3:9000/test cosn://hdfs-test-1250000000/

Hadoop Distcp 会启动 MapReduce 作业来执行文件复制任务,完成后会输出简单报表信息,如下图所示:

腾讯云对象存储Hadoop 文件系统与 COS 之间的数据迁移

2. 执行hadoop fs -ls -R cosn://hdfs-test-1250000000/命令可以列出刚才已迁移到存储桶 hdfs-test-1250000000 的目录和文件。

腾讯云对象存储Hadoop 文件系统与 COS 之间的数据迁移



将 COS 中存储桶的文件复制到本地 HDFS 集群

Hadoop Distcp 是一个支持不同集群和文件系统之间复制数据的工具,因此,将 COS 存储桶中的对象路径作为源路径,HDFS 的文件路径作为目标路径即可将 COS 中的数据文件复制到本地 HDFS:

hadoop distcp cosn://hdfs-test-1250000000/test hdfs://10.0.0.3:9000/

指定配置 Distcp 命令行参数进行 HDFS 和 COS 之间的数据迁移

说明 该命令行配置支持双向操作,可支持 HDFS 数据迁移到 COS,也可以将 COS 数据迁移到 HDFS。用户可直接配置以下命令:

hadoop distcp -Dfs.cosn.impl=org.apache.hadoop.fs.CosFileSystem -Dfs.cosn.bucket.region=ap-XXX  -Dfs.cosn.userinfo.secretId=AK**XXX  -Dfs.cosn.userinfo.secretKey=XXXX  -libjars /home/hadoop/hadoop-cos-2.6.5-shaded.jar  cosn://bucketname-appid/test/ hdfs:///test/

参数说明如下:Dfs.cosn.impl:始终配置为 org.apache.hadoop.fs.CosFileSystem。Dfs.cosn.bucket.region:填写存储桶所在地域,可在 COS 控制台存储桶列表中查看。Dfs.cosn.userinfo.secretId:填写存储桶拥有者账号下的 SecretId,可前往 API 密钥 中获取。Dfs.cosn.userinfo.secretKey:填写存储桶拥有者账号下的 secretKey,可前往 云 API 密钥 中获取。libjars:指定 Hadoop-COS jar 包位置。Hadoop-COS jar 包可前往 Github 仓库 中的 dep 目录下进行下载。说明 其他参数请参考 Hadoop 工具 文档

Hadoop distcp 的扩展参数

Hadoop distcp 工具支持丰富的运行参数。例如,可以通过-m来指定最大用于并行复制的 Map 任务数目,-bandwidth来限制每个 map 所使用的最大带宽等。具体可参考 Apache Hadoop distcp 工具的官方文档:DistCp Guide
对象存储官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/144329.html

(0)
上一篇 2023年12月9日
下一篇 2023年12月9日
详情页2

相关推荐

  • 阿里云对象存储OSS.NET下载文件概述-云淘科技

    OSS .NET SDK提供了丰富的文件下载方式: 流式下载 范围下载 断点续传下载 下载过程中,您还可以通过进度条功能查看下载进度。 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯云限时活动1折起,即将结束: 马上收藏同尘科技为腾讯云授权服务中心。 购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    阿里云对象存储 2023年12月10日
  • 阿里云负载均衡健康检查概述-云淘科技

    负载均衡通过健康检查来判断后端服务器(ECS实例)的业务可用性。健康检查机制提高了前端业务整体可用性,避免了后端ECS异常对总体服务的影响。 开启健康检查功能后,当后端某台ECS健康检查出现异常时,负载均衡会自动将新的请求分发到其它健康检查正常的ECS上;而当该ECS恢复正常运行时,负载均衡会将其自动恢复到负载均衡服务中。 如果您的业务对负载敏感性高,高频率…

    阿里云负载均衡 2023年12月10日
  • 腾讯云对象存储对比度

    功能概述 对比度指一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级的测量,即指一幅图像灰度反差的大小。对象存储通过数据万象 imageMogr2 接口调节图片对比度。该功能支持以下处理方式:下载时处理上传时处理云上数据处理 授权说明 下载时处理:授权策略中 action 设置为 cos:GetObject。上传时处理:授权策略中 action 设置为 c…

    2023年12月9日
  • 腾讯云轻量应用服务器搭建 LAMP 开发环境云小二

    操作场景 LAMP(Linux+Apache+MySQL+PHP)是目前国际流行的 Web 应用框架,包括了 Linux 操作系统、Apache Web 服务器、MySQL/MariaDB 数据库和 PHP 编程语言环境以及相关组件支持。说明LAMP 应用镜像底层基于 CentOS 7.6 64位操作系统。 操作步骤 1. 登录 轻量应用服务器控制台,在服务…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云云直播直播截图

    云直播可对直播流进行截图处理,截图将存储于对象存储 COS 中。使用截图功能会产生费用,以当月累计截图数量为结算标准。 注意事项 截图功能默认关闭,可通过控制台或云 API 开启。云直播截图存储于对象存储 COS 中,使用后将产生 COS 存储费用,详情请参见 COS 产品计费定价。截图功能产生费用,每月有1000张免费截图额度,超过1000张后将对超额部分…

    腾讯云 2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。