通过JindoDistCp将HDFS数据迁移到OSS-HDFS时,支持对OSS-HDFS服务的文件内容进行检验。
前提条件
使用4.6.2及以上版本JindoData。下载地址,请参见GitHub。
操作步骤
-
计算通过JindoDistCp迁移的目标目录的文件checksum。
-
命令格式
jindo distjob -checksum --src --dest --blockSize --recalculate
-
参数说明
参数
是否必选
说明
–src
是
待执行文件内容校验的服务路径,仅支持OSS-HDFS服务或者HDFS服务路径。
–dest
是
输出checksum文件的目标路径。
–blockSize
否
源文件写入的blockSize,单位为字节。
默认值:134217728
–recalculate
否
仅当–src参数值配置为OSS-HDFS服务路径并启用该选项时,会在读取文件时重新计算checksum。
-
使用示例
例如,已开通OSS-HDFS服务的Bucket名称为examplebucket,需要执行文件内容校验的路径为oss://dlsbucket/test,输出checksum文件的目标路径为oss://ossbucket/test-dls,执行命令如下:
jindo distjob -checksum --src oss://dlsbucket/test --dest oss://ossbucket/test-dls --recalculate
-
-
计算输出JindoDistCp迁移的源目录的文件checksum。
例如,JindoDistCp的源目录为hdfs:///test,输出checksum文件到OSS目录oss://ossbucket/test-hdfs,执行命令如下:
jindo distjob -checksum --src hdfs:///test --dest oss://ossbucket/test-hdfs
-
通过JindoDistCp的–diff选项对比步骤1和步骤2输出的文件checksum。
hadoop jar jindo-distcp-tool-${version}.jar --src oss://ossbucket/test-hdfs --dest oss://ossbucket/test-dls --diff
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/157644.html