详情页标题前

阿里云对象存储OSS导出OSS-HDFS清单-云淘科技

详情页1

使用清单导出功能,您可以将某个Bucket下的OSS-HDFS服务的文件清单导出到某个特定路径,格式为JSON文件,方便您对元数据进行统计分析。

前提条件

  • 使用4.6.0及以上版本JindoSDK。下载地址,请参见JindoData下载。

  • 配置OSS-HDFS服务下Bucket的访问密钥。

    具体操作,请参见通过Jindo CLI命令访问OSS/OSS-HDFS。

操作步骤

  1. 导出清单。

    1. 登录OSS管理控制台。

    2. 单击Bucket 列表,然后单击目标Bucket名称。

    3. 在左侧导航栏,选择数据湖管理 > HDFS 服务

    4. 导出元数据清单区域,单击导出

      导出过程大约需要数分钟乃至数小时,具体用时取决于元数据量的大小。输出的清单结果文件默认保存在oss://./.sysinfo/inventory/路径下,暂不支持自定义输出路径。

      重要

      .sysinfo/inventory/目录不支持删除。该目录下的结果文件支持访问和删除。

  2. 下载文件。

    执行以下命令下载清单结果文件。

    jindo fs -get oss://./.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d**** /tmp/
  3. 通过vi或vim命令打开清单结果文件。

    清单导出结果文件示例如下:

    {"id":163**,"path":"/","type":"directory","size":0,"user":"admin","group":"supergroup","atime":0,"mtime":1666581702933,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1/490747449","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660895613953,"permission":511}

    清单导出结果文件的各字段含义说明如下:

    字段

    含义

    id

    文件或目录ID。

    path

    文件或目录路径。

    type

    元数据类型。

    • directory:表示目录。

    • file:表示文件。

    size

    数据大小,单位为字节。

    • 当元数据类型为file时,size字段的值为文件大小。

    • 当元数据类型为directory,size字段的值为0。

    user

    文件或目录所属的owner。

    group

    文件或目录所属的用户组。

    atime

    文件或目录的访问时间,取值固定为0,暂不支持统计。

    mtime

    文件或目录的修改时间,格式为时间戳。

    permission

    文件或者目录的权限。

  4. (可选)删除清单导出结果文件。

    OSS-HDFS清单导出结果文件会占用存储空间,进而产生存储费用。如果您确认不再需要保留该清单导出结果文件,建议通过Hadoop命令的方式及时删除。

    重要

    删除清单导出结果文件时,清单导出结果文件所在路径必须与步骤1输出结果中Data Location保持一致,避免误删除.dlsdata和.sysinfo路径下的系统数据。

    执行Jindo CLI命令删除清单导出结果文件的示例如下:

    jindo fs -rm -skipTrash oss://./.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d****

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/158841.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云对象存储OSSJava存储空间清单-云淘科技

    本文介绍如何添加、查看、批量列举和删除存储空间(Bucket)的清单(Inventory)配置。 注意事项 本文以华东1(杭州)外网Endpoint为例。如果您希望通过与OSS同地域的其他阿里云产品访问OSS,请使用内网Endpoint。关于OSS支持的Region与Endpoint的对应关系,请参见访问域名和数据中心。 本文以从环境变量读取访问凭证为例。如…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSS导出OSS-HDFS清单-云淘科技

    使用清单导出功能,您可以将某个Bucket下的OSS-HDFS服务的文件清单导出到某个特定路径,格式为JSON文件,方便您对元数据进行统计分析。 前提条件 使用4.6.0及以上版本JindoSDK。下载地址,请参见JindoData下载。 配置OSS-HDFS服务下Bucket的访问密钥。 具体操作,请参见通过Jindo CLI命令访问OSS/OSS-HDF…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSS开通并授权访问OSS-HDFS服务-云淘科技

    本文介绍如何开通并授权访问OSS-HDFS服务。 前提条件 华东1(杭州)、华东2(上海)、华北1(青岛)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、华南3(广州)、华北3(张家口)、中国香港、日本(东京)、新加坡、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)、印度尼西亚(雅加达)地域的存储空间支持使用OSS-HDFS服务。无地域属性的存储空间…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSS哪些因素会影响清单导出速度?-云淘科技

    清单的导出速度仅与待导出的Object数量有关,与Object的大小和导出周期无关。 当Object数量较多时(例如超出100亿),受限于清单导出速度,不建议以天为单位导出清单,否则可能会因任务的堆积,影响导出速度。 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯云限时活动1折起,即将结束: 马上收藏同尘科技…

    阿里云对象存储 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云对象存储OSS数据迁移概述-云淘科技

    本文介绍如何数据迁移至OSS或OSS-HDFS。 将数据迁移至OSS 您可以基于实际业务需求将本地、第三方存储设备或者OSS源存储空间(Bucket)内的数据迁移至OSS目标Bucket,具体如下表所示: 迁移方式 说明 相关文档 在线迁移 使用在线迁移服务,您可以将第三方数据轻松迁移至阿里云对象存储OSS,也可以在对象存储OSS之间进行跨账号、跨地域、以及…

    阿里云对象存储 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。