详情页标题前

阿里云对象存储OSS导出OSS-HDFS清单-云淘科技

详情页1

使用清单导出功能,您可以将某个Bucket下的OSS-HDFS服务的文件清单导出到某个特定路径,格式为JSON文件,方便您对元数据进行统计分析。

前提条件

  • 使用4.6.0及以上版本JindoSDK。下载地址,请参见JindoData下载。

  • 配置OSS-HDFS服务下Bucket的访问密钥。

    具体操作,请参见通过Jindo CLI命令访问OSS/OSS-HDFS。

操作步骤

  1. 导出清单。

    1. 登录OSS管理控制台。

    2. 单击Bucket 列表,然后单击目标Bucket名称。

    3. 在左侧导航栏,选择数据湖管理 > HDFS 服务

    4. 导出元数据清单区域,单击导出

      导出过程大约需要数分钟乃至数小时,具体用时取决于元数据量的大小。输出的清单结果文件默认保存在oss://./.sysinfo/inventory/路径下,暂不支持自定义输出路径。

      重要

      .sysinfo/inventory/目录不支持删除。该目录下的结果文件支持访问和删除。

  2. 下载文件。

    执行以下命令下载清单结果文件。

    jindo fs -get oss://./.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d**** /tmp/
  3. 通过vi或vim命令打开清单结果文件。

    清单导出结果文件示例如下:

    {"id":163**,"path":"/","type":"directory","size":0,"user":"admin","group":"supergroup","atime":0,"mtime":1666581702933,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1/490747449","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":0,"mtime":1660895613953,"permission":511}

    清单导出结果文件的各字段含义说明如下:

    字段

    含义

    id

    文件或目录ID。

    path

    文件或目录路径。

    type

    元数据类型。

    • directory:表示目录。

    • file:表示文件。

    size

    数据大小,单位为字节。

    • 当元数据类型为file时,size字段的值为文件大小。

    • 当元数据类型为directory,size字段的值为0。

    user

    文件或目录所属的owner。

    group

    文件或目录所属的用户组。

    atime

    文件或目录的访问时间,取值固定为0,暂不支持统计。

    mtime

    文件或目录的修改时间,格式为时间戳。

    permission

    文件或者目录的权限。

  4. (可选)删除清单导出结果文件。

    OSS-HDFS清单导出结果文件会占用存储空间,进而产生存储费用。如果您确认不再需要保留该清单导出结果文件,建议通过Hadoop命令的方式及时删除。

    重要

    删除清单导出结果文件时,清单导出结果文件所在路径必须与步骤1输出结果中Data Location保持一致,避免误删除.dlsdata和.sysinfo路径下的系统数据。

    执行Jindo CLI命令删除清单导出结果文件的示例如下:

    jindo fs -rm -skipTrash oss://./.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d****

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/157640.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云对象存储OSS将半托管JindoFS集群迁移到OSS-HDFS服务-云淘科技

    本文介绍如何将半托管JindoFS集群迁移到OSS-HDFS服务。 前提条件 半托管JindoFS集群对应的OSS Bucket已开通OSS-HDFS服务。 半托管JindoFS集群已开启AuditLog。 使用4.5.0及以上版本JindoSDK。下载地址,请参见GitHub。 步骤一:全量迁移 全量迁移模式负责将半托管JindoFS集群中的某个目录中的元…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSS删除存储空间-云淘科技

    当您不再需要保留某个存储空间(Bucket)时,可将其删除,以免产生额外费用。 警告 删除Bucket后,Bucket中的数据无法恢复,请在删除前确认数据已不再使用。如果需要继续使用Bucket中的数据,请提前做好备份。关于备份的更多信息,请参见备份存储空间。 前提条件 已删除Bucket中所有的文件(Object)。 手动删除少量文件。具体操作,请参见删除…

    阿里云对象存储 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云对象存储OSS通过SeaTunnel集成平台将数据写入OSS-HDFS服务-云淘科技

    SeaTunnel是一个开源、易用的超高性能分布式数据集成平台,支持海量数据的实时同步。本文介绍如何通过SeaTunnel集成平台将数据写入OSS-HDFS服务。 背景信息 SeaTunnel可稳定高效地同步百亿级数据,专注于数据集成和数据同步,主要解决数据集成领域的以下问题。 数据源多样 常用的数据源有数百种,版本不兼容。随着新技术的出现,可能出现更多的数…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSS开通并授权访问OSS-HDFS服务-云淘科技

    本文介绍如何开通并授权访问OSS-HDFS服务。 前提条件 华东1(杭州)、华东2(上海)、华北1(青岛)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、华南3(广州)、华北3(张家口)、中国香港、日本(东京)、新加坡、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)、印度尼西亚(雅加达)地域的存储空间支持使用OSS-HDFS服务。无地域属性的存储空间…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSS导出OSS-HDFS清单-云淘科技

    使用清单导出功能,您可以将某个Bucket下的OSS-HDFS服务的文件清单导出到某个特定路径,格式为JSON文件,方便您对元数据进行统计分析。 前提条件 使用4.6.0及以上版本JindoSDK。下载地址,请参见JindoData下载。 配置OSS-HDFS服务下Bucket的访问密钥。 具体操作,请参见通过Jindo CLI命令访问OSS/OSS-HDF…

    阿里云对象存储 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。