详情页标题前

腾讯云对象存储在计算集群中挂载 COS 存储桶

详情页1

简介

对象存储(Cloud Object Storage,COS)可以通过开启元数据加速能力,拥有 HDFS 协议访问的能力。开启元数据加速能力后,COS 会为存储桶生成一个挂载点,您可以通过下载 HDFS 客户端,在客户端中输入该挂载点挂载 COS。本文将详细介绍如何在计算集群中挂载开启元数据加速的存储桶。注意Hadoop-cos 自8.1.5版本开始支持 cosn://bucketname-appid/ 方式访问元数据加速桶。元数据加速功能只能在创建存储桶时开启,开启后不支持关闭,请结合您的业务情况慎重考虑是否开启,同时注意旧版本的 Hadoop-cos 包不能正常访问已开启元数据加速功能的存储桶。

前提条件

确保计算集群中需要挂载的机器或者容器内已安装 Java 1.8确保计算集群中需要挂载的机器或者容器已授权访问,您需要在 HDFS 权限配置里指定可访问的 VPC 网络和 IP 地址。依赖 JAR 包说明:chdfs_hadoop_plugin_network-2.8.jar verison ≥ 2.7。cos_api-bundle.jar version ≥ 5.6.69。Hadoop-cos version ≥ 8.1.5。ofs-java-sdk.jar (version ≥ 1.0.4) 自动拉取无需安装,运行 hadoop fs ls 成功后可以在 fs.cosn.trsf.fs.ofs.tmp.cache.dir 配置的目录下查看对应版本是否符合预期。

操作步骤

1. 下载 Hadoop 客户端工具安装包2. 下载 POSIX Hadoop 客户端工具安装包3. 下载 cos java sdk 安装包4. 将安装包放到各节点 classpath 下保证任务启动能正常加载,例如 $HADOOP_HOME/share/hadoop/common/lib/ 下。注意 EMR 环境下自带依赖 jar 包,无需安装,可直接通过 POSIX 语义访问元数据加速桶。如需使用 s3 协议访问,则更改 fs.cosn.posix_bucket.fs.impl 配置项,详情请参见下文。5. 编辑 core-site.xml 文件,新增以下基本配置:注意建议用户尽量避免在配置中使用永久密钥,采取配置子账号密钥或者临时密钥的方式有助于提升业务安全性。为子账号授权时请遵循 最小权限指引原则,避免发生预期外的数据泄露。如果您一定要使用永久密钥,建议对永久密钥的权限范围进行限制,可参考 最小权限指引原则 通过限制永久密钥的可执行操作、资源范围和条件(访问 IP 等),提升使用安全性。

<!--账户的 API 密钥信息。可登录 [访问管理控制台](https://console.cloud.tencent.com/capi) 查看云 API 密钥。--><!--建议使用子账号密钥或者临时密钥的方式完成配置,提升配置安全性。为子账号授权时请遵循[最小权限指引原则](https://cloud.tencent.com/document/product/436/38618)。--><property>         <name>fs.cosn.userinfo.secretId/secretKey</name>         <value>AKIDxxxxxxxxxxxxxxxxxxxxx</value></property>
<!--cosn 的实现类--><property> <name>fs.AbstractFileSystem.cosn.impl</name> <value>org.apache.hadoop.fs.CosN</value></property>
<!--cosn 的实现类--><property> <name>fs.cosn.impl</name> <value>org.apache.hadoop.fs.CosFileSystem</value></property>
<!--用户存储桶的地域信息,格式形如 ap-guangzhou--> <property> <name>fs.cosn.bucket.region</name> <value>ap-guangzhou</value></property>
<!--本地临时目录,用于存放运行过程中产生的临时文件-> <property> <name>fs.cosn.tmp.dir</name> <value>/tmp/hadoop_cos</value></property>

6. core-site.xml同步到所有hadoop节点上。说明对于 EMR 集群,以上步骤3、4可在 EMR 控制台的组件管理中,修改 HDFS 配置即可。7. 使用 hadoop fs 命令行工具,运行 hadoop fs -ls cosn://${bucketname-appid}/ 命令,这里 bucketname-appid 为挂载地址,即存储桶名称。如果正常列出文件列表,则说明已经成功挂载 COS 存储桶。8. 用户也可使用 hadoop 其他配置项,或者 mr 任务在开启了元数据加速能力的 COS 存储桶上运行数据任务。对于 mr 任务,可以通过 -Dfs.defaultFS=ofs://${bucketname-appid}/ 将本次任务的默认输入输出 FS 改为对应的存储桶。

配置项说明

说明这里可以通过 POSIX 语义访问、S3协议访问两种方式访问元数据加速存储桶,我们这里建议使用 POSIX 语义访问方式,可以获得更好的性能。

1. 通用必填配置项

注意无论以哪种方式访问元数据加速存储桶,如下通用配置项必须设置。

配置项 配置项内容 说明
fs.cosn.userinfo.secretId/secretKey 格式形如 AKIDxxxxxxxxxxxxxxxxxxxx 填写您账户的 API 密钥信息。可登录 访问管理控制台 查看云 API 密钥。
fs.cosn.impl org.apache.hadoop.fs.CosFileSystem cosn 对 FileSystem 的实现类,固定为 org.apache.hadoop.fs.CosFileSystem。
fs.AbstractFileSystem.cosn.impl org.apache.hadoop.fs.CosN cosn 对 AbstractFileSystem 的实现类,固定为 org.apache.hadoop.fs.CosN。
fs.cosn.bucket.region 格式形如 ap-beijing 请填写待访问存储桶的地域信息,枚举值请参见 地域和访问域名 中的地域简称,例如:ap-beijing、ap-guangzhou 等。兼容原有配置:fs.cosn.userinfo.region。
fs.cosn.tmp.dir 默认/tmp/hadoop_cos 请设置一个实际存在的本地目录,运行过程中产生的临时文件会暂时放于此处。同时建议配置各节点该目录足够的空间和权限。

2. POSIX 访问方式必填配置项(推荐方式)

说明POSIX 访问方式下除通用配置项外,还需要添加以下配置内容。POSIX 访问方式的 其他可选配置项 添加”fs.cosn.trsf.” 前缀即可用于访问元数据加速桶。需要注意的是原有 Hadoop cos 相关的配置项不再适用。

配置项 配置项内容 说明
fs.cosn.trsf.fs.AbstractFileSystem.ofs.impl com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter 元数据桶访问实现类
fs.cosn.trsf.fs.ofs.impl com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter 元数据桶访问实现类
fs.cosn.trsf.fs.ofs.tmp.cache.dir 格式形如 /data/emr/hdfs/tmp/posix-cosn/ 请设置一个实际存在的本地目录,运行过程中产生的临时文件会暂时放于此处。同时建议配置各节点该目录足够的空间和权限,例如"/data/emr/hdfs/tmp/posix-cosn/"
fs.cosn.trsf.fs.ofs.user.appid 格式形如 12500000000 必填。用户 appid
fs.cosn.trsf.fs.ofs.bucket.region 格式形如 ap-beijing 必填。用户 bucket 对应 region

3. S3 协议访问方式必填配置项

S3协议访问方式需要设置如下配置,其他可选项请参见 Hadoop-cos 配置项

配置项 配置项内容 说明
fs.cosn.posix_bucket.fs.impl org.apache.hadoop.fs.CosNFileSystem POSIX 方式访问配置为 com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter S3 协议方式访问配置为 org.apache.hadoop.fs.CosNFileSystem, 默认 POSIX 方式访问。

5. 注意事项

1. 不能使用旧的 hadoop cos jar 包访问开启元数据加速的存储桶。2. 使用 Hadoop cos ≤ 8.1.5 版本 posix 方式访问已开启元数据加速的存储桶需要在控制台关闭 ranger 校验,8.1.5以上版本可支持在控制台打开 ranger 校验。
对象存储官网1折活动,限时活动,即将结束,速速收藏
同尘科技腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/144840.html

(0)
上一篇 2023年12月9日 上午1:52
下一篇 2023年12月9日 上午1:52
详情页2

相关推荐

  • 腾讯云容器服务原生 Kubernetes 名词对照同尘科技

    本文主要进行腾讯云容器服务 TKE 与原生 Kubernetes 名词对照。如下表: 容器服务 TKE 原生 Kubernetes 集群 Cluster 节点 Node 节点池 NodePool 容器 Container 镜像 Image 实例 Pod 命名空间 Namespace 无状态工作负载 Deployment 有状态工作负载 StatefulSet…

    腾讯云 2023年12月9日
  • DataWorks 数据源名: mysql 资源组: 公共(默认)资源组,帮忙看一下?-云小二-阿里云

    DataWorks中not support data sync channel, error code: 0001 数据源名: mysql 资源组: 公共(默认)资源组? 以下为热心网友提供的参考意见 可能是因为您使用了默认的公共资源组,而该资源组不支持数据同步功能。 解决方法: 将数据源资源组更改为支持数据同步的资源组。在DataWorks中,您可以将资源…

    阿里云 2023年12月31日
  • 腾讯云云点播点播转直播

    简介 点播转直播(伪直播)依托于点播的播放控制能力,将点播文件增加“限制观看时间”和“同步观看进度”两种访问控制的功能,使点播文件达成类直播效果,用户可以首先生成点播文件,在指定的直播时间使用点播文件进行类直播分发,有效的降低直播的风险与成本。伪直播进行过程中无法快进,常见于在线教学视频、直播晚会和广电等行业。点播转直播功能具有如下优势: 项目 说明 开发成…

    腾讯云 2023年12月9日
  • 阿里云负载均衡产品架构-云淘科技

    负载均衡基础架构是采用集群部署,提供四层(TCP协议和UDP协议)和七层(HTTP和HTTPS协议)的负载均衡,可实现会话同步,以消除服务器单点故障,提升冗余,保证服务的稳定性。 负载均衡作为流量转发服务,将来自客户端的请求通过负载均衡集群转发至后端服务器,后端服务器再将响应通过内网返回给负载均衡。 基础架构说明 阿里云当前提供四层和七层的负载均衡服务。 四…

    阿里云负载均衡 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云对象存储Android SDK 常见问题

    客户端网络正常,但是通过 HTTP 访问 COS 非常慢,或者报错 Connection reset,该如何处理? 部分区域的运营商可能会对 COS 的域名进行劫持,因此尽量通过 HTTPS 来访问 COS。 调用完成分块上传接口时没有包含 etag 信息,导致报错 400 BadRequest,该如何处理? 可能是所在的网络过滤了 Etag 头部,SDK …

    腾讯云 2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。