详情页标题前

阿里云对象存储OSSSqoop以EMR集群的方式读写OSS-HDFS服务的数据-云淘科技

详情页1

本文介绍Sqoop如何以EMR集群的方式读写OSS-HDFS服务的数据。

前提条件

  • 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建时择了Sqoop。具体步骤,请参见创建集群。

  • 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。

操作步骤

  1. 登录EMR集群。

    1. 登录EMR on ECS控制台。

    2. 单击创建的EMR集群。

    3. 单击节点管理页签,然后单击节点组左侧的阿里云对象存储OSSSqoop以EMR集群的方式读写OSS-HDFS服务的数据-云淘科技

    4. 单击ECS ID。在ECS实例页面,单击实例ID右侧的远程连接

    如果您希望使用SSH方式(SSH密钥对或SSH密码)在Windows和Linux环境中登录集群,请参见登录集群。

  2. 将OSS-HDFS数据导入MySQL。

    sudo sqoop import --connect  / --username  --password  --table  --target-dir   --temporary-rootdir  --check-column  --incremental  --last-value  -as  -m 
    • 参数说明

      参数

      是否必选

      说明

      dburi

      必选

      数据库的访问链接,例如jdbc:mysql://192.168.xxx.xxx:3306/

      dbname

      必选

      数据库的名称。

      username

      必选

      数据库登录用户名。

      password

      必选

      数据库登录密码。

      tablename

      必选

      MySQL表的名称。

      oss-dir

      必选

      读取或写入OSS-HDFS服务指定路径下的数据,例如oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/

      oss-tmpdir

      可选

      临时写入目录。指定mode为append模式时,需要指定该参数。

      采用append模式后,Sqoop会先将数据导入临时目录,然后将文件重命名为正常目标目录。如果目标目录已经存在于HDFS中,则Sqoop拒绝导入并覆盖该目录的内容。

      col

      可选

      增量导入场景的检查列。

      mode

      可选

      增量导入模式,支持append和lastmodified两种模式。

      • append模式:基于递增列的增量数据导入。

      • lastmodified模式:基于时间列的增量数据导入。

      value

      可选

      指定上次增量导入的检查列的最大值。

      format

      可选

      文件存储的格式。取值为avrodatafile、sequencefile、textfile(默认值)、parquetfile。

      count

      可选

      指定MapReduce的任务数。

    • 使用示例

      将OSS-HDFS服务examplebucket中指定路径下的数据导入MySQL中的数据库表src_kv。

      sqoop import --connect jdbc:mysql://master-1-1/sqoop_test --username root --password password1  --table src_kv -m 1 --target-dir oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/tmp/sqoop_kv --as-parquetfile

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/157684.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云日志服务SLS添加多Y轴线图-云淘科技

    当您需要在一个线图中添加不同种类或不同数量级的数据时,可在线图中添加多Y轴。本文介绍添加多Y轴线图的操作步骤。 前提条件 已创建仪表盘。具体操作,请参见创建仪表盘。 已采集网站访问日志到目标Logstore。具体操作,请参见数据采集概述。 已配置索引。具体操作,请参见创建索引。 资源信息与数据样例 公司A将其网站访问日志存储在名为website_log的Lo…

    2023年12月10日
  • 阿里云RDS数据库创建标签-云淘科技

    如果您有大量实例,可以通过给实例绑定标签,对实例进行分类管理。每个标签由一对键值组成,您可以通过键值,对实例进行二级分类。 限制说明 每个实例最多可以绑定20个标签,且标签键必须唯一。相同的标签键会被覆盖。 每次最多设置50个实例进行批量标签绑定。 不同地域的标签信息是独立的。 任一标签在解绑后,如果没有绑定任何实例,则该标签会被删除。 单个实例添加标签 登…

    2023年12月9日
  • 阿里云人工智能平台PAI处理标注任务-云淘科技

    创建标注任务后,您需要按照任务流程为任务包进行打标、检查或验收,从而获得标注好的数据,为模型训练做准备。本文以处理图像类标注任务为例,为您介绍如何处理标注任务,其他类型的标注任务操作类似。 前提条件 管理员已分配标注任务,详情请参见创建标注任务。 使用限制 仅管理员或标注管理员可以进行标注相关操作。如果您的账号没有权限,请联系管理员为您的账号授予标注管理员权…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云ECS云服务器DescribeAutoSnapshotPolicyEx-云淘科技

    调用DescribeAutoSnapshotPolicyEx查询您在某个地域下,所有已创建的符合查询条件的自动快照策略。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 请求参数 名称 类型 是否必选 示例值 描述 Action String 是 …

    阿里云服务器 2023年12月9日
  • 阿里云负载均衡使用访问日志快速定位异常后端服务器-云淘科技

    某段时间客户端访问延迟时,您可以结合阿里云日志服务,通过仪表盘巡检,分析传统型负载均衡CLB(Classic Load Balancer)的响应时间,快速定位异常后端服务器。本教程介绍如何使用访问日志快速定位异常后端服务器。 前提条件 您已经创建了七层CLB实例。具体操作,请参见创建实例和添加HTTP监听。 您已经开通了日志服务。具体操作,请参见开通日志服务…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。