详情页标题前

阿里云对象存储OSS在EMR Hive或Spark中访问OSS-HDFS-云淘科技

详情页1

EMR-3.42及后续版本或EMR-5.8.0及后续版本的集群,支持OSS-HDFS(JindoFS服务)作为数据存储,提供缓存加速服务和Ranger鉴权功能,使得在HiveSpark等大数据ETL场景将获得更好的性能和HDFS平迁能力。本文为您介绍E-MapReduce(简称EMR)Hive或Spark如何操作OSS-HDFS。

前提条件

  • 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见创建集群。
  • 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。

背景信息

OSS-HDFS服务是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好的满足大数据和AI领域丰富多样的数据湖计算场景,详细信息请参见OSS-HDFS服务概述。

操作步骤

说明 本示例以Hive操作OSS-HDFS为例介绍。您也可以参照此方式使用Spark操作OSS-HDFS。

  1. 登录集群,具体操作请参见登录集群。
  2. 创建指向OSS-HDFS的Hive表。

    1. 执行以下命令,进入Hive命令行。
      hive
    2. 执行以下命令,创建指向OSS-HDFS的数据库。

      CREATE DATABASE if not exists dw LOCATION 'oss://./';

      说明

      • 上述命令中的dw为数据库名,为任意路径,.为获取到的HDFS服务的域名。

      • 本示例使用OSS-HDFS的域名作为路径的前缀。如果您希望只使用Bucket名称来指向OSS-HDFS,则可以配置Bucket级别的Endpoint或全局Endpoint,具体操作请参见附录一:配置Endpoint的其他方式。
    3. 执行以下命令,使用新创建的数据库。
      use dw;
    4. 执行以下命令,在新建的数据库下创建表。
      CREATE TABLE IF NOT EXISTS employee(eid int, name String,salary String,destination String)
      COMMENT 'Employee details';
  3. 向表中插入数据。使用INSERT INTO语句向表写入数据,该语句会产生MapReduce作业。
    INSERT INTO employee(eid, name, salary, destination) values(1, 'liu hua', '100.0', '');
  4. 验证表数据。
    SELECT * FROM employee WHERE eid = 1;

    返回信息中会包含插入的数据。

    OK
    1       liu hua 100.0
    Time taken: 12.379 seconds, Fetched: 1 row(s)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/158924.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云云原生大数据计算服务 MaxComputeSpark访问湖仓一体外部数据源-云淘科技

    MaxCompute Spark目前已支持访问湖仓一体外部数据源,解决从Spark更换为MaxCompute处理数据时,需要迁移Spark作业到MaxCompute的问题,降低使用成本。本文为您介绍使用MaxCompute访问外部数据源的示例。 访问基于Hadoop外部数据源的外部项目 MaxCompute SQL访问外部项目表 — hadoop_exte…

  • 阿里云日志服务SLSSpark Streaming消费-云淘科技

    日志服务采集到日志数据后,您可以通过运行Spark Streaming任务消费日志数据。 日志服务提供的Spark SDK实现了Receiver模式和Direct模式两种消费模式。Maven依赖如下: com.aliyun.emr emr-logservice_2.11 1.7.2 Receiver模式 Receiver模式通过消费组消费日志数据并暂存在Sp…

    阿里云日志服务SLS 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云对象存储OSS删除存储空间-云淘科技

    当您不再需要保留某个存储空间(Bucket)时,可将其删除,以免产生额外费用。 警告 删除Bucket后,Bucket中的数据无法恢复,请在删除前确认数据已不再使用。如果需要继续使用Bucket中的数据,请提前做好备份。关于备份的更多信息,请参见备份存储空间。 前提条件 已删除Bucket中所有的文件(Object)。 手动删除少量文件。具体操作,请参见删除…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSSOSS-HDFS服务的冷热分层存储-云淘科技

    并不是所有OSS-HDFS中存储的数据都需要频繁访问,但基于数据合规或者存档等原因,部分数据仍然需要继续保存。针对以上问题,OSS-HDFS服务支持数据的冷热分层存储,对于经常需要访问的数据以标准类型进行存储,对于较少访问的数据以低频、归档以及冷归档类型进行存储,从而降低总存储成本。 前提条件 已在OSS-HDFS服务中写入数据。 华东1(杭州)、华东2(上…

    阿里云对象存储 2023年12月10日
  • 在大数据计算MaxCompute中,用哪个函数转换比较好呢?-云小二-阿里云

    我要如何在DW中将2023-5-1转为2023-05-01,?SELECT count() from trade where pay_at>=’2023-5-1′查询结果为:0条SELECT count() from trade where pay_at>=’2023-05-01′查询结果为:100…

    2023年12月7日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。