详情页标题前

阿里云对象存储OSSImpala使用JindoSDK查询OSS-HDFS服务中的数据-云淘科技

详情页1

JindoSDK是一个面向Hadoop、Spark生态且简单易用的OSS客户端,为OSS提供高度优化的Hadoop FileSystem实现。相对于Hadoop社区OSS客户端,Impala使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。

前提条件

  • 已创建ECS实例。具体步骤,请参见选购ECS实例。
  • 已创建Hadoop环境。具体步骤,请参见创建Hadoop运行环境。
  • 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。

操作步骤

  1. 连接ECS实例。具体操作,请参见连接ECS实例。
  2. 配置JindoSDK。
    1. 下载最新版本的JindoFS SDK JAR包。下载地址,请参见JindoData下载。
    2. 可选:如果您的环境中未包含Kerberos和SASL相关依赖,则需要在部署JindoSDK的所有节点安装以下依赖。
      • Ubuntu或Debian
        sudo apt-get install libkrb5-dev krb5-admin-server krb5-kdc krb5-user libsasl2-dev libsasl2-modules libsasl2-modules-gssapi-mit
      • Red Hat Enterprise Linux或CentOS
        sudo yum install krb5-server krb5-workstation cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain
      • macOS
        brew install krb5
    3. 将已下载的JindoSDK JAR包拷贝至Impala的classpath路径下。安装命令如下:
      cp jindosdk-x.x.x/lib/*.jar  $HIVE_HOME/lib/

      说明 x.x.x表示JindoSDK JAR包版本号。

  3. 配置OSS-HDFS服务实现类及AccessKey。
    1. 将OSS-HDFS服务实现类配置到Impala的core-site.xml文件中。
                  fs.AbstractFileSystem.oss.impl        com.aliyun.jindodata.oss.JindoOSS                fs.oss.impl        com.aliyun.jindodata.oss.JindoOssFileSystem    
    2. 将已开启OSS-HDFS服务的Bucket对应的AccessKey ID、AccessKey Secret预先配置在Impala的core-site.xml文件中。
                  fs.oss.accessKeyId        LTAI5t7h6SgiLSganP2m****                fs.oss.accessKeySecret        KZo149BD9GLPNiDIEmdQ7d****    
  4. 配置OSS-HDFS服务Endpoint。使用OSS-HDFS服务访问OSS Bucket时需要配置Endpoint。推荐访问路径格式为oss://./,例如oss://examplebucket.cn-shanghai.oss-dls.aliyuncs.com/exampleobject.txt。配置完成后,JindoSDK会根据访问路径中的Endpoint访问对应的OSS-HDFS服务接口。

    您还可以通过其他方式配置OSS-HDFS服务Endpoint,且不同方式配置的Endpoint存在生效优先级。更多信息,请参见附录一:配置Endpoint的其他方式。

  5. 使用Impala查询OSS-HDFS服务中的数据。
    1. 创建表。
      CREATE EXTERNAL TABLE customer_demographics (
       `cd_demo_sk` INT,
       `cd_gender` STRING,
       `cd_marital_status` STRING,
       `cd_education_status` STRING,
       `cd_purchase_estimate` INT,
       `cd_credit_rating` STRING,
       `cd_dep_count` INT,
       `cd_dep_employed_count` INT,
       `cd_dep_college_count` INT)
      STORED AS PARQUET
      LOCATION 'oss://bucket.endpoint/dir';
    2. 查询表数据。
      select * from customer_demographics;
  6. 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

    阿里云企业补贴进行中: 马上申请

    腾讯云限时活动1折起,即将结束: 马上收藏

    同尘科技为腾讯云授权服务中心。

    购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    转转请注明出处:https://www.yunxiaoer.com/157664.html

    (0)
    上一篇 2023年12月10日
    下一篇 2023年12月10日
    详情页2

    相关推荐

    • 阿里云大数据开发治理平台 DataWorksOSS数据源-云淘科技

      OSS数据源为您提供读取和写入OSS的双向通道,本文为您介绍DataWorks的OSS数据同步的能力支持情况。 支持的字段类型与使用限制 离线读 OSS Reader实现了从OSS读取数据并转为数据集成协议的功能,OSS本身是无结构化数据存储。对于数据集成而言,OSS Reader支持的功能如下。 支持 不支持 支持且仅支持读取TXT格式的文件,且要求TXT…

    • 阿里云日志服务SLS接入Apache SkyWalking Trace数据到日志服务-云淘科技

      本文介绍如何接入Apache SkyWalking Trace数据到日志服务,从而使用日志服务对Trace数据进行查询与分析。 前提条件 Apache SkyWalking 应用已接入8.0.0或以上版本的SkyWalking Agent端。更多信息,请参见Setup。 日志服务 已创建Logstore。具体操作,请参见创建Logstore。 已创建用户自定…

      阿里云日志服务SLS 2023年12月10日
    • 阿里云日志服务SLS配置Ingress日志中心-云淘科技

      本文介绍如何开通Ingress访问日志中心,将Ingress日志实时采集到日志服务中并进行可视化分析。 前提条件 已安装日志组件。具体操作,请参见安装Logtail日志组件。 默认情况下,在创建Kubernetes集群时自动安装日志组件。 步骤1:部署Ingress采集配置 日志服务采集配置针对Kubernetes进行了CRD扩展,alibaba-log-c…

      阿里云日志服务SLS 2023年12月10日
    • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
    • 阿里云对象存储OSSiOS上传文件概述-云淘科技

      本文档介绍 OSS iOS SDK 上传文件的方式。 在 OSS 中,操作的基本数据单元是文件(Object)。OSS iOS SDK提供了以下三种文件上传方式: 简单上传:包括从内存中上传或上传本地文件。最大不能超过 5GB。 分片上传:当文件较大时,可以使用分片上传,最大不能超过48.8TB。 追加上传:最大不能超过 5GB。 断点续传上传:支持并发上传…

      阿里云对象存储 2023年12月10日
    • 阿里云对象存储OSS圆角矩形-云淘科技

      您可以通过圆角矩形参数,将存储在OSS内矩形图片的4个角切成圆角。本文介绍使用圆角矩形裁剪图片时所用到的参数及示例。 参数说明 操作名称:rounded-corners 参数说明如下: 参数 描述 取值范围 r 将图片切出圆角,指定圆角的半径。 [1,4096] 注意事项 如果图片的最终格式是PNG、WebP、BMP等支持透明通道的图片,那么图片圆角外的区域…

      2023年12月10日

    联系我们

    400-800-8888

    在线咨询: QQ交谈

    邮件:admin@example.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注微信
    本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。