详情页标题前

阿里云对象存储OSSSpark使用JindoSDK查询OSS-HDFS服务中的数据-云淘科技

详情页1

JindoSDK是一个面向HadoopSpark生态且简单易用的OSS客户端,为OSS提供高度优化的Hadoop FileSystem实现。相对于Hadoop社区OSS客户端,Spark使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。

前提条件

  • 已创建ECS实例。具体步骤,请参见选购ECS实例。
  • 已创建Hadoop环境。具体步骤,请参见创建Hadoop运行环境。
  • 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。

操作步骤

  1. 连接ECS实例。具体操作,请参见连接ECS实例。
  2. 配置JindoSDK。
    1. 下载最新版本的JindoFS SDK JAR包。下载地址,请参见JindoData下载。
    2. 可选:如果您的环境中未包含Kerberos和SASL相关依赖,则需要在部署JindoSDK的所有节点安装以下依赖。
      • Ubuntu或Debian
        sudo apt-get install libkrb5-dev krb5-admin-server krb5-kdc krb5-user libsasl2-dev libsasl2-modules libsasl2-modules-gssapi-mit
      • Red Hat Enterprise Linux或CentOS
        sudo yum install krb5-server krb5-workstation cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain
      • macOS
        brew install krb5
    3. 将已下载的JindoSDK JAR包拷贝至Spark的classpath路径下。
      cp jindosdk-x.x.x/lib/*.jar  $SPARK_HOME/jars/

      说明 x.x.x表示JindoSDK JAR包版本号。

  3. 配置OSS-HDFS服务实现类及AccessKey。
    • 在core-site.xml文件中配置
      1. 将OSS-HDFS服务实现类配置到Spark的core-site.xml配置文件中。
                    fs.AbstractFileSystem.oss.impl        com.aliyun.jindodata.oss.JindoOSS                fs.oss.impl        com.aliyun.jindodata.oss.JindoOssFileSystem    
      2. 将已开启OSS-HDFS服务的Bucket对应的AccessKey ID、AccessKey Secret配置在Spark的core-site.xml配置文件中。
                    fs.oss.accessKeyId        LTAI5t7h6SgiLSganP2m****                fs.oss.accessKeySecret        KZo149BD9GLPNiDIEmdQ7d****    
    • 在提交任务时配置

      在提交Spark任务时配置OSS-HDFS服务实现类及AccessKey,示例如下:

      spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.jindodata.oss.OSS --conf spark.hadoop.fs.oss.impl=com.aliyun.jindodata.oss.JindoOssFileSystem --conf spark.hadoop.fs.oss.accessKeyId=LTAI5t7h6SgiLSganP2m****  --conf spark.hadoop.fs.oss.accessKeySecret=KZo149BD9GLPNiDIEmdQ7d****
  4. 配置OSS-HDFS服务Endpoint。使用OSS-HDFS服务访问OSS Bucket时需要配置Endpoint。推荐访问路径格式为oss://./,例如oss://examplebucket.cn-shanghai.oss-dls.aliyuncs.com/exampleobject.txt。配置完成后,JindoSDK会根据访问路径中的Endpoint访问对应的OSS-HDFS服务接口。

    您还可以通过其他方式配置OSS-HDFS服务Endpoint,且不同方式配置的Endpoint存在生效优先级。更多信息,请参见附录一:配置Endpoint的其他方式。

  5. 使用Spark访问OSS-HDFS。
    1. 创建表。
      create table test_oss (c1 string) location "oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/";
    2. 往表中插入数据。
      insert into table test_oss values ("testdata");
    3. 查询表。
      select * from test_oss;
  6. 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

    阿里云企业补贴进行中: 马上申请

    腾讯云限时活动1折起,即将结束: 马上收藏

    同尘科技为腾讯云授权服务中心。

    购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    转转请注明出处:https://www.yunxiaoer.com/157666.html

    (0)
    上一篇 2023年12月10日
    下一篇 2023年12月10日
    详情页2

    相关推荐

    • 阿里云ECS云服务器导入自定义镜像-云淘科技

      在云上部署业务时,您可以通过阿里云ECS控制台导入本地镜像文件,也可以通过服务器迁移中心SMC自动为您的服务器生成ECS镜像。本文介绍这两种方法的应用场景和操作步骤。 前提条件 通过ECS控制台导入镜像前,请您确认已完成以下操作: 阿里云账号和RAM用户需满足导入自定义镜像的权限要求。 使用阿里云账号访问RAM访问控制,授予ECS对OSS资源的访问权限(即E…

      2023年12月9日
    • 阿里云人工智能平台PAIEasyASR语音分类训练-云淘科技

      EasyASR语音分类训练算法组件以TFRecord格式的数据作为输入,进行语音分类模型训练。本文介绍EasyASR语音分类训练算法组件的配置方法及使用示例。 前提条件 已开通OSS并完成授权,详情请参见开通OSS服务和PAI访问云产品授权:OSS。 使用限制 仅PAI-Studio 2.0提供该算法组件。 算法简介 EasyASR语音分类训练算法组件使用E…

      2023年12月10日
    • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
    • 阿里云对象存储OSSPresto使用JindoSDK查询OSS-HDFS服务中的数据-云淘科技

      Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询。本文介绍Presto如何使用JindoSDK查询OSS-HDFS服务中的数据。 前提条件 已创建ECS实例。具体步骤,请参见选购ECS实例。 已创建Hadoop环境。具体步骤,请参见创建Hadoop运行环境。 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDF…

      阿里云对象存储 2023年12月10日
    • 阿里云ECS云服务器实例概述-云淘科技

      ECS实例是云上的虚拟计算服务器,包含vCPU、内存、操作系统、网络、磁盘等基础组件。您可以使用阿里云提供的控制台、API等管理工具创建和管理ECS实例,像使用本地服务器一样管理ECS实例的状态、应用等,还可以灵活地升级计算、存储等能力。 实例基础配置 实例基础配置决定一台实例所需的基础资源,主要包括: 实例规格 实例规格定义了ECS实例在计算性能、存储性能…

      阿里云服务器 2023年12月9日
    • 阿里云日志服务SLS表格(Pro版本)-云淘科技

      表格Pro版本支持更强大的可视化功能,例如合并多个查询分析结果在同一个表格中展示、针对字段进行个性化设置等。本文介绍表格Pro版本的基本配置。 简介 表格作为最常见的数据展示类型,是组织整理数据最基本的手段,通过对数据的整理,达到快速引用和分析的目的。通过查询分析得到的结果默认以表格方式进行展示。 添加表格的入口,请参见添加统计图表(Pro版本)到仪表盘。 …

      2023年12月10日

    联系我们

    400-800-8888

    在线咨询: QQ交谈

    邮件:admin@example.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注微信
    本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。