详情页标题前

阿里云对象存储OSSSpark以EMR集群的方式处理OSS-HDFS服务中的数据-云淘科技

详情页1

本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。

前提条件

  • 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见创建集群。

  • 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。

操作步骤

  1. 登录EMR集群。

    1. 登录EMR on ECS控制台。

    2. 单击创建的EMR集群。

    3. 单击节点管理页签,然后单击节点组左侧的阿里云对象存储OSSSpark以EMR集群的方式处理OSS-HDFS服务中的数据-云淘科技

    4. 单击ECS ID。在ECS实例页面,单击实例ID右侧的远程连接

    如果您希望使用SSH方式(SSH密钥对或SSH密码)在Windows和Linux环境中登录集群,请参见登录集群。

  2. 在终端执行以下命令启动Spark Shell。

    spark-shell
  3. 使用Spark访问OSS-HDFS。

    1. 创建表。

      spark.sql("CREATE TABLE test_oss (`c1` string) OPTIONS (PATH 'oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")
    2. 往表中插入数据。

      spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")
    3. 查询表。

      spark.sql("SELECT c1 FROM test_oss")

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/157683.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云对象存储OSS教程示例:结合消息服务实现OSS事件通知-云淘科技

    您可以通过OSS管理控制台配置事件通知规则,自定义您关注的文件(Object),当这些Object发生指定事件时,您可以通过消息服务指定的接收终端,及时收到Object的事件通知。 场景描述 某企业在华东1(杭州)地域创建了名为srcbucket的存储空间(Bucket),Bucket内包含了不同日期持续生成的以log为前缀的日志文件log/date1.tx…

    阿里云对象存储 2023年12月10日
  • 阿里云RDS数据库切换虚拟交换机-云淘科技

    您可以根据业务需求,切换RDS SQL Server实例的虚拟交换机vSwitch。 前提条件 实例的存储类型为云盘。 说明 其它RDS引擎切换专有网络VPC和虚拟交换机请参见如下文档: RDS MySQL切换VPC或虚拟交换机 PostgreSQL切换虚拟交换机 使用限制 仅SQL Server2008 R2云盘版实例支持变更专有网络(VPC)。 影响 切…

    阿里云数据库 2023年12月9日
  • 阿里云对象存储OSSJava创建存储空间-云淘科技

    存储空间(Bucket)是存储对象(Object)的容器。对象都隶属于存储空间。本文介绍如何创建存储空间。 注意事项 本文以华东1(杭州)外网Endpoint为例。如果您希望通过与OSS同地域的其他阿里云产品访问OSS,请使用内网Endpoint。关于OSS支持的Region与Endpoint的对应关系,请参见访问域名和数据中心。 本文以从环境变量读取访问凭…

    阿里云对象存储 2023年12月10日
  • 阿里云日志服务SLS授予RAM用户告警操作权限-云淘科技

    本文介绍如何为阿里云RAM用户授予告警操作权限。 前提条件 已创建RAM用户。具体操作,请参见创建RAM用户。背景信息您可以通过如下两种方式分别给RAM用户授予日志服务告警的只读权限和管理权限。 极简授权:权限较大,操作简单。 自定义权限策略:权限精细,配置复杂。 告警只读权限 极简授权 使用阿里云账号登录RAM控制台,为RAM用户授予告警只读管理权限(Al…

    阿里云日志服务SLS 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云对象存储OSSiOS断点续传下载-云淘科技

    断点续传下载是指客户端在从网络上下载资源时,由于某种原因中断下载。再次开启下载时可以从已下载完成的部分开始继续下载未完成的部分,从而节省时间和流量。 流程说明 在手机端使用App下载视频时,下载期间如果从Wifi模式切换到移动网络,App默认会中断下载。开启断点续传下载后,当您从移动网络再次切换到Wifi模式时,即可从上一次中断的位置继续下载。 执行断点续传…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。