详情页标题前

阿里云云原生大数据计算服务 MaxCompute基本概念-云淘科技

2023年12月10日上午1:42 • 阿里云大数据计算服务MaxCompute

详情页1

本章节为您介绍MapReduce的基本概念。

Map/Reduce

Map和Reduce分别支持对应的map/reduce方法、setup方法及cleanup方法。setup方法在map/reduce方法之前调用，每个Worker调用且仅调用一次。

cleanup方法在map/reduce方法之后调用，每个Worker调用且仅调用一次。

相关的使用示例请参见示例程序。

排序

支持将Map输出的key record中的某几列作为排序（Sort）列，不支持您自定义的比较器（comparator）。您可以在排序列中选择某几列作为Group列，不支持您自定义的Group比较器。Sort列一般用来对您的数据进行排序，而Group列一般用来进行二次排序。

相关的使用示例请参见二次排序源代码。

哈希

支持设置哈希（partition）列及用户自定义哈希函数（partitioner）。哈希列的使用优先级高于自定义哈希函数。

哈希函数用于将Map端的输出数据按照哈希逻辑分配到不同的Reduce Worker上。

归并

归并（Combiner）函数将Shuffle阶段相邻的Record进行归并。您可以根据不同的业务逻辑选择是否使用归并函数。

归并函数是MapReduce计算框架的一种优化，通常情况下，Combiner的逻辑与Reduce相同。当Map输出数据后，框架会在Map端对相同key值的数据进行本地的归并操作。

相关的使用示例请参见示例程序。

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

阿里云企业补贴进行中：马上申请

腾讯云限时活动1折起，即将结束：马上收藏

 同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折，更有现金返利:同意关联，立享优惠

转转请注明出处：https://www.yunxiaoer.com/159392.html

列哈希归并排序支持方法调用

赞 (0)

0

阿里云云原生大数据计算服务 MaxComputeMapReduce常见问题-云淘科技

上一篇 2023年12月10日

阿里云云原生大数据计算服务 MaxComputeMapReduce作业提交-云淘科技

下一篇 2023年12月10日

详情页2

阿里云大数据开发治理平台 DataWorksAnalyticDB for MySQL 3.0数据源-云淘科技

AnalyticDB MySQL 3.0数据源为您提供读取和写入AnalyticDB MySQL 3.0双向通道的功能，本文为您介绍DataWorks的AnalyticDB for MySQL 3.0数据同步的能力支持情况。使用限制 ADB湖仓版数据源不支持在公共资源组配置以及运行同步任务。如果ADB数据源配置的实例从数仓版切换到了湖仓版，使用该数据源运…

阿里云大数据开发治理平台 DataWorks 2023年12月10日
0
阿里云云原生大数据计算服务 MaxCompute层次调用规范-云淘科技

在完成数据仓库的分层后，您需要对各层次的数据之间的调用关系作出约定。层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据，不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据的建设需求，将公用的数据沉淀到公共层，为其他数据层次提供数据服务。同时，ADS应用层也需积极配合CDM中间层进行持续的…

阿里云大数据计算服务MaxCompute 2023年12月10日
0
阿里云大数据开发治理平台 DataWorksCreateExportMigration-云淘科技

调用CreateExportMigration，新建一个DataWorks的导出任务。该API仅创建导出任务，不会启动执行导出任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action Str…

阿里云大数据开发治理平台 DataWorks 2023年12月10日
0
阿里云负载均衡概述-云淘科技

配置HTTPS监听，您可以直接使用SSL证书服务中的证书或者将所需的第三方签发的服务器证书和CA证书上传到传统型负载均衡CLB（Classic Load Balancer）。 CLB支持两种来源的证书：在阿里云SSL证书服务中签发或托管的证书：从阿里云SSL证书服务选择，可实现证书到期提醒和一键续期。暂未支持客户端CA证书。第三方签发的证书：上传第三方…

阿里云负载均衡 2023年12月10日
0
信息流广告，信息流部分建议宽度830px，只针对默认列表样式，顺序随机
阿里云大数据开发治理平台 DataWorks

阿里云大数据开发治理平台 DataWorksTablestore数据源-云淘科技

表格存储Tablestore是构建在阿里云飞天分布式系统之上的NoSQL数据存储服务，Tablestore数据源为您提供读取和写入Tablestore双向通道的功能，本文为您介绍DataWorks的Tablestore数据同步的能力支持情况。使用限制 Tablestore Reader和Writer插件实现了从Tablestore读取和写入数据，包含行模式…

2023年12月10日
0

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信

本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买，续费优惠，保证底价，买贵退差。