详情页标题前

阿里云云原生大数据计算服务 MaxCompute哈希分片全链路测试-云淘科技

详情页1

哈希分片用于测试Proxima CE端到端功能的正确性,本文为您介绍哈希分片全链路测试的结论及测试过程。

测试结论

Proxima CE哈希分片运行的召回结果与recall工具结果基本一致,正确性测试符合预期。

测试过程

  1. 方法设计。
    1. 数据准备:随机生产不同类型(包括FLOAT、BINARY和INT8)的数据集,对于Proxima CE需要将数据集转换成对应的ODPS表,对于C++ baseline则需要通过proxima内核自带的Bench性能测试工具的方法进行处理。说明 C++ baseline:表示将通过proxima内核测出的性能数据作为测试基准,proxima内核是用C++语言编写的。
    2. 算法对比:对每个数据集,通过执行不同算法(Graph、HC、Linear),得到Proxima CE结果和C++ baseline的结果,对比各自的召回率,此处设置的TopK为100。Proxima CE的recall是通过从query表中采样100条query数据做的召回,主要是与Linear方式进行对比,与proxima2 recall工具方法原则一致。
  2. 测试准备。
    • 数据准备。按类型生产随机数据集,数据集的基本信息如下表,其中每个数据集的query从doc数据中随机抽取100条。
      数据类型 维数 数量 数值范围
      FLOAT 128 10W (0,1)
      INT8 128 10W (-128,127)
      BINARY 512 10W 0/1
    • 参数设置。
      检索方式 参数
      graph
      • proxima.hnsw.searcher.ef: 400
      • proxima.hnsw.builder.efconstruction: 400
      • proxima.hnsw.builder.max_neighbor_count: 100
      hc
      • proxima.hc.builder.centroids_count: 2000
      • proxima.hc.searcher.max_scan_count: 80000
      ssg
      • proxima.hnsw.searcher.ef: 400
      • proxima.hnsw.builder.efconstruction: 400
      • proxima.hnsw.builder.max_neighbor_count: 100
      gc
      • proxima.gc.builder.centroid_count: 1000
      • proxima.gc.searcher.scan_ratio: 0.8
      qc
      • proxima.qc.builder.centroid_count: 1000
      • proxima.qc.searcher.scan_ratio: 0.8
      linear
  3. 运行结果。
    • 数据类型:FLOAT,距离计算方法:SquaredEuclidean
      检索方式 ProximaCE recall 工具
      graph 89.03% 88.62%
      hc 98.91% 98.14%
      ssg 96.00% 95.76%
      gc 97.87% 97.64%
      qc 97.70% 97.77%
      linear 100% 100%
    • 数据类型:INT8,距离计算方法:SquaredEuclidean
      检索方式 ProximaCE recall 工具
      graph 89.89% 89.93%
      hc 98.27% 97.69%
      ssg 95.58% 95.75%
      gc 97.72% 97.36%
      qc 97.68% 97.71%
      linear 100% 100%
    • 数据类型:BINARY,距离计算方法:Hamming
      检索方式 ProximaCE recall 工具
      graph 85.33% 88.09%
      hc 91.45% 95.27%
      ssg 75.89% 77.83%
      gc 90.01% 93.99%
      qc 90.51% 93.78%
      linear 100% 100%
  4. 结果分析。

    Proxima CE在各算法及数据类型上的召回情况与recall工具基本对齐。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/159861.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云大数据开发治理平台 DataWorksClickHouse数据源-云淘科技

    ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能,本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。 支持的版本 支持阿里云ClickHouse的20.8、21.8内核版本。 您需要确认驱动和您的ClickHouse服务之间的兼容能力,数据库驱动使用如下版本。 ru.yandex.clickhouse …

  • 阿里云ECS云服务器搭建多个Web站点(Windows)-云淘科技

    本文介绍如何在Windows Server 2012 R2 64位系统的ECS实例上使用IIS服务器搭建多个Web站点。 前提条件 已注册阿里云账号。如还未注册,请先完成账号注册。 已创建ECS实例,并部署了Web环境。具体操作请参见部署Web环境。 背景信息 本教程适用于熟悉Windows操作系统,希望合理利用资源、统一管理站点以提高运维效率的用户。比如,…

    2023年12月9日
  • 阿里云RDS数据库批量更新、删除或插入数据-云淘科技

    批量操作可以减少数据库与应用程序的交互次数,提高数据处理的吞吐量。本文将通过示例介绍如何批量插入、更新和删除数据。 批量插入数据 您可以通过如下四种方法进行批量插入数据。 以下示例中使用的测试表tbl1的建表语句如下: CREATE TABLE tbl1 ( id SERIAL PRIMARY KEY, info TEXT, crt_time TIMESTA…

    阿里云数据库 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云RDS数据库什么是RDS PostgreSQL-云淘科技

    本文简单介绍RDS PostgreSQL及相关概念。 声明 本文档中描述的部分产品特性或者服务可能不在您的购买或使用范围之内,请以实际商业合同和条款为准。本文档内容仅作为指导使用,文档中的所有内容不构成任何明示或暗示的担保。 RDS PostgreSQL 阿里云关系型数据库RDS(Relational Database Service)支持PostgreSQ…

    阿里云数据库 2023年12月9日
  • 阿里云日志服务SLS使用RDS内网地址访问RDS MySQL数据库-云淘科技

    当您的数据分散存储在日志服务Logstore和RDS MySQL数据库中时,您可以通过日志服务数据加工功能从对应数据库获取数据,实现数据富化。本文介绍如何配置数据加工规则及高级参数,实现通过RDS内网地址访问RDS MySQL数据库获取数据。 背景信息 2019年8月上海地区某共享单车的动态数据(例如订单号、自行车编号、用户ID、地理位置、用户骑车行为等)存…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。