详情页标题前

为什么flink计算100w量级的数据要花好几分钟?-云小二-阿里云

详情页1

整个加工链路是从mysql读binlog日志到flink里做关联,然后写到holo。源端mysql表A有20w条数据,但是不定期会全部delete掉,然后再写入20w数据。由于mysql数据会被采集到flink里做加工,所以源端删除20w再重写20w的操作,会导致在flink里也是这样。和另外一张5w的表B关联后形成100多w数据写入holo。如果源端全删全插一次,走一遍整体流程(从读binlog日志写入flink开始,到将最终结果写入holo)要好几分钟。这个时间貌似有点长,经排查时间主要是花在计算上了,如果只从源端同步20w数据到holo里只需要十几秒钟,计算过程花了较长时间。所以为什么flink计算100w量级的数据要花好几分钟?

以下为热心网友提供的参考意见

Flink在处理大量数据时,可能会遇到一些性能瓶颈。以下是可能导致Flink计算100万量级数据花费较长时间的原因:

  1. 数据倾斜:如果某些key的数据量过大,可能会导致数据倾斜,从而影响整个任务的执行效率。在这种情况下,可以考虑使用KeyedStream或者进行窗口分区来减少数据倾斜的影响。

  2. 网络延迟:Flink是基于分布式计算的,数据需要在各个节点之间传输。如果网络延迟较高,可能会导致数据传输速度变慢,从而影响整个任务的执行效率。可以尝试优化网络环境,或者调整Flink的配置参数来减少网络传输的影响。

  3. 资源分配不足:如果Flink集群的资源分配不足,可能会导致任务执行缓慢。可以尝试增加Flink集群的资源,例如增加CPU、内存等。

  4. 算法复杂度:如果Flink中的算法实现较为复杂,可能会导致计算速度较慢。可以尝试优化算法实现,或者使用更高效的算法来提高计算速度。

  5. 系统其他因素:除了上述原因外,还可能存在其他因素影响Flink的计算速度,例如操作系统、硬件设备等。可以尝试排查这些因素,以找到导致计算速度较慢的原因。

以下为热心网友提供的参考意见

①资源分配不足:core数、内存大小不足以支撑大规模数据计算,那么就会导致处理速度变慢。
②网络传输:在Flink处理过程中,可能会涉及到数据在不同节点之间的传输,如果网络条件不佳,也会影响到数据处理的速度。
③数据倾斜:如果数据分布不均匀,导致某些节点上的数据量过大,而其他节点上的数据量较少,这种数据倾斜现象会使得整体计算效率降低。
④状态管理:Flink在处理数据时会维护一定的状态信息,如果状态大小过大或者状态更新频繁,也会增加处理时间。
⑤Flink 处理CDC 增量数据只能单并发,不能多并发执行,这块在直接的数据同步 Hologres 中是一致的吗。此回答整理自钉群“实时计算Flink产品交流群”

以下为热心网友提供的参考意见

Flink处理100万级别的数据需要几分钟的原因可能有以下几点:

  1. 资源限制

    • Flink的计算资源(如CPU、内存和磁盘I/O)可能不足以高效地处理大量的数据。确保为Flink分配足够的资源,并考虑增加TaskManager的数量或调整每个TaskManager的slot数量。
  2. 并行度设置

    • 并行度设置不正确可能会导致性能瓶颈。检查你的作业是否设置了适当的并行度,以充分利用可用的硬件资源。
  3. 数据倾斜

    • 如果数据分布不均匀,可能导致某些任务负载过大,从而影响整体性能。使用GROUP BY等操作时,要避免数据倾斜。
  4. 网络延迟

    • 网络延迟也可能成为性能问题的一个因素。确保你的集群节点之间的网络连接是稳定的,并且带宽足够。
  5. 算法效率

    • 如果你的作业包含复杂的计算逻辑,那么算法的效率可能会影响整体性能。尝试优化算法或使用更高效的实现。
  6. 状态存储

    • 如果你的作业涉及大量状态存储,例如窗口操作或聚合,这可能会影响性能。考虑使用更有效的状态后端,如RocksDB。
  7. 检查点与保存点

    • 频繁的检查点和保存点操作可能会消耗大量的CPU和I/O资源。根据业务需求调整检查点间隔和超时时间。
  8. 外部系统集成

    • 与其他系统的交互,如读取MySQL binlog或写入Holo,可能也会对性能产生影响。确保这些系统的性能能够满足需求,并且配置正确的参数。
  9. 日志级别

    • 过高的日志级别可能会占用大量CPU和磁盘I/O资源。将日志级别设置为“INFO”或更低,可以减少不必要的日志输出。
  10. 调优参数

    • 查看Flink官方文档中关于性能调优的部分,并根据你的具体场景调整相应的参数。

转转请注明出处:https://www.yunxiaoer.com/177329.html

(0)
上一篇 2023年12月6日
下一篇 2023年12月6日
详情页2

相关推荐

  • 腾讯云边缘可用区联系我们云淘

    售前咨询 当您需要购买咨询时,您可以直接通过 售前咨询 进行提问,会有专属客户经理在线为您解答,为您提供专业的上云方案。同时,您也可以直接致电销售人员,咨询热线:4009100100转1(工作日9:00 – 18:00)。 售后支持 当您遇到问题需要处理时,您可以直接通过 售后支持 进行提问,腾讯云工程师7 × 24小时在线为您提供服务。同时,您…

    2023年12月9日
  • 在PolarDB中,有什么办法让走列存呢,比如说修改什么参数?-云小二-阿里云

    问题一:有个order by+limit的查询 last_query_cost_for_imci 比较小走了行存,但查询用时6秒以上比较慢,有什么办法让走列存呢,比如说修改什么参数?问题二:是在控制台中的参数配置里修改 loose_imci_optimizer_switch吗? 以下为热心网友提供的参考意见 问题一:对于使用ORDER BY和LIMIT的查询…

    阿里云 2024年1月2日
  • 腾讯云云点播关于云点播微信公众号视频链接发布功能下线公告

    云点播产品自发布以来,服务众多用户,为进一步提高用户体验,保证功能交付质量,云点播团队已下线微信公众号视频链接发布能力。云点播团队于2022年04月01日下线《微信公众号视频链接发布能力》,届时控制台和 API 接口无法发起调用。为不影响您的业务服务,云点播建议您将视频直接上传至 腾讯视频创作平台 完成视频链接发布操作。感谢您对腾讯云的信赖与支持,若您对本次…

    腾讯云 2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云RDS数据库RDS MySQL有哪些限制-云淘科技

    请参见MySQL使用限制。 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯云限时活动1折起,即将结束: 马上收藏同尘科技为腾讯云授权服务中心。 购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    阿里云数据库 2023年12月10日
  • 数据传输DTS这个什么问题?-云小二-阿里云

    数据传输DTS这个什么问题?【UID】:5607502128349053【RequestID】: EE6F03DE-0198-3CFF-84D2-9E6B6B5DEF8E【报错信息】: CODE:DTS.Msg.CreateSubDistriubtedJobError Message:create subDistributedJob error, cause…

    阿里云 2023年12月20日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。