欢迎光临BOB综合体育手机版app下载

bob手机综合体育 - bob手机网页版海量监控数据处

作者:admin    来源:未知    发布时间:2022-03-30 10:26    浏览量:

  腾讯云应用性能观测(APM)是一款应用性能管理产品,基于实时的多语言应用探针全量采集技术,为用户提供分布式应用性能分析和故障自检能力。本文主要讲述了 APM 链路指标计算场景下,性能优化提升若干方案。通过上述方案,将 APM 指标计算的整体性能提升了 2-3 倍效果。

  应用性能观测(APM)上报的原始数据是一个一个的链路 Span,要计算服务的错误率、平均响应时间、Apdex等指标,需要将原始链路 Span 转换为相关的指标数据,再通过 Flink 流计算按一分钟窗口聚合出相关指标具体值。上述的过程称作 APM 指标计算。

  APM 现阶段随着业务接入的增长,上报流量也在不停的创造新的流量洪峰,某个地域最新的峰值流量已达到了数亿/分钟。跟随着上报调用链路数据的增长,指标计算消耗 Flink 资源也在不停的飙升。在不考虑成本情况下, Flink 作业资源若是能够支持不停的横向扩展,事情也有回转的余地,但让人沮丧的是当 Flink 作业的资源达到某 CU 值 的时候,bob手机综合体育 - bob手机网就达到了瓶颈点——导致作业的稳定性会变得极差。那么我们该如何去解决指标计算 Flink 所面临的性能压力的挑战? 并提升系统整体的稳定性?

  我们该如何去解决指标计算 Flink 所面临的性能压力的挑战? 并提升系统整体的稳定性?接下来,我们将一一剖析问题的根因。

  指标计算的 Flink 作业已经在 Barad 基础指标计算业务运行的很平稳,相同的程序迁移到 APM 指标计算为什么就变得这么不稳定,且资源已经扩容了,页版海量监控数据处理之道:APM指标为什么 CPU 负载还这么高? 先让我们来看一下 Flink 失败日志信息,截图如下所示:

  从上图我们可以看出,Flink集群有节点掉了,那是什么原因导致的呢?经过 APM 团队协力分析,发现失联是因为所在节点 CPU 过高导致网络丢包率(15%-25%)飙升引起的。那又是什么导致的 CPU 过高呢? 故障复盘发现是因为集群节点过多导致大量节点的 CPU 耗费在大量网络传输方面而引起,结果就导致作业稳定性变差,经常性作业重启引发业务指标链路数据丢失,且 Yarn 对大 CU 的作业在启动上会耗费大量的时间。

  为了提升APM指标计算 Flink 作业的稳定性,我们采纳了 Oceanus (流计算)技术,先将一个大作业拆分成几个小作业,以此来提升 APM 指标计算作业的稳定性,那么我们以什么维度来拆分我们 APM 指标作业呢?按照 brarad 基础指标计算的经验,我们拆分作业的依据主要有以下几个:

  在完成对大作业的拆分之后,APM 指标计算的整体稳定性得到了极大的提升, 满足了 APM 业务对指标计算正确性的诉求. 虽然指标计算的稳定性提升了,但是整体资源 CU 的消耗并未降低,那么我们如何去降低 APM 指标计算资源的消耗呢?

  我们横向对比了 Barad 基础指标计算,发现 APM 指标计算在相同上报量情况下,资源消耗更大。

  APM 指标计算上报流量为 Barad 某业务基础指标上报流量的四分之一,但 CU 的消耗却是 2倍,为何上报量低的业务,CU 反而更高?APM 与 Barad 基础指标计算的资源消耗差距是哪里导致的?带着这个疑问,我们对比了两个不同业务间数据的不同点,来展开第二、三次的优化工作点。

  从上图可以看出,我们可以将多个指标的数据,合并放到一个 MetricList 中。为了解相对应的数据结构,我们需要设定两个作业资源消耗相同的两个业务。APM 某实例上报的指标与自研高性能指标计算中台某基础指标计算在指标合并方面的差异:

  2.2APM 指标计算 Flink处理kafka消息数/分钟,展示在1CU并行下,该业务的处理消息数为33K左右:

  从上图两个测试业务数据的对比,可以看出来APM指标计算某业务上报处理的消息数是8750000,跟上报量25M的数据转换为MetricList的压缩比是1比3。Barad某基础指标有上报处理的消息数是230400,跟上报量350M的数据转换为MetricList的压缩比是1比1519。

  4. Batch 解决方案从上述对比的两组数据,大胆地推断出 MetricList 合并压缩比越高,指标计算 Flink可以承载的吞吐量就越高,那么我们如何提高APM 指标计算 MetricList 合并压缩比呢?具体方案如下图所示:

  通过上图可以看出,通过增加一个时间窗口的方式,来提高MetricList合并压缩比,后续 Metric做聚合计算所需要的网络传输就越少,故而提高了指标计算 Flink自身处理的效率,对 Span转MetriclList做一个 Batch合并的操作,提高 Span转MetricLis t合并压缩比,具体优化效果如下图所示:

  APM现阶段是默认将Span中的Tag维度字段全量转换为Metric维度字段上报给 Flink指标计算,这么做的好处是后续指标视图需要新增字段,刷新视图规则即可,接入层Span转Metric维度字段不需要修改。但是这么做的弊端是无关的字段,耗费了大量的kafka与 Flink的资源。那么精简指标维度字段势在必行,APM现阶段的视图规则表中,统计总共只需要有17个维度字段就能够满足,具体如下所示:

  bob手机综合app - 最新版

  那么我们就需要对现在的维度字段进行数据的清洗,规整出指标计算视图需要的维度字段,提升资源的利用率,具体操作如下图所示:

  通过上述两种措施的优化,我们将某业务指标计算Flink资源的消耗整体降低至原来的 30% 左右,如表所示:

  从上图表格可以看出通过上述几种方式优化,极大地提升了 APM 指标计算的性能,从而达到了降低资源消耗的目的。而对大数据处理优化本质是对细节的优化,单一数据优化的一小步在海量数据下就是一大步。bob手机官方综合体育下载 - bob手机网页版

  腾讯云应用性能监控(APM)在稳定性与性能上做了很多优化,不仅仅深入优化了 APM 指标计算方面,还通过对存储层进行冷热分离,数据写入高并发优化,尾部采样,接入层性能提升等一系列的优化措施,大幅提升了整体数据处理性能,可承载的 QPS远超开源自建的监控系统,极大提升了腾讯云监控在这个领域赛道内的竞争力。返回搜狐,查看更多

相关新闻推荐

在线客服 :

服务热线:4008-888-888

电子邮箱: 949048@qq.com

公司地址:江苏省南京市玄武区玄武湖

是一家专业从事企业营销策划、电子商务运营服务的公司,主要业务包含精品网站制作、电子商务平台托管、百度竞价外包、 主要提供以下几点服务: ...

友情链接:
Copyright © 2021 BOB综合体育手机版app下载 版权所有 苏ICP12345678