您的位置: 科技讯息网 > 国内 > 正文

【KDD2024】大数据基础工程技术集群异常检测论文入选

2024-08-26来源:网络阅读: 1301

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收,该论文从集群整体作业执行情况分布入手,旨在解决集群整体作业运行变慢的异常检测问题。论文创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题,并使用基于神经网络最优运输模块,实现精准定向检测集群整体作业运行时间分布变慢的异常。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,被CCF(中国计算机学会)列为A类会议,KDD也是首个引入大数据、数据科学、预测分析、众包等概念的会议。KDD2024将于8.25-8.29, 在西班牙巴塞罗那举行。此次入选意味着阿里云提出的集群级别作业变慢异常检测框架获得了国际学者的认可,也是一次产学研结合的成功实践。

针对大规模云计算平台集群作业运行变慢的异常检测问题,存在以下挑战:

(1)从个体作业入手监测集群是否存在显著变慢问题,会受到虚拟环境不确定性对个体执行速度的干扰,对个体进行检测、形成定性结论再集合到整体的方式无法准确反映整体作业执行状况。

(2)对每个作业进行监测,与对整体分布进行监测相比,需要花费更多计算存储资源。

(3)训练数据中并不能总是保证所有数据都是正常的,往往也会夹杂无标签的异常数据,这与无监督异常检测的假设相悖。

论文首次从集群整体作业执行情况分布入手,检测集群整体作业分布变慢的问题。创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题。并使用基于神经网络最优运输模块,定向检测集群整体作业分布变慢的问题。论文从新的视角分析集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

目前对应算法已经在阿里云云原生大数据计算服务MaxCompute集群异常监控场景中进行灰度。可以有效地帮助运维人员对集群运行健康状况进行评估,提前发现可能的风险隐患。

论文信息

● 论文名字:Cluster-Wide Task Slowdown Detection in Cloud System

● 论文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

● 论文pdf链接:https://arxiv.org/abs/2408.04236

● 部分参考文献:

【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.

【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.

【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.

【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.

【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.


滚动推荐
2024-09-18迎中秋庆国庆专题报道新时代国医名师——于金民
迎中秋庆国庆专题报道新时代国医名师——于金民...[详细]
2024-04-21海信中央空调帮你应对家居隐形杀手——甲醛
海信中央空调帮你应对家居隐形杀手——甲醛...[详细]
2024-03-13传承雷锋精神 共创文明城市——农发行肥城市支行组织开展“学雷锋”主题活动
传承雷锋精神 共创文明城市——农发行肥城市支行组织开展“学雷锋”主题活动...[详细]
2024-09-25非遗中国说《党旗下的国学大师》 ——玄真子
非遗中国说《党旗下的国学大师》 ——玄真子...[详细]
2023-12-29特别报道著名中医名家 ----张明柱
特别报道著名中医名家 ----张明柱...[详细]
2024-05-16数字化资源赋能英语启蒙“一童一案”
数字化资源赋能英语启蒙“一童一案”...[详细]
2024-04-09忽冷忽热的四月,轻松畅享健康舒适空气
忽冷忽热的四月,轻松畅享健康舒适空气...[详细]
2024-08-23海信中央空调 5G赋能,智慧生活的加速器
海信中央空调 5G赋能,智慧生活的加速器...[详细]
2024-07-11【周九喜珠宝】—— 冠军之选,成就不凡
【周九喜珠宝】—— 冠军之选,成就不凡...[详细]
2024-09-12新教材启用,海量输入输出成为英语学习有效方式
新教材启用,海量输入输出成为英语学习有效方式...[详细]