您的位置: 科技讯息网 > 国内 > 正文

【KDD2024】大数据基础工程技术集群异常检测论文入选

2024-08-26来源:网络阅读: 1260

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收,该论文从集群整体作业执行情况分布入手,旨在解决集群整体作业运行变慢的异常检测问题。论文创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题,并使用基于神经网络最优运输模块,实现精准定向检测集群整体作业运行时间分布变慢的异常。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,被CCF(中国计算机学会)列为A类会议,KDD也是首个引入大数据、数据科学、预测分析、众包等概念的会议。KDD2024将于8.25-8.29, 在西班牙巴塞罗那举行。此次入选意味着阿里云提出的集群级别作业变慢异常检测框架获得了国际学者的认可,也是一次产学研结合的成功实践。

针对大规模云计算平台集群作业运行变慢的异常检测问题,存在以下挑战:

(1)从个体作业入手监测集群是否存在显著变慢问题,会受到虚拟环境不确定性对个体执行速度的干扰,对个体进行检测、形成定性结论再集合到整体的方式无法准确反映整体作业执行状况。

(2)对每个作业进行监测,与对整体分布进行监测相比,需要花费更多计算存储资源。

(3)训练数据中并不能总是保证所有数据都是正常的,往往也会夹杂无标签的异常数据,这与无监督异常检测的假设相悖。

论文首次从集群整体作业执行情况分布入手,检测集群整体作业分布变慢的问题。创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题。并使用基于神经网络最优运输模块,定向检测集群整体作业分布变慢的问题。论文从新的视角分析集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

目前对应算法已经在阿里云云原生大数据计算服务MaxCompute集群异常监控场景中进行灰度。可以有效地帮助运维人员对集群运行健康状况进行评估,提前发现可能的风险隐患。

论文信息

● 论文名字:Cluster-Wide Task Slowdown Detection in Cloud System

● 论文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

● 论文pdf链接:https://arxiv.org/abs/2408.04236

● 部分参考文献:

【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.

【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.

【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.

【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.

【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.


滚动推荐
2024-08-16极简接入|七牛云 QPlayer2 播放器再升级
极简接入|七牛云 QPlayer2 播放器再升级...[详细]
2023-09-28大家有大爱 高效服务暖人心
大家有大爱 高效服务暖人心...[详细]
2023-11-16收手吧毛豆Y,外面全是昊铂HT!
收手吧毛豆Y,外面全是昊铂HT!...[详细]
2023-12-13以人为本 开明管理 开启具有中国特色的企业管理新篇章 ——专访常熟市名城实业有限公司总裁袁勤生先生
以人为本 开明管理 开启具有中国特色的企业管理新篇章 ——专访常熟市名城实业有限公司总裁袁勤生先生...[详细]
2023-10-24陀飞轮齿轮协议全球首创Dapp齿轮联盟系统,承诺引领均衡和公平的新时代!
陀飞轮齿轮协议全球首创Dapp齿轮联盟系统,承诺引领均衡和公平的新时代!...[详细]
2024-06-07百万下线 |欣旺达动力 HEV电池稳居中国第一,超充行业最先量产和商用
百万下线 |欣旺达动力 HEV电池稳居中国第一,超充行业最先量产和商用...[详细]
2024-01-30第五届丝绸之路特色乳产业全国领袖峰会圆满成功,特色乳产业再扩“朋友圈”
第五届丝绸之路特色乳产业全国领袖峰会圆满成功,特色乳产业再扩“朋友圈”...[详细]
2024-01-28福特探险者家族区域品鉴会武汉站开启,尽享硬核豪华体验
福特探险者家族区域品鉴会武汉站开启,尽享硬核豪华体验...[详细]
2023-11-23警惕“伤春悲秋”,别让季节性抑郁悄悄找上你
警惕“伤春悲秋”,别让季节性抑郁悄悄找上你...[详细]
2024-05-02河北源达“财源滚滚”选股服务靠谱吗
河北源达“财源滚滚”选股服务靠谱吗...[详细]