大语言模型在 AIOps 中的应用

下面是 2023 CCF 国际 AIOps 挑战赛决赛暨“大模型时代的 AIOps”研讨会上的嘉宾分享内容：

在硅谷做科技融投资的人都不会投资不涉及大模型的项目。

小步快跑的是今天的关键词，然后从简单场景入手、简单的任务入手，然后看到大模型的赋能的这样一个能力。

大模型的发展太快了，所以我们现在要做的不是弥补大模型的短板，而是充分利用大模型的长处。我们自己进行了一些测试，拿了60道Data Guard的题目，经过调试后，大模型错了6道题，但我们验证后发现这6道题并没有错。另外54道题中，如果直接问GPT4，它能够准确回答50道题，而当我们添加了两篇Data Guard手册后，大模型几乎全部正确回答了54道题。这些结果让我们非常惊讶，因为我们在这方面有多年的经验，培养一个具备这种能力的人是非常困难的，但利用大模型相对容易。

应用场景

大模型最能够帮助的是专家。我现在几乎每天都依赖 GPT4 来完成工作，因为对于一些复杂的数据库优化问题，比如执行计划，我需要花费一个半小时才能理解并找到解决方案。但是如果我把这个问题输入给 GPT4，它能够在几秒钟内找到几个问题点，而且结果与我花了一个半小时得到的结果完全一样。

大模型和人工智能不能解决专家无法解决的问题，至少在当前阶段是不可能的。所以不要期望大模型能够解决专家无法解决的问题，它更适合作为基础级别、初级专家或专家辅助工具。

但是，它存在一个问题，就是我有经验，能够确认它的结果是正确的。因此，我认为大模型能够实际落地的场景通常是可以进行验证的环节。如果一个环节可以很容易地进行验证，那么大模型的应用就会很容易。

我相信未来在日志分析领域，大模型将产生极其有效的应用。我认为日志分析方面已经在这方面做出了努力，并且很快会取得成果。首先，它的理论体系相对完善。以前依赖人力或自动化工具已经取得了相当的进展，再加上大模型的加持，可能会有质的突破。

三部分

成熟的监控系统，可以告诉你故障发生的位置、范围和时间；
良好的根因定位过程，提供一些API；
可靠的故障排除和修复的方法。

CMDB Agent

图的大模型本身支撑的运营中最核心的一个价值点，即 CMDB 的智能体。

它可以帮助我们连接其他许多 Agent，比如可观测性、流程和自动化等。通过对 CMDB 模型的精调或微调，结合上层技术如 IG，形成 CMDB 驱动，帮助我们识别其中的变化和目标状态。在故障排除过程中，对流程摘要或自动化脚本的检查中都能发挥一些风险防范的作用，减轻人员负担。

所以，我认为 CMDB 的智能体是一个相对有价值的智能体，而且它的起步要求可能不是特别高，反而可以作为尝试和试点的机会。同时，它也能够解决企业中 CMDB 消费最困难的环节，即 CMDB 建设难但消费更难的问题。

语料

在运维领域，我们认为训练一个专门用于运维的大模型仍然是必要的。然而，在企业实际落地时可能会面临两个关键挑战。

首先，对于运维领域而言，数据语料是一个重要问题。数据语料包括数据语料和知识语料两个部分。数据语料对于运维来说非常重要，因为我们拥有大量实时数据和各种流入数据，这些数据对于大型模型的理解至关重要。

然而，近年来在企业界的实际应用中，如果不依赖大模型或固定机器学习模型，只基于传统运维方法的话并没有看到非常好的效果。其中一个重要原因可能是数据质量的问题，包括数据模型、数据治理和数据语义。

在大型模型的应用中，我们需要给数据赋予语义，即语义字典的概念。例如，对于给定的CPU使用率指标，大型模型本身无法理解其含义，我们需要对这个指标进行标注，说明它代表的含义或问题。

从数据的采集、治理和语义的角度来看，可能会遇到许多问题。如果这些问题得不到解决，无论是基于传统方法还是基于运维大型模型的实现，都会产生不理想的结果。

因此，在产业界进行这项工作时，通常会通过可观测性的数据治理和基于单元模型的应用来解决这些问题。

其次，运维知识的语料也是一个重要问题。即使我们提供了运维数据给大型模型，它如何理解运维数据并转化为运维知识仍然是一个挑战。

以往，我们多数从互联网上获取运维知识，即从大型语言模型库中获取各种运维知识。然而，这些知识的严谨性是有待商榷的，而且与来自论坛或操作手册的运维知识结合起来是非常困难的，尤其是与运维数据的时效性结合。如果运维知识存在偏差，将给实际一线运维带来很大困扰。

因此，在最终实际落地时，我们需要将准确、具有语义和数据准确性的数据带回企业，以满足他们的需求。因此，我们认为复盘数据可能是运维大型模型实际落地时的一个关键点，因为企业在IT运维管理过程中通常会进行复盘，并保留复盘的结果。因此，我们认为复盘数据是有准确语义和准确数据的数据，需要被运维大型模型所利用。

问题分析、推理遇到的问题，会被带歪

我们的版本已经经历了两个迭代。第一个迭代是专家系统，第二个迭代是引入了知识图谱。

我们花了6年时间来构建数据库的运维知识图谱，这是一个非常大的决心和成本。现在来看，我们的能力已经达到了，但是我们发现大模型在推理能力方面比知识图谱更强大，我们看到了它在知识图谱上的好效果。

我们把大模型通过调用API来完成具体的工作称为知识点。每个知识点都是一个可落地的工具，比如分析CPU问题，最终能够找到问题所在。这些知识点积累到一定程度后，我们可以通过大模型生成调用图谱，然后解决问题。但是我看到很多团队在比赛中提到了通过调用API来做泛化分析，把所有能发现的知识点API都调用一遍，然后汇总再做收敛。

但是这样也存在问题，一个系统往往不只存在一个问题，可能有几百个问题，其中有一个是致命的。如果在分析致命问题时被其他问题带歪了，就会出现问题。所以不能做泛化分析，必须先从API开始做裁剪筛选，而大模型目前不具备这个能力，还是要依赖传统的知识图谱。

在文章中我提到了运维知识自动化，通过自动化专业的经验将问题分析清楚后变成一个有效的装置。如果我们能够通过原理性的东西将运维工作中的很多问题反推出来，变成一个99.99%有效的支点，再配合大模型和运维知识图谱，我相信大模型可以在我们现有的平台上发挥巨大作用。

可观测平台、数据模型、业务模型、未知问题

可观测性需要解决两类问题。第一类问题是数据的广度和深度。在运营领域的数据模型中，除了标准的指标、日志和链路模型，还存在其他多种模型，如profile和dump。在金融领域中，甚至可能有超过10种的运维数据模型。

此外，全局的横纵向拓扑模型也是重要的数据模型之一。基于业务数据的模型也非常重要，因为在处理运维故障时，需要从业务的角度来切入，并关注用户体验。

可观测性还需要解决第二类问题，即未知的未知问题。传统的日志分析、APM分析和监控都是基于固定的分析模板，无法解决数据丰富度和分析范围的问题。可观测性承诺基于原始数据和多维数据的探索能力，以解决这一问题。这种探索能力可以作为基于大模型构建智能APM的基础。

在建设基于大模型的可观测性平台时，第一步是解决数据问题，包括广度和深度。这个平台可以帮助解决数据关联的问题，并提供API给更大、更全局的智能系统调用，作为工作流程中的一环。因此，我认为建设基于大模型的可观测性平台是非常重要的。

大型业务系统每天产生的可观测数据量可能达到十几个TB甚至二三十个TB。因此，如何利用可观测性的数据来构建运维大模型是一个关键的课题。

目前，许多团队都在竞赛中关注 RCA（Root Cause Analysis）方向，即如何通过分析数据来快速调动各种能力，将未知问题压制到一个可控范围内。金融行业通常要求在一分钟内发现问题，在三分钟内定位问题，并在五分钟内解决问题。如果前两步没有做好，就无法进一步采取行动。

可观测性的数据治理、数据对齐和多维度标签化是构建运维大模型的基础。同时，我们也应该从运维的角度向左移动，关注研发侧的可观测性。因为最终的故障和运行优化需要涉及研发内测的链条。我们需要向研发人员提供更多信息，帮助他们辅助找到根因。例如，通过火焰图和分析日志中的异常，我们可以帮助研发团队优化日志和异常输出的规范。

总的来说，可观测性是构建运维大模型的基础，它代表着拥有大模型中数据的最多方面。同时，它也是推动整个IT运营链条的一个好课题，可以帮助实现研发侧和运营侧的打通。

首先我们需要建设一个可观测性平台。但是这个平台应该遵循一个事实上的标准，以确保企业和厂商都能遵循同样的标准。我们可以看到在硬件监控领域，SNMP统一了监控的标准。类似地，如果我们今天不遵循opentelemetry这样的标准，就会导致各种工具的重复建设。

首先，我们需要建设一个可观测性系统，并在系统的各个角落应用中等或小型的模型，例如日志解读和告警摘要等。不要急于在第一步就追求完美，因为总是还要再进行迭代改进的。

更长远的展望是，我们希望大模型本身的能力越来越好。这可能是一个乐观派的想法，我们可以类比于AI绘图中的提示语。几个月前，人们都在研究如何写出好的图像生成提示语。但是GPT4出现后，就没有人再研究这个问题了。因此，在大模型领域，也有类似的情况发生，现在有很多研究正在进行，以改进这个领域的技术。

工作模式

大模型落地实践在短期内面临实践困难，特别是在高速迭代的环境下。从过去3~5年的角度来看，运维产业的发展以流程驱动或制度驱动模式，融合了数据驱动模式。

尽管在转型过程中会遇到许多困难，包括算法和数据层面的问题，但我认为运维大模型代表了一个数据加知识驱动的运维模式转型，这种转型是不可逆转的。

论文

ESEC/FSE 2023、ICLR 2023、NeurIPS 2023、IWQoS 2023、ICSE 2024 等多场国际会议的优质论文，从大模型应用、指标大模型、日志大模型三个方向分享基于大语言模型的智能运维最新的研究成果和观点。现场南开大学软件学院副教授张圣林、微软主管研究员马明华、清华大学计算机系周煊赫、香港中文大学（深圳）助理教授贺品嘉、莫纳什大学金明、清华大学软件学院吴海旭、东华大学副教授徐波、华为技术专家陶仕敏

异常诊断

《评估和总结:使用大语言模型提高对故障的理解》
《基于大语言模型的云故障根因分析》
《基于大语言模型的数据库异常诊断系统》日志分析
《基于上下文学习的自动化日志语句生成研究》
《KnowLog:基于知识增强的日志预训练语言模型》
《BigLog: 面向统一日志表示的无监督大规模预训练方法》
《LogPrompt:面向零样本和可解释性日志分析的提示工程》时间序列
《Time-LLM: 通过重编程大型语言模型进行时间序列预测》
《TimesNet: 任务通用的时间序列分析骨干网络》，知乎，包括代码
《SimMTM: 时间序列掩码预训练框架》

思考

和 AIOps 有关的 LLM 模型，有以下几个方面：

首先，是几何空间的 LLM 模型。比如大模型的可视化平面布局能力。这是最近柯旭在研究的工作。这考虑的是大模型的空间布局能力。目前柯旭是采用输入文本，输出坐标的方式。而现有工作还考察了大模型执行布局算法的能力。但实际上，我们也可以反过来，输入空间布局的坐标，输出文本。

其次，是时间序列的 LLM 模型。比如大模型的时间序列理解能力。曹中去年评估过，发现性能一般。但今年发现有做 LLM 时间序列预测的。

时空 LLM 这方面的工作目前刚刚起步，比如，最近出来一篇关于 LLM 时间序列分析和空时数据挖掘的综述。

上述多模 LLM 模型在我们关注的教育、运维领域中，都有重要的用途。比如几何空间的 LLM 模型，在运维中可以用来进行可视化平面布局，时间序列的 LLM 模型在运维中，可以被用来进行系统的监控。

参考

圆桌论坛之运维大模型落地探索（含视频），智能运维前沿 2023-12-21，
2023 CCF国际AIOps挑战赛决赛暨“大模型时代的AIOps”研讨会成功举办，智能运维前沿，2023-12-19，微信公众号
Automatic Root Cause Analysis via Large Language Models for Cloud Incidents，2023 年 12 月，PDF，Code
Fintech实践｜南天故障画像平台大幅提升数据中心排障效率，南天之窗，2024-01-04，微信公众号

Index