文章主题：AIGC, 系统运维, 云原生技术, 大型商业银行

案例 | AIGC在系统运维领域的应用探索

文 / 中国银行软件中心王婉婷付晖闫晓斐陈若昱

在分布式架构的快速演进和云原生技术的逐渐实施下，大型商业银行的IT系统展现出了敏态与稳态并存的特点。这种复杂架构，即在云上和云下并行、集中式与分布式共存的模式下，对IT运维工作提出了更高的效率和敏捷性的要求。近年来，人工智能（AI）技术的飞速发展，尤其是人工智能生成内容（AIGC）技术的出现，为IT系统的高效运维提供了强大的推动力。AIGC所衍生出的丰富能力矩阵，包括文本生成、智能分析和内容推荐等，使其在处理复杂任务时展示出了惊人的能力。我国的中国银行软件中心积极探讨AIGC技术在运维领域的应用，以服务应用为核心，构建了服务于运维领域的大型模型框架。他们的目标在于实现对IT系统的智能化故障解决和性能优化，从而提升运维效率，确保业务的稳定运行，为业务的持续发展提供了强有力的技术支持。

AIGC运维体系

中国银行软件中心凭借行业大数据模型技术与银行IT系统运维经验的融合，正在逐步推动运维体系向智能化转型升级。其服务范围广泛，包括平台技术支持、企业级可观测系统、统一配置中心、告警分析与智能处理、以及信息报表生成等多个智能运维服务领域。该中心还提出并构建了一种人工智能通用智能（AGI）运维框架。该框架基于企业级公共资源，例如通用和领域大模型库、AGI运维场景库、问题/事件知识库、算法库、以及用户管控系统等。这一框架赋予了运维系统诸如统一获取运维信息、全链路追踪系统应用、智能故障诊断与分析、自动化变更实施、以及实时决策运维等能力。通过这些能力，中国银行软件中心能够通过统一的服务台为用户提供更高效、便捷的运维服务体验。图1展示了AGI运维架构的具体设计。

图1 AGI运维框架

在AGI运维框架下，如何充分利用现有的企业级IT系统，实现真正的一体化运维呢？首先，我们需要提升信息生成的智能化水平。具体来说，就是构建类AI模型，将这些模型与各类企业库（例如数据库、分析系统等）链接起来，从而实现在线生成系统巡检报告、事件分析报告，以及资源使用报表和系统配置项报表等功能。其次，我们需要实现交互的AI化。这就需要我们的AI模型能够通过优化Prompt约束，生成所需的内容，并链接RPA系统等工具系统，从而实现指令下达式的对话式运维。最后，我们需要强化智能告警与自愈功能。这需要我们的大模型能够对可观测的运维数据进行智能分析，并在分析出问题时，自动调用自动化工具来实现系统的告警和自我修复。

图2展示了AGI运维场景的一个实例。在这个场景中，我们可以通过调用MaaS层的大模型API服务和企业级工具等接口服务，以及调整相应的提示词，来满足基本的运维需求。例如，问答类AI大模型能够提供技术咨询和运维工单处置方案推荐等服务，而任务类AI大模型则可以实现监控信息的实时查看和任务的自动下发执行等功能。

图2 AGI运维场景示例

1.多渠道信息收集，构建运维数据基石。兵马未动，数据先行。数据的收集整合是整个运维工作的基础。大模型训练阶段需要多种类型的数据做支撑。企业可观测系统整合了Zabbix、Prometheus、ELK、Skywalking等存量监控系统，企业统一配置中心融合了各种自动化脚本工具，具备多渠道、高效率的数据收集能力，将基础资源层、平台层、应用层等各级基础配置、系统和应用运行日志、监控指标、链路信息、运维知识库等纳入管控范围，稳定支撑了几万余分区的运维数据收集。

大模型以问题为导向，通过定期分析评估采集的数据，不断优化预处理算法，减少冗余数据的干扰，从而突显出有价值的可观测运维数据。针对基于规则或机器学习的告警算法，领域AI模型会生成相应的优化建议，实时调整告警的生成、聚合以及告警收敛方式，从而显著提升告警的质量。此外，领域模型还会同步生成的告警解决策略，并将其附加在预警通知中，提供了一种数据汇总和全局展示的“管家式”服务。

2.全链路可观测，精准排除系统故障。全域覆盖，动态感知。AGI运维框架以企业可观测系统和企业统一配置中心为基础，以领域大模型和算法库为驱动，从系统架构、网络拓扑、应用程序等多维度开展链路级的聚合分析以及故障分析诊断。采用关键路径埋点、故障链路染色，将收集到的大量基础数据串联，并开展多轮次的模型训练和参数调整，结合链路中的多源历史数据建立应用程序的运行状态的基准画像。将业务集群中的实时链路数据动态与应用的基准画像进行基线匹配，并对故障信息进行上报，实现了业务链路脉络张力的透明化，使“链路即服务”“故障即发现”变得触手可得，为系统和应用的精准排障提供了智慧“双眸”。

“落红不是无情物，化作春泥更护花”描绘了自然的美丽景象，而我们的故障分析模型也在完成故障诊断后，像这自然界中的落红一样，转化为春泥，更好地保护我们的花朵（系统）。通过对关键故障链路、异常指标和日志数据以及历史事件/问题知识库的深入分析，模型能够自主地回顾故障链路的日志、指标等信息，进行问题的总结，生成故障总结报告，并将其移入待处置事项库。在专家系统的验证无误后，这些信息将被储存到知识库中，成为模型优化的基础数据，进一步提升了模型的诊断能力。”化作春泥更护花”，这就是故障分析模型的使命，它在保护和优化我们的系统，使其更加稳定、高效。

3.变更实施控制，实现流程高效敏捷管理。围绕“安全、敏捷、高效”原则，对变更、应急、服务请求等进行简化和灵活性改造，建立适用于云原生环境下的轻量级、便捷式流程。AI通用大模型、垂直领域大模型与机器人流程自动化（RPA）、自动化工具等结合，能够实现变更配置和部署流程的自动化。模型通过收集和分析系统配置信息、环境要求和应用程序的特性，生成适用于特定环境和应用程序的配置文件，并对配置文件进行验证。基于系统配置信息和部署策略，生成自动化部署计划，包括步骤、顺序和依赖关系。根据生成的部署计划，自动化工具执行配置文件的分发和应用程序的部署。在部署或变更完成后，执行验证步骤，如果发现问题，根据事先定义的回滚策略，自动还原到先前的可用状态，实现智能运维下变更流程和实施“道法自然”效果。

智能变更流程如图3所示，通过输入用户变更信息描述，通用大模型分解变更任务，并分发至领域大模型进行子任务的并发执行，通过约束大模型的输出内容，链接不同的企业工具如数据库、搜索工具、RPA系统等进行实时信息获取和任务执行，任务完成后将相关信息反馈至变更负责人或落盘记录，方便后续审查。

图3 智能变更流程

4.智慧运营，为运维提供决策支持。运筹帷幄，决胜千里。AGI运维框架的智能服务层通过“一对一”对话式方式让系统运维变更简单，能够结合全局信息提供更合理的决策支持。在系统资源分配方面，模型通过分析系统运行数据，预测未来的资源需求，实时响应用户需求，辅助运维团队制定资源分配和扩容的计划，真正做到云资源使用的自主感知和弹性伸缩。为有效应对网络威胁攻击，应用AGI模型辅助设计与生成针对多云环境下的网络安全防护体系和漏洞疏堵策略。基于网络巡检、故障诊断等报告，配合全面的流量采集、蜜罐管控、访问控制等多重防御手段和合理的模型提示词，打穿不同系统和应用间壁垒与隔阂，生成安全防御报告并统一纳管至安全运营中心，构建立体化、纵深防御的网络安全体系，实现安全防御策略的智能分析和决策。

不谋全局者，不足谋一域。中国银行拥有多地多中心的生产和测试的数据机房，基于通用和行业领域构建的多模型融合的AGI运维框架，能够让运维工程师足不出户可以获取到准确的运维指引，高效完成多地多中心协同运维任务。

问题和挑战

AIGC大模型在运维领域已经崭露头角，但在实际应用中，仍面临一些不容忽视的挑战。

1.内容不确定性。基于大模型生成的内容可能受到训练数据质量或数量的限制，以及模型可靠性的影响，导致生成的内容存在偏差或错误，需要利用大模型应用框架调试Prompt以优化其生成能力，如Json格式的输出约束。

2.隐私和安全问题。银行的业务系统涉及大量的敏感信息和关键数据，需要采取相应的安全措施和隐私保护措施，如RLHF模型对齐、模型前置和后置的生成安全内容检测，以防止未经授权的访问和数据泄露。

3.用户信任度考验。大模型的决策过程通常是不透明的，可能会引发关于其决策的解释和信任的问题，需要经过时间和效果的考验才能得到用户的接受和信任。

总结与展望

未来，新时代带来了新机遇和新挑战。随着AIGC技术的应用场景不断被发掘，业界也涌现出了诸多大模型框架，陆续覆盖了代码开发、系统安全等领域。中国银行软件中心将继续深耕AIGC技术研究工作，将其打造成为测试和运维人员进行根因分析、故障排除与预测、系统迭代与优化的首选手段，同时积极关注业界AIGC技术及开源社区发展动态，挖掘该技术在银行业反洗钱、智能投顾、黑灰产业欺诈分析等多种场景下的落地应用，为业务的安全、稳定、效率运行提供坚实的环境保障。

（此文刊发于《金融电子化》2024年1月上半月刊）返回搜狐，查看更多

责任编辑：

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

工具

AIGC运维体系

问题和挑战

总结与展望

相关文章

Leave a Reply Cancel reply