在现代网络日益复杂以及对更快、更可靠服务推出的需求的推动下,电信行业正在加速数字化转型。为了满足这些需求,运营商正在转向自主智能网络,旨在获取大量数据并高速自主执行操作。通往自主智能网络的旅程不是一个技术项目,而是为了保护利润和加快服务上市时间而必须进行的运维转变。这催生了诸如 DarkNOC 等概念,DarkNOC 是一个无需直接人工干预即可运行的网络运维中心,它利用技术来增强网络可靠性、改进性能并提高成本效益。
构建自治网络有两个基本原则:更好的网络 AI 洞察和切实可行的自动化。
实现更出色的网络 AI 洞察
任何 AIOps 解决方案要想行之有效,都必须建立在 AI 驱动的高质量洞察的基础上。这些洞察源自以下功能:
- 数据聚合和分析
- 异常检测和预测
- 智能警报和根本原因分析
- 利用 AI 进行跨域事件监控
红帽通过提供一套强大的集成技术来加速 AIOps 战略。我们的产品组合,包括混合云基础架构、云原生开发、AI、IT 自动化和管理以及边缘计算,包含红帽 OpenShift、红帽 AI、红帽企业 Linux (RHEL)、红帽 Ansible 自动化平台、红帽运行时等技术,以及用于 Apache Kafka 的红帽 OpenShift Streams 等集中式消息传递系统。这些产品结合在一起,提供了 AIOps 解决方案所需的基本容器即服务 (CaaS) 和 AI 平台。
提供切实可行的自动化
获得洞察只是成功的一半。还需要能够快速、可靠地应对这些挑战。需要切实可行的自动化。红帽参与了 TM Forum DarkNOC Catalyst 等项目,这凸显了对统一自动化方法的需求,例如以红帽 Ansible 自动化平台为中心的方法,该方法可以克服分散的专有工具和脚本的环境。
这种集成方法的真正力量在于,它能够创建一个闭环系统,该系统从发现问题到解决问题的速度比任何人工驱动的流程都快。这种代理式系统可以自主检测问题、确定修复方案、生成代码并修复问题,所有这一切都以可审计和受策略管理的方式进行。这意味着,曾经需要整个团队和数小时工作才能解决的问题现在可以自动解决,从而最大限度地延长网络正常运行时间。
有效的多领域自动化策略的关键要素包括:
- 为简化起见,采用单一自动化语言,如 Ansible YAML 代码。
- 加速代码生成,以提高代码质量并解决现有自动化脚本不足的问题。
- 大规模可靠执行和大规模事件驱动执行,以提高速度和性能。
- 自动化策略即代码,作为 AI 防护措施,同时确认自动化是否符合相关的合规性和安全性要求。
从 DarkNOC 到代理式 AI:可操作自动化的演变
如今,我们正在利用生成式 AI 服务(红帽 Ansible 自动化平台的原生功能)红帽 Ansible Lightspeed 来扩展这一愿景,而不仅仅是生成代码。我们现在通过添加代理式 AI 和模型上下文协议 (MCP) 来实现自动化闭环。代理式 AI 代表着重大的飞跃,因为它们是能够规划和执行复杂任务的自主系统。通过将代理式 AI 与红帽 Ansible 自动化平台集成,我们的系统不仅可以生成修复代码,还可以智能地编排其执行,并通过自动化策略即代码受到 AI 防护的监管。
全面整合
我们制作了一个全面的演示,展示了红帽经过集成和优化的产品组合如何将更出色的 AI 智能分析与切实可行的自动化相结合,同时使用生成式 AI 和代理式 AI 来构建未来的智能自主网络。
以下是演示的工作流程:
- 事件发生:故意创建服务故障。
- 警报和触发器:用于 Apache Kafka 的红帽 Streams 在大型分布式环境中传输事件。然后,事件会被事件驱动的 Ansible 接收,自动触发 Ansible 自动化平台中的 Rulebook 工作流。
- AI 分析和洞察:工作流将错误日志发送到由 Llama Stack 提供支持的代理,以进行根本原因分析 (RCA)。根据此分析,生成提示(用于创建修复 playbook)。同时,网络运维团队会收到错误日志和 AI 生成的 RCA 通知。
红帽技术通过优化事件收集和高效运行 LLM 来改进根本原因分析,从而增强 AIOps 解决方案。
提供切实可行的自动化
- 代理决策:根据分析,代理决定是否可以自行处理问题。它使用第三方 MCP 检查 Ansible 自动化平台是否有可修复问题的现有作业模板。如果找到,它会自动运行模板来解决问题。否则,将通过人参与的流程进行修复,以确保采取正确的操作。
利用“人参与”进行修复
- Ansible 代码生成:操作员向 AI 代理提供提示。借助第三方 MCP 和 Ansible 自动化平台,代理将此提示提供给红帽 Ansible Lightspeed,以生成新的修复 playbook。虽然这个过程可以完全自动化,但特意包含了一个人参与循环,以在执行之前检查和验证生成的 playbook 是否准确且安全。
- 系统配置:在验证生成的 playbook 是否准确且安全后,操作员指示 AI 代理触发 Ansible 自动化平台中的工作流。此工作流将新的 Ansible playbook 推送到 Git 存储库,在 Ansible 自动化平台中同步项目,并创建作业模板来运行它。
- 修复: 最后,AI 代理调用 Ansible 自动化平台来编排 Ansible Playbook 的执行,解决导致服务中断的原始问题。在 Ansible 自动化平台中,策略即代码为 AI 代理提供了防护措施(例如,不得在维护窗口期间进行更改)。
结论
实现完全自治的智能网络的旅程虽然复杂,但路径明确,可以分解为更小的实用步骤。通过将更出色的网络 AI 洞察与切实可行的自动化相结合,服务提供商可以克服碎片化带来的挑战,构建统一、智能且具有自我修复能力的系统。红帽统一的解决方案集为构建这些自我修复系统提供了必要的基础
进一步了解红帽的集成技术、TM 论坛计划和相关的 Catalyst 项目。
关于作者
As an Associate Specialist Solutions Architect on the Red Hat Tiger Team, Saad helps guide customers through the exciting world of open source. He contribute(s) to shaping Red Hat's strategy and ensuring customers get the most out of our innovative solutions.
Since joining Red Hat in 2023, he has/have primarily focused on designing and implementing robust cloud-native platforms using Red Hat OpenShift. While OpenShift is his core focus for building scalable applications, he also explore(s) how these platforms can cleverly incorporate AI capabilities to unlock new possibilities for businesses. With a Master's degree in Computer Science, he bring(s) a strong technical foundation to every challenge, helping organizations transform their ideas into powerful, real-world solutions.
Expert Telecom Solution Architect with 19 years of hands-on experience in designing, implementing, and optimizing Multi-Platform Integration & Automation solutions.