北邮：面向工业大模型的算力网络架构与关键技术_平台

北邮：面向工业大模型的算力网络架构与关键技术

自动化博览
作者：北京邮电大学沈昕炎林亚捷许方敏赵成林
2024年5月14日 06:37

随着第四次工业革命的推动，工业生产逐渐迈入了数字化和智能化的时代，这不仅改变了传统制造业的面貌，也为企业带来了前所未有的机遇与挑战。AI大模型作为驱动工业创新的关键引擎，在生产制造、研发设计和经营管理等方面发挥了巨大作用，也对构建高效、经济、智能、安全、可靠的网络和计算基础设施提出了更为迫切的需求。算力网络，作为“算力+连接”的融合形式，充分反映了新基建对5G、工业互联网等基础设施以及AI、云/边缘计算、区块链等新技术服务的融合需求。工业大模型的持续推进，对算力网络在计算资源、海量数据传输与存储、实时性和安全性等方面提出了更高的要求。本文旨在深入调研工业大模型的发展现状，探究发展趋势，提出面向工业大模型的算力网络架构，并探讨其中的关键技术问题，以促进工业领域数字化转型的加速发展。

工业大模型发展现状

AI大模型发展历程

自20世纪50年代人工智能诞生以来，AI大模型一直以多维共进的高速发展为特点，经历了以CNN等传统神经网络模型为代表的萌芽期、以Transformer为代表的全新神经网络模型的沉淀期和以GPT为代表的预训练大模型爆发期，如图1所示。大模型每年的参数规模至少提升了10倍，从预训练模型到大规模预训练模型再到超大规模预训练模型，实现了从亿级到百万亿级的飞跃。此外，大模型也从最初支持文本、图像、语音等单一模态下的单一任务，逐渐演化为支持多种模态下的多任务。在各个发展阶段，涌现出多个代表性的AI大模型。

在技术架构方面，Transformer架构是当前AI大模型领域的主流算法架构基础。2018年，自然语言处理模型参数量达到了3亿规模；2020年，OpenAI提出了首个千亿级的GPT-3模型，将模型规模推向了新的高峰；2023年OpenAI推出新一代多模态大模型GPT-4，升级了ChatGPT的人机交互能力；同年5月，谷歌推出升级版多模态模型PaLM2，宣布在其办公套件Workspace和搜索引擎中嵌入新一代人工智能系统。在国内，华为于2021年发布了首个中文千亿级的盘古模型；同年，中科院自动化所提出了首个三模态的紫东太初模型，预示着AI大模型进一步走向通用场景。

在应用场景方面，AI大模型可分为通用大模型和行业大模型两种类型。基于通用大模型，结合行业知识，衍生出了以工业大模型为主的一系列行业大模型，满足了工业制造业、金融业、能源业等不同领域的应用需求。

图1 AI大模型发展历程

AI大模型在工业领域的应用

2023年5月发布的《工业数字化/智能化2030白皮书》指出，数字化正全面改变工业生产的基本功能，正推动新的生产要素、制造体系、研发范式和组织形态的涌现，它是塑造工业体系、推进工业化进程和改变全球工业格局的最重要技术变量。

根据2023年IDC发布的《AI大模型在工业应用展望，2023》报告，大模型在工业中的应用主要分为两个方向，如图2所示。一是增强场景模型的泛化能力，以提升模型的适用性，二是利用自然语言对话和内容生成能力改变应用的交互方式，包括生成文档、报表等。通过运用深度学习、强化学习等先进技术，工业大模型能够高效处理海量数据，能够快速识别生产过程中的问题和瓶颈，实现对生产过程的精细化管理。

图2 工业大模型发展方向

工业大模型对算力网络需求和挑战

近年来，云/边缘计算在工业领域崭露头角，为实现物联网设备的智能和自治提供了关键支持。云计算作为中心化的大数据处理平台，在复杂多样的工业场景中，对低时延和高可靠性的需求日益凸显。边缘计算充分利用物联网设备的嵌入式计算能力，在终端实现了更为智能的数据处理和决策，从而降低了数据传输时延，但边缘计算仍面临着资源有限和管理复杂的问题。

在这一演进过程中，算力网络成为解决云/边缘计算挑战的新范式。算力网络强调了算力资源的泛在化部署和协同优化，以支持工业大模型在复杂环境中的高效运行。工业大模型的飞速发展与以“海量数据、低时延、安全传输”为特点的关键需求，对现有的算力网络提出了如下需求。

规模数据处理能力

目前主流的大模型都是建立在巨大的参数量和运算量之上，对计算和传输能力提出了极高要求。以1750亿参数的GPT-3为例，每生成一次1000字回答，所需算力资源约为4PFLOP/s。工业模型中数据规模指数级增长，节点间需要建立高效的通信和传输机制，以保证庞大的数据集在网络中可靠流通，确保节点之间信息的共享与协同训练，这是保障工业大模型整体性能的重要环节。

实时性与低延迟

面向工业制造、供应链管理与物流优化等重点核心领域的实时工业生产，需要在不同的场景中进行实时推理，以应对生产过程中的突发变化，这需要算力网络提供足够的算力资源，确保大模型能够在短时间内做出准确的决策，从而维持生产线的高效运行。在设备监测和预测性维护中，大模型需要获取终端设备的实时数据，统筹全局，分析设备的运行状况并预测潜在的故障，以提高整体供应链的灵活性和适应性。

分布式并行计算

对于需要进行训练的工业大模型，分布式训练是一个关键需求，算力网络应提供相应的框架和策略，支持高效的训练过程并确保模型参数的一致性和收敛性。针对庞大的工业大模型参数，算力网络需要支持高效的模型参数分布和同步，以确保各计算节点之间的模型保持同步，这些需求强调了对于模型、数据、计算任务的高效管理和协同处理能力，为分布式计算系统提供了挑战和优化的方向。

面向工业大模型的算力网络架构

本文将面向工业大模型的算力网络划分为四个关键层，如图3所示，以满足工业场景对数据处理和智能决策的需求。首先，数据接入层扮演着数据源的关键角色，它包括各类工业设备传感器，通过高效的实时数据采集与传输机制以及符合工业大模型需求的数据预处理，实现对工业数据的实时采集和高质量精准传输。计算存储层整合了智能边缘节点和分布式存储系统，可以对来自数据接入层的数据进行轻量化处理和海量数据的分布式存储及检索，以提高响应速度，减轻中心计算负担。核心控制层是整个工业算力网络的计算引擎，集成了分布式计算引擎和实时通信与调度方案，为工业大模型提供了强大的算力支持。其通过网络控制单元和动态调整服务，实现对整个算力网络的灵活管理和优化，适应了工业AI任务的动态变化和多样性。工业AI服务层涵盖了模型存储服务、模型训练与推理服务和性能监控服务。这一层确保工业大模型的高效存储、训练和推理，同时通过性能监控服务实现对模型运行状态的实时监控与优化。这一完整而高效的架构使得各层次之间能够高效协同，为工业大模型的全生命周期提供了全方位的支持。

图3 面向工业大模型的算力网络架构

如图4所示是基于工业大模型与算力网络相结合的质量控制流程，在此场景中，工业大模型需要大量的计算资源来训练和推理，同时需要与算力网络无缝协作。其主要包含以下步骤：

（1）数据采集与预处理：传感器和摄像头分布在厂房不同生产线上，可以实时收集汽车生产过程中的各种数据，并送入工业算力网络的数据接入层，进行预处理和清洗。

（2）模型训练与优化：工业大模型在云端的计算节点上进行训练，并通过分布式并行计算加速模型的学习过程。优化过程需要大规模的计算资源来调整模型参数，以适应不同汽车型号和生产变化。

（3）实时推理与质量控制：训练完成的大模型被应用到工业生产中，例如工厂内的服务器或边缘设备。在汽车生产过程中，模型实时进行推理，分析各个阶段的数据，检测潜在质量问题，并共享数据信息。

（4）实时反馈与调整：通过算力网络，模型的实时推理结果被反馈到生产线和边缘算力中心，系统可以根据反馈实时调整生产参数，甚至在必要时停止生产线，这种实时性要求对于保障质量至关重要。

上述质量控制流程突显了工业大模型如何依赖算力网络的计算、通信和实时性能，以实现在复杂的工业制造环境中对产品质量进行精准控制。

图4 面向工业大模型的生产流程图

面向工业大模型的算力网络关键技术

面向工业大模型的算力感知技术

算力感知是对算力能力信息、算力资源状态信息、算力服务信息等要素的全面感知。在面向工业大模型场景的算力网络中，计算负载各不相同使得计算资源具有异构泛在的部署特性和动态时变的资源特性，算力感知的目的是明确网络中的算力资源部署，满足不同规模工业任务的算力需求。

当前面向工业大模型场景的算力感知针对工业中单个节点存在的感知范围有限、效率低等问题，将多节点感知的算网信息进行聚合来扩展感知的维度和范围，并利用智能算法构建全局统一的算网状态视图，精准地对泛在异构、动态时变的工业信息资源的部署位置、实时状态、负载信息等进行感知，并对工业网络的传输时延、抖动、带宽资源利用率等信息进行实时动态获取，保证了工业生产的可靠性，如图5所示。

图5 面向工业大模型场景的算力感知示意图

工业大模型大规模数据传输与存储技术

工业大模型的数据量呈指数级增长，包括来自传感器、监控设备、移动设备等多源数据，以及历史数据和场景数据。为确保算力感知基础，应用时间敏感网络（Time-Sensitive Networking，TSN）等确定性传输技术，保障工业大模型中的业务流具备高可靠性和低时延的服务质量。TSN不仅满足工业控制的实时性和确定性需求，还兼容以太网，可实现工业控制数据和以太网数据的混合传输。鉴于工业数据的突发性，TSN采用基于信用的整形器（Credit-Based Shaper，CBS）平滑流量，有效维护突发性实时业务流的时延上界。

此外，在工业大模型的生产场景中，存储技术不断创新，包括蓝光存储、硬件高密度、数据缩减、编码算法、芯片卸载、多协议数据互通等技术，使得大规模数据存储成为现实。

面向工业大模型的分布式计算和优化

应用于工业AI领域的大型模型，需处理庞大数量的参数和变量。为了实现高效可靠的数据处理，通常采用多层级复杂结构构建这些模型。为了应对工业领域庞大的过程性和历史性数据，多数情况下采用并行计算和分布式计算技术。这利用了多个计算机或处理器同时处理数据的能力，从而显著提高了计算效率，减少了训练模型所需的时间，并解决了计算能力瓶颈的问题。同时，考虑到工业环境中可能存在节点故障或计算资源不足的情况，算力网络需具备容错性和弹性计算的能力，以确保计算任务的持续进行和动态资源调整。

面向工业大模型的协同资源调度

在工业大模型场景中，一方面，海量数据的处理很难在单一边缘节点中完成，算力网络的边缘计算节点计算资源有限，计算能力各不相同，计算负载状况动态变化。当多个计算节点可以完成某项计算任务时，需要考虑选择哪一个计算节点来处理该计算任务；另一方面，计算量较大的计算任务需要分派给多个边缘节点或者计算资源充足的边缘节点来进行处理，如何将计算任务分派并调度至最匹配的边缘计算节点以提升工业互联网计算任务处理效率是算力网络的关键技术之一。

协同资源调度策略需要将计算任务按照某种方式分配给云端或边缘设备，同时还需要考虑任务的执行顺序和资源的分配情况。在这个过程中，要尽可能地减少任务的执行时间，降低网络的传输延时，从而提升系统的整体性能。一种策略是基于设备的计算能力和资源利用率来分配任务，将计算密集型任务分派给计算能力较强的网络节点，而将数据密集型任务分配给边缘计算节点，以最大程度地利用各节点的资源。另一种策略则是采用任务切分和协同执行的方式，将一个任务切割成多个子任务，并将这些子任务分配给不同的设备执行，最后将它们的结果协同合并，得到最终的计算结果，其过程如图6所示。

图6 工业算力网络协同资源调度流程

工业算力网络安全性和隐私保护

在工业算力网络中，云、边、端各类算力节点广泛接入，节点间存在安全差异，安全风险复杂多样，可信评估与安全认证机制尚未成熟。为满足工业大模型网络服务特点并应对安全挑战，可在网络层对数据流向、节点操作等信息进行编码标记，构建跨系统、跨节点的数据流转标记和预授权机制，实现对数据流出网时的有效管控，并在整个数据流转过程中全程感知。结合工业算力网络的保障能力，通过智能化分析和灵活配置，形成主动防护和联动弹性的内在安全能力，提高网络行为的可预见性和高效管理，同时满足端对端极度差异性的安全需求[。

结束语

本文深入研究了面向工业大模型的算力网络架构及其关键技术，并通过对算力网络在工业领域的需求、挑战以及发展趋势的剖析，深刻认识到算力网络在支持工

业大模型应用中的重要性。本文还提出了面向工业大模型的算力网络架构，该架构包括应用服务层、网络控制层、核心资源层、边缘计算层和设备接入层，以全面满足工业领域数字化转型的需求。在关键技术方面，本文讨论了算力感知、数据传输与存储、协同资源调度等核心技术，为后续工业大模型的深入研究提供了参考。

来源 | 《自动化博览》2024年第二期暨《边缘计算2024专辑》

编辑：甄清岚

分享到：