首页 >> 产业 >> 产业 >> 正文
信通院李荪等:从“经验驱动”向“标准驱动”,推动人工智能高质量数据集建设
  • 中国信通院
  • 2025年4月30日 14:24

工联网消息(IItime) 随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。高质量数据集的建设是提升AI模型性能的关键,也是推动“人工智能+”行动落地的保障,标志着人工智能发展正在进入“数据驱动”新阶段。

一、高质量数据集成为人工智能应用升级的核心要素

1. “人工智能+数据要素”协同推动高质量数据集建设

2025年2月,高质量数据集建设工作启动会在京召开,27个国家部委代表参加,会议落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。北京、辽宁、河北、贵州等地积极推动人工智能高质量数据集建设,开放重点行业领域数据集,打造“AI数据工厂”,为高质量数据集的建设和应用提供了有力的政策保障。

2. 大模型技术突破性进展重构了数据工程范式

DeepSeek通过自动化推理和数据生成技术,实现数据标注方式的智能化升级;采用数据蒸馏技术提炼低质数据有效信息,结合自动化筛选与人类专家反馈机制,形成“机器预处理+人工校准”的双层质检流程;运用强化学习框架,聚焦推理能力培养,构建了包含60万条推理型样本与20万条非推理型样本的训练集,优化模型架构。

3. 数据已成为人工智能行业应用落地的核心护城河

在算法趋同、算力普惠的背景下,高质量、高价值密度的数据资源构建起企业差异化竞争力。垂直领域的数据壁垒通过业务场景闭环持续积累,形成模型性能的代际优势。“数据-算法-应用”相互强化的生态闭环的形成,将确立难以复制的战略壁垒。

二、高质量数据集建设“三大难点”

当前,高质量数据集建设正处于探索阶段,主要面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战。

1. 目标定位模糊化

数据集建设常陷入“为数据而数据”的误区,智能场景需求与数据集建设目标脱节,企业未将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能提升。

2. 实施路径碎片化

从数据采集到模型训练的全链路缺乏系统性规划和设计,无法形成体系化数据集构建和维护机制,造成多源异构数据标准难统一、跨部门跨层级难协作,致使清洗、标注等数据处理成本激增。

3. 技术底座薄弱化

现有数据处理技术难以应对复杂人工智能场景需求,多模态数据处理能力不足,制约模型迭代与应用规模化。同时,缺乏适配行业特性的工具链,自动化程度低,人力依赖严重,工程落地效率受阻,行业特性适配工具链缺失。

三、搭建人工智能数据工程能力“五大核心要素”

1. 组织管理

全方位解决人工智能数据工程项目管理效率、团队协同能力以及技术应用标准化等问题。

一是项目管理。旨在通过科学规划、精细执行与灵活调整,确保高质量数据集项目按时交付,成本可控。

二是组织建设。旨在设计并实施一个高效、协同的组织结构,确保从数据采集到模型应用的有效管理和支持。

三是人才管理。旨在建设一支跨学科、跨专业、跨领域的交叉复合型的大模型数据工程人才团队。

四是标准应用。旨在围绕大模型数据技术、平台、应用、管理、安全等方面,制定数据服务标准和操作规范。

2. 开发维护

人工智能数据集构建包括数据设计、数据采集汇聚、数据预处理、数据标注、数据质检等共性关键技术和环节。

一是共性人工智能数据工程技术工具,构建标准化底层能力。数据设计规划阶段,依据需求形成数据集设计方案和知识索引体系,梳理内外部数据资源,形成模型数据资源地图;数据采集汇聚阶段,构建多源异构数据连接器,通过元数据管理实现数据血缘追踪。预处理与标注阶段,研发自动化工具链,例如基于规则引擎的异常值清洗模块、弱监督标注工具;质量评估阶段,建立“模型-数据”质量反馈评估能力,联动修复工具实现闭环优化。

二是定制人工智能数据工程技术方案,面向应用的深度适配。预训练阶段通过定向采集领域知识,结合数据增强技术扩充样本多样性,消除训练数据性别、地域等潜在偏见。指令微调阶段开发任务导向的数据构造工具,例如将用户问答数据转化为结构化思维链数据集。反馈对齐阶段需搭建人类反馈闭环系统,设计多维度评价指标,利用偏好学习模型对齐人工评价与模型输出。此外,还需针对行业特性定制方案,确保数据工程与业务目标深度耦合。

3. 质量控制

数据质量直接决定大模型决策性能,需从评估准则、技术工具与流程管控三方面系统性突破。

一是评估准则层面,需建立多维度的量化标准。除传统数据质量指标外,需引入以模型训练为目标的质量评估。中国信通院建立“可信AI”人工智能数据集质量评估体系(ADAQ),依据行业标准《面向人工智能的数据集质量通用评估方法 总体要求》,涵盖数据集完整性、规范性、准确性、及时性、一致性等12个一级指标和36个二级指标。

二是技术工具层面,需融合自动化与智能化手段。ADAQ体系自建人工智能数据集质量评估工具平台,按照“规则检测+人工抽样+模型效果”实现数据集质量评估项目执行。

三是全流程监控层面,需贯穿数据生命周期。从采集阶段元数据追踪,到预处理环节异常值实时清洗,再到模型训练质量反馈闭环。ADAQ体系与“方升”大模型基准测试体系形成协同,通过对比模型输出与训练数据集,反向定位低质数据区间并提出优化机制。

4. 资源运营

构建“资源管理、开放共享、流通交易”三位一体机制,破解数据资源“存不好、管不住、用不活”的难题。

一是资源管理层面,需建立覆盖数据全生命周期的管理框架。以“资源目录”为索引,构建高质量数据集分类分级体系。采用模型专家和业务专家联合的数据治理机制,按照模型需求梳理专业数据加工和标注策略。

二是开放共享层面,需考虑数据集和模型应用场景双重要素。完整呈现采集来源、环境参数、结构规模、质量指标、隐私策略。明确开放时限、应用范围限制及版权协议,平衡开放力度与风险管控。制定开放许可协议,规范数据供需方权责与使用方式。

三是流通交易层面,符合现有交易流通机制,鼓励模型数据生态合作。明晰权属,构建登记追溯体系,统一交易标准与合同范本,保障交易合规透明。鼓励数据方和模型方合作共建,形成资源融合推动产品和应用创新,建立共享联盟与合作框架,形成协同共进的流通生态。

5. 合规可信

数据合规可信是大模型可信的基石,需从数据合规与数据可信双向发力,确保数据应用合法合规、版权清晰、质量可靠、效果可溯。

一是数据合规以安全性、法律遵循和版权规范为核心,覆盖多重维度。数据需严格符合《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《生成式人工智能服务管理暂行办法》等相关法律法规。明确数据采集、生成、加工过程中的版权归属,避免权属纠纷,规范数据使用与分发的版权授权,确保数据来源合法,使用范围符合授权约定。

二是数据可信围绕来源、治理、结果、效果构建质量闭环。来源可信强调真实性、准确性、合法性,验证数据采集过程的客观性。治理过程可信要求方案与流程透明可解释,治理规则清晰留痕,操作过程可追溯。结果可信要求数据分布合理,降低偏见样本率、毒化样本率,提升边缘案例覆盖度与标注准确性,避免因数据偏倚导致模型决策偏差。效果可通过模型训练效果验证价值,对比治理前后模型的准确率、泛化能力等表现,以效果反推数据治理的有效性。

人工智能迈向“数据驱动”的关键阶段,人工智能数据工程能力建设也将从“经验驱动”向“标准驱动”的深刻变革。高质量数据集不仅是模型性能提升的核心载体,更是激活数据要素价值、构建智能生态的战略基石。

编 辑:刘艳玲
分享到: