打造国内一流大模型服务能力,助力我国产业能力提升——人工智能关键技术和应用评测工业和信息化部重点实验室大模型工作纵览

发布时间:2023-09-05

作者:NGAI

近年来,大规模预训练模型(以下简称:大模型)作为人工智能取得突破性进展的重要驱动力之一,显著加速人工智能工程化和普惠化发展进程,有望成为新一代智能技术底座。中国信息通信研究院(以下简称:中国信通院)于2017年10月获批建设人工智能关键技术和应用评测工业和信息化部重点实验室(以下简称:人工智能实验室),面向人工智能产业化与实体经济深度融合中的突出问题,通过咨询、标准、评测等创新服务手段,支撑我国人工智能产业高质量发展。近期人工智能实验室密切关注大模型发展态势,高度重视大模型研究、咨询、标准、评测等共性需求,不断夯实测试数据集、软硬件环境、标准规范等基础,已具备全面、专业、高效的大模型评估测试软硬实力,旨在为产学研用各方提供顶尖的咨询和评测服务。



一、多项举措并重,全力助推大模型产业发展

2020年,中国信通院云计算与大数据研究所(以下简称:中国信通院云大所)依托人工智能实验室正式启动大模型研究工作,携手各方全力助推大模型产业发展,已在工作组建设、标准研制、评估测试、案例征集等方面取得多项成果:


一是凝聚各方力量助力大模型产业可信发展,组建大模型工作组。中国信通院云大所依托人工智能实验室成立大模型工作组,目前已吸纳成员单位60余家,覆盖了金融机构、互联网企业、人工智能企业、高校院所、电信运营商等多种类型,通过技术产业研讨、标准评测、优秀案例推广等工作全面助力我国大模型产业能力提升。


图片


二是面向大模型的“建、用、管”等产业需求,制定大模型标准体系。人工智能实验室大模型工作组经过多轮讨论,共同编制了《大规模预训练模型技术和应用评估方法》系列标准。目前模型开发和模型能力两项标准已发布,模型应用标准初步定稿,可信要求标准正在编制中。


图片


三是聚焦大模型能力提升,为业界提供大模型测试服务。人工智能实验室大模型工作组依托“可信AI”评测体系,启动模型开发、模型能力评测工作,先后为华为、百度、中科院自动化所等3家单位提供6个模块的评测服务,并颁发等级证书,相关成果得到业界的强烈反响。


图片


四是展现国内大模型生态,开展两轮大模型案例征集。为呈现大模型应用探索的初步成效,提供技术、服务、运营、管理等选型参考,人工智能实验室先后启动两轮大模型应用案例征集工作。首轮工作共评选出25家企业申报的31项案例,涉及保险、证券、银行、电商、零售等多个行业场景,起到了较好的示范效应,第二轮案例征集工作正在进行中。


图片


二、体系再度升级,高度适配国内外发展态势

自大模型技术兴起以来,参数规模呈现出爆发式增涨趋势,模型性能取得显著提升。与传统人工智能模型相比,大模型具有开发门槛高、技术能力强、运营要素新、应用服务全等多重特点。为进一步适应当前大模型发展现状和趋势,引导大模型技术向善、向上、向阳发展,人工智能实验室在以“工程化”过程为核心的大模型标准体系1.0基础上,升级并发布以“模型即服务MaaS”为核心的大模型标准及评测体系2.0


图片


大模型标准及评测体系2.0以“四横一纵”为核心,按照模型化、能力化、工程化、产业化以及安全可信等需求,未来将从模型开发、模型能力、模型运营、模型应用、安全可信共五个方向持续构建和完善大模型的标准体系。具体来看:


第1部分是模型开发,可为企事业单位、高校院所等研发主体开发基础大模型,提供指标及过程参考。


第2部分是模型能力,可指导评估机构采用主观和客观指标全面测试基础大模型、领域大模型、产业大模型的功能及性能。


第3部分是模型运营,可为技术方交付大模型、应用方运营大模型提供参考,可提供平台、工具、套件建设和选型参考。


第4部分是模型应用,可用以评估大模型的任务支持度、场景丰富度、行业覆盖度、服务成熟度等,综合评价大模型的应用效能。


第5部分是安全可信,可用以评估数据、模型、应用的安全性,评估结果、过程、机制和规则的可信性,以及评估大模型生态链的自主可控程度。


除此以外,大模型标准及评测体系2.0还将进一步规划布局大模型开源、治理等生态构建的关键要素。


三、挖掘共性需求,持续建设大模型测试能力

人工智能实验室已在大模型“性能测试+可信评估”数据集构建、大模型专业软硬件测试环境建设等方面取得初步成效,全面夯实大模型等人工智能前沿技术及应用的评测基础。


一是定制构建大模型“性能测试+可信评估”全栈数据集。人工智能实验室建有人工智能数据集评测和服务平台,可面向大模型等人工智能前沿技术评测需求,一体化采集、清洗、标注多种模态、多类场景、多个行业的评测数据集。现有数据集可支撑开展自然语言处理(NLP)大模型、计算机视觉(CV)大模型、多模态大模型等性能测试和可信评估工作。在性能测试方面,已构建对话系统、机器翻译、自动摘要、代码处理、情感分析、信息检索、人脸识别、光学字符识别(OCR)等二十余项任务数据集,覆盖日常、对话、新闻、金融、科技、法律、医卫等十余个通用和专用领域,规模已达到千万数量级。在可信评估方面,已构建违法犯罪、隐私安全、业务风险、歧视偏见、黄反测试等十余个专用数据集,并面向鲁棒性、专业性、正确性、可读性等评估内容进行了人工标注和校准。


二是完成建设大模型专业软硬件测试环境。为进一步满足大模型高算力、多数据、大存储的评测需求,人工智能实验室建设了异构AI硬件和框架评测服务平台、语音语义测试服务平台等多个大模型专用测试服务平台。异构AI硬件和框架选型平台可为大模型开发过程提供国内外常见深度学习计算卡、深度学习框架,以在多种存储、计算、通信环境下,评估科研主体训练和优化大模型的综合能力。语音语义测试服务平台建有专业录音棚和混响室,可面向基于大模型的自然语言处理、语音识别、语音合成等任务,提供数据集采集、技术测试、产品评估等服务。


未来,中国信通院将持续跟踪大模型前沿动态,依托大模型工作组聚焦产业各方力量,积极开展大模型技术研讨、产业交流、标准研制、评估测试、案例征集等工作。


如有技术合作和评测需求,可联系:


董老师

13521850718

dongxiaofei@caict.ac.cn


张老师

15722924458

zhangxueqiang@caict.ac.cn