中国信通院大模型第二轮评测正式启动

发布时间:2023-09-06

作者:NGAI

评测背景

随着人工智能与实体经济不断融合,数据标注成本高、算力建设难度大、模型泛化能力差等发展瓶颈不断显现。大规模预训练模型(以下简称大模型)作为人工智能领域的重大突破之一,参数规模和模型性能不断创出新高。凭借较强的模型性能和泛化能力,大模型可极大降低技术门槛和开发成本,引发产学界高度关注。大模型在2022-2023年两度蝉联百度和阿里巴巴十大科技趋势预测前列,并入选中国信息通信研究院(以下简称中国信通院)2023年ICT十大趋势。

近期,大模型的发展重心逐步从学术打榜转向生态建设,随着模型工程化发展进程不断加快,模型能力与场景结合日渐加深。其中,OpenAI发布的ChatGPT已成为大规模预训练语言模型在对话场景的落地示范,上线约两个月其月活用户数量已破亿,成为现象级产品。然而,在持续攀升的热度背后,敏感数据泄露、安全可信等问题不断显露。为推动大模型技术安全可信发展,工程化进程稳健推进,中国信通院布局大模型相关研究,联合产学研用各方制定《大规模预训练模型技术和应用评估方法》系列标准。

参考标准

中国信通院密切关注大模型发展态势,依托人工智能关键技术和应用评测工业和信息化部重点实验室成立人工智能工程化推进委员会,下设大模型工作组,现已吸纳50余家成员单位。紧扣大模型全生命周期,积极开展技术研究、标准制定、案例征集、技术沙龙等相关工作,围绕模型开发、模型能力、模型应用和安全可信四个维度制定多维评价指标。目前,模型开发、模型能力两部分标准已发布,模型应用标准初步定稿,安全可信标准编制工作正在进行中。

评测范围

参考《大规模预训练模型技术和应用评估方法》系列标准,本次开放模型开发、模型能力、模型应用三个评测模块,通过功能、性能指标综合评级。本轮新增专项能力评测,参测方可结合技术和产品研发情况选测部分能力项。

模型开发模块:包括数据构建、模型训练、模型管理、模型部署4个能力域、16个能力子域、60余个能力项,全面评估研究主体开发大模型的能力;

模型能力模块包含功能丰富度、性能优越度、服务成熟度3个评测维度、8个能力域、30余个能力项,全面评估大模型的各项技术能力;

模型应用模块:包含工程路径、运营管理能力、应用丰富度、服务成熟度4个能力域、14个能力子域、30余个能力项,综合评估大模型应用成熟度。

2022年,中国信通院开放模型开发与模型能力两个测试模块,现已为2家企业累计提供4个模块的产品评测,其中华为、百度在参测的模型开发和模型能力两个模块中均取得4+评级。为进一步促进技术水平提升、帮助用户方选型产品,中国信通院正式启动大模型第二轮评测。

评测流程

评测流程主要分为商务确认和技术对接两个部分,商务流程依次为评测意向沟通、评测流程申请和商务合同确认,技术对接主要围绕评测材料的准备、评估测试的实施及评测结果的评审展开。

图片

时间安排

1.评测报名:即日起开始

2.评测执行:2023年2月至2023年6月底

3.专家评审:2023年7月

4.证书颁发:2023年7月底可信AI峰会(拟)


联系人

张老师,15722924458,

zhangxueqiang@caict.ac.cn

陆老师,18761677976,

lutiewen@caict.ac.cn