商汤“商量SenseChat 2.0”多个评测基准综合表现超GPT-3.5水平

商汤“商量SenseChat 2.0”多个评测基准综合表现超GPT-3.5水平_热点在线

上海证券报·中国证券网 2023-06-22 13:56:17

(资料图片仅供参考)

近日，商汤科技公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。

根据评测结果，“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT（即GPT-3.5），部分已十分接近GPT4的水平。实现了我国语言大模型研究的重要突破。

以MMLU为例，该测试是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、数据，人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，考验世界知识和解决问题的能力。

在该评测中，“商量SenseChat 2.0”综合得分为68.6，远超GLM-130B（45.7分）的得分，同时还超过了ChatGPT（67.3分）、LLaMA-65B（63.5分）仅落后GPT-4（86.4分），位居第二。在各主要子评测集中的表现如下：

今年4月，商汤正式发布“商汤日日新SenseNova”大模型体系以及自研中文语言大模型“商量SenseChat”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

截至目前，已有近千家企业客户通过申请，应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，并且“商量SenseChat 2.0”还在服务客户过程中，持续实现着快速迭代和提升，以及知识的实时更新。

（文章来源：上海证券报·中国证券网）