最新！SuperCLUE中文大模型测评基准10月榜单发布国内外AI智能最新对比-晓白博客网

2023年10月25日，SuperCLUE发布中文大模型10月榜单。

SuperCLUE是中文通用大模型多层次的综合性测评基准，包括多轮开放问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT。

主要考察模型在中文能力上的表现，包括专业知识技能、语言理解与生成、AI智能体和安全四大能力维度的上百个任务。

本次评测选取了目前国内外最具代表性的20个通用大语言模型。与9月相比，新增了月之暗面的Moonshot、百度的文心一言4.0、科大讯飞的星火V3.0、vivo的vivoLM和阿里云的Qwen-14B。

通过本次评测我们发现，国内第一梯队大模型格局已基本形成，在过去11个月的成绩令人振奋，头部几个中文大模型已经与GPT3.5极为接近。但与GPT4的距离依然遥远，尚未发现有对标和媲美GPT4的迹象。榜单地址：

www.superclueai.com

官网地址：www.CLUEbenchmarks.com

10月评测数据集为全新的3754道测试题，其中包括606道多轮简答题和3148道客观选择题。总排行榜

注：本次评测的GPT3.5版本为gpt-3.5-turbo-16k；文心一言4.0和SenseChat3.0由于分数非常接近（在0.05分以内）认定为并列。

多轮开放问题OPEN排行榜

三大能力客观题OPT排行榜

十大基础能力榜单

开源模型排行榜SuperCLUE认为榜上有名的都是英雄。

SuperCLUE观点

1. 国内第一梯队大模型经过11个月的努力，已经与GPT3.5极为接近。但与GPT4的距离依然巨大，尚未发现有对标和媲美GPT4的迹象。

2. 国内大模型多数擅长做选择题，在三大能力客观题OPT分数上有不少已经超过GPT3.5。SuperCLUE认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势。

3. 国内大模型厂商从算力、数据、人才层面上做了很多努力，SuperCLUE预计在接下来一个季度内将会出现全面超越GPT3.5的通用大模型。但如何赶超GPT4，又会成为摆在所有中文模型研发机构面前新的难题。4. SuperCLUE国内大模型能力成熟度：在语言理解与生成能力、大模型安全性防护能力上，国内一线模型已经相对成熟、表现优异；在专业技能与知识上，已能满足一些应用需求；在Agent智能体能力上，还相对落后、成熟度低。

评测示例

SuperCLUE是谁？中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。包含主观和客观的多维度评测、用户视角的匿名对战、多轮对抗的模型安全评测和聚焦于智能体Agent能力的评测等。它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

SuperCLUE是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。

文章版权归作者所有，未经允许禁止转载。
有事联系邮箱xbnbcn@126.com

THE END