# chinese-llm-benchmark **Repository Path**: dongzhibiao/chinese-llm-benchmark ## Basic Information - **Project Name**: chinese-llm-benchmark - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-08-02 - **Last Updated**: 2024-08-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CLiB中文大模型能力评测榜单(持续更新) - 目前已囊括106个大模型,覆盖chatgpt、gpt4、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、openbuddy、AquilaChat、书生internLM2、llama3等开源大模型。 - 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。 - 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、数据分析能力、中文编码效率、中文指令遵从。 - 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行! ## 目录 - [🔄最近更新](#最近更新) - [⚓TODO](#todo) - [📝大模型基本信息](#大模型基本信息) - [📊排行榜](#-排行榜) - [综合能力排行榜](#1综合能力排行榜) - 10B以下开源大模型排行榜 - 10B~20B开源大模型排行榜 - 20B以上开源大模型排行榜 - [分类能力排行榜](#2分类能力排行榜) - [信息抽取能力排行榜](#3信息抽取能力排行榜) - [阅读理解能力排行榜](#4阅读理解能力排行榜) - [数据分析排行榜](#5数据分析排行榜) - [中文编码效率排行榜](#6中文编码效率排行榜) - [中文指令遵从排行榜](#7中文指令遵从排行榜) - [数学基础(算术)能力排行榜](#8数学基础(算术)能力排行榜) - [🌐各项能力评分](#🌐各项能力评分) - [⚖️原始评测数据](#⚖️原始评测数据) - [为什么做榜单?](#为什么做榜单) ## 最近更新 - [2024/7/26] 发布v1.21版本评测榜单 - 新增8个大模型:gpt-4o-mini、讯飞4.0Ultra、ERNIE-3.5-8K、ERNIE-4.0-Turbo-8K、ERNIE-Speed-8K、Doubao-lite-32k、Doubao-pro-32k、qwen-turbo - 删除陈旧的模型:baichuan3、minimax-abab6-chat、tigerbot-70b-chat-v3、openbuddy-zephyr-7b、Yi-6B-Chat、chatglm3-6b、Llama-2-70b-chat miniCPM-2B-sft、openbuddy-mistral-7b、 - [2024/7/15] 发布v1.20版本评测榜单 - 新增10个大模型:gpt-4o、yi-spark、qwen-plus、qwen-long、GLM-4-AirX、GLM-4-Air、GLM-4-Flash、Baichuan4、Baichuan3-Turbo、SenseChat-Turbo - 更新模型:商汤senseChat - 删除陈旧的模型:谷歌bard、openbuddy-llama2-70b、XVERSE-65B-Chat、微软new-bing、BELLE-Llama2-13B-chat-0.4M、讯飞星火v2.0、chatglm-std、chatglm-pro、chatglm-turbo、字节跳动豆包 - [2024/6/29] 发布v1.19版本评测榜单 - 新增数学基础(算术)能力排行榜 - 新增5个大模型:Qwen2-7B-Instruct、Qwen2-72B-Instruct 、glm-4-9b-chat、Yi-1.5-9B-Chat、Yi-1.5-34B-Chat - 排行榜删除陈旧的模型 - [2024/6/2] 发布v1.18版本评测榜单 - 新增6个大模型:abab6.5-chat、abab6.5s-chat、deepseek-chat-v2、yi-large、yi-large-turbo、yi-medium - 中文指令遵从排行榜补充更多模型 - 排行榜删除陈旧的模型 - [2024/5/8] 发布v1.17版本评测榜单 - 新增中文指令遵从排行榜 - 新增4个大模型:Llama-3-8B-Instruct、Llama-3-70B-Instruct、openbuddy-llama3-8b、Phi-3-mini-128k-instruct - [2024/4/13] 发布v1.16版本评测榜单 - 新增中文编码效率排行榜,同等尺寸大模型,编码效率越高推理速度越快,几乎成正比。 - 模型更新:minimax更新至minimax-abab6-chat - 新增3个大模型:Qwen1.5-32B-Chat、minimax-abab5.5-chat、minimax-abab5.5s-chat - [2024/3/20] 发布v1.15版本评测榜单 - 模型更新:gpt3.5更新至最新版本 - 新增8个大模型:gpt-4-turbo、讯飞星火v3.5、MiniCPM-2B-dpo、miniCPM-2B-sft、AquilaChat2-70B-Expr、月之暗面kimichat、谷歌gemma-7b-it、谷歌gemma-2b-it - 排行榜删除陈旧的模型(比如Baichuan2-53B、chatglm-130b-v1、tulu-30b、belle-llama-13b-2m、belle-llama-13b-ext、openbuddy-llama-30b-v7.1、vicuna-33b等) - [2024/2/28] 发布v1.14版本评测榜单 - 新增11个大模型:deepseek-llm-67b-chat、baichuan3、internlm2-chat-20b、internlm2-chat-7b、openbuddy-mixtral-7bx8-v17.1以及qwen1.5系列的6个模型 - 排行榜删除陈旧的模型(比如chatglm2-6b、AquilaChat-7B等) - [2024/1/29] 发布v1.13版本评测榜单 - 模型更新:微软new-bing、文心4.0更新至24年1月版本 - 新增6个大模型:qwen-max、GLM4、BlueLM-7B-Chat、openbuddy-zephyr-7b-v14.1、openbuddy-deepseek-67b-v15.2、XVERSE-65B-Chat - 排行榜删除陈旧的模型(比如phoenix-inst-chat-7b、BELLE-on-Open-Datasets等) - [2023/12/10] 发布v1.12版本评测榜单 - 新增7个大模型:Yi-34B-Chat、tigerbot-13b-chat-v4、openbuddy-openllama-3b-v10、Qwen-1_8B-Chat、Yi-6B-Chat、Qwen-72B-Chat、chatglm-turbo - 新增开源模型细分排行榜:10B以下模型排行榜、10B~20B模型排行榜、20B以上模型排行榜 - [2023/11/22] 发布v1.11版本评测榜单 - 新增4个大模型:openbuddy-mistral-7b-v13.1、Qwen-7B-Chat、Baichuan2-7B-Chat、tigerbot-70b-chat-v3 - 将数据分析能力计入综合得分 - [2023/11/5] 发布v1.10版本评测榜单 - 新增6个大模型: - 3个商用模型:文心4.0、谷歌bard、讯飞星火v3 - 3个开源模型:aquilachat2-34b、ziya2-13b-chat、chatglm3-6b - 排行榜删除陈旧的模型(比如第一代chatglm-6b、MOSS等) - [2023/10/11] 发布v1.9版本评测榜单 - 新增7个大模型: - 3个商用模型:阿里通义千问v1.0.7、豆包、Baichuan2-53B - 4个开源模型:Baichuan2-13B-Chat、internlm-chat-20b、qwen-14b-chat、tigerbot-70b-chat-v2 - [2023/9/13] 发布v1.8版本评测榜单 - 新增7个大模型: - 2个商用模型:chatglm-std、chatglm-pro - 5个开源模型:openbuddy-llama-30b-v7.1、openbuddy-llama-65b-v8、openbuddy-llama2-70b-v10.1、xverse-13b-chat、Baichuan-13B-Chat-v2 - [2023/8/29] 发布v1.7版本评测榜单 - 新增2个商用大模型:讯飞星火v2.0、Baichuan-53B - 表格问答(数据分析)能力排行榜:新增21个模型参与排行。 - [2023/8/13] 发布v1.6版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.6) - 新增4个大模型: - 2个商用模型:商汤senseChat、微软new-bing - 2个基于LLaMA2的开源中文模型:BELLE-Llama2-13B-chat-0.4M、Linly-Chinese-LLaMA2-13B - [2023/7/26] 发布v1.5版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.5) - 新增7个大模型:gpt4、文心一言v2.2、vicuna-33b、wizardlm-13b、Ziya-LLaMA-13B-v1.1、InternLM-Chat-7B、Llama-2-70b-chat - [2023/7/18] 发布v1.4版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.4) - 新增3个大模型:tulu-30b、chatglm2-6b、Baichuan-13B-Chat - [2023/7/2] 发布v1.3版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.3) - 新增3个大模型:360智脑、MOSS-003-SFT、AquilaChat-7B - 讯飞星火更新为最新的v1.5模型 - [2023/6/17] 发布v1.2版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.2) - 新增2个大模型:tigetbot-7b官网、linly-chatflow-13b - 说明做评测榜单的初衷 - [2023/6/10] 发布v1.1版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.1) - 新增3个大模型:minimax、guanaco、Phoenix-7b - 新增表格问答评测维度,作为阅读理解能力的细分项 - [2023/6/4] 发布v1版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.0) ## TODO - 将更多大模型加入评测:Claude、gemini等等 - 增加开源大模型的授权协议,注明能否商用 - 引入更多维度的评测:数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译…… - 评测维度更细分,比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力…… - 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域) - 加入更多评测数据,使得评测得分越来越有说服力 ## 大模型基本信息 价格单位:元/1m tokens,即元每百万token | 类别 | 大模型 | 价格/下载 | 机构 | |----|------------------------|--------------------|-----------| | 商用 | qwen-long | 输入:0.5元,输出: 2元 | 阿里 | | 商用 | qwen-turbo | 输入:2元,输出:6元 | 阿里 | | 商用 | qwen-plus | 输入:4元,输出:12元 | 阿里 | | 商用 | qwen-max | 输入:40元,输出:120元 | 阿里 | | 商用 | gpt-4o | 输入:36.2元,输出:108.6元 | openAI | | 商用 | gpt-4-turbo | 输入:72.4元,输出:217.2元 | openAI | | 商用 | gpt-4 | 输入:217.2元,输出: 434.4元 | openAI | | 商用 | gpt-3.5-turbo | 输入:3.6元,输出:10.9元 | openAI | | ... | ... | ... | ... | | 开源 | glm-4-9b-chat | [modelScope下载](https://www.modelscope.cn/models/ZhipuAI/glm-4-9b-chat) | 智谱 | | 开源 | Phi-3-mini-128k-instruct | [modelScope下载](https://www.modelscope.cn/models/LLM-Research/Phi-3-mini-128k-instruct) | 微软 | | 开源 | internlm2-chat-20b | [modelScope下载](https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-20b) | 上海人工智能实验室 | | ... | ... | ... | ... |
详见 [中文大模型资源汇总(商用及开源)](LLM-info.md)

## 📊 排行榜 ### 1、综合能力排行榜 综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。 ![lin](pic/total.png) 详细数据见[total](total.md)
#### 1.1、商用大模型排行榜 ##### (1)输出价格100元及以上商用大模型排行榜 | 大模型 | 价格(输出) | 分类能力 | 信息抽取 | 阅读理解 | 数据分析 | 总分 | 排名 | |----|------------------------------|------|--------|--------|------|------|----| |gpt-4o|109元|93|96.3|98.0|100.0|96.8|1| |gpt4|434元|94|94.0|99.3|97.0|96.1|2| |gpt-4-turbo|217元|91|90.0|94.0|96.0|92.8|3| |智谱GLM4|100元|86|90.0|97.3|96.0|92.3|4| |Baichuan4|100元|86|94.1|93.3|95.3|92.2|5| |百度文心4.0|120元|88|89.0|94.7|94.0|91.4|6| |讯飞4.0Ultra(new)|100元|88|84.4|96.0|92.7|90.3|7| |阿里qwen-max|120元|86|82.0|95.3|91.3|88.7|8|
##### (2)输出价格10~100元商用大模型排行榜 | 大模型 | 价格(输出) | 分类能力 | 信息抽取 | 阅读理解 | 数据分析 | 总分 | 排名 | |----|------------------------------|------|--------|--------|------|------|----| |百度ERNIE-3.5-8K(new)|12元|89|89.6|96.7|97.3|93.2|1| |百度ERNIE-4.0-Turbo(new)|60元|90|88.9|96.0|93.3|92.1|2| |智谱GLM-4-AirX|10元|89|91.9|92.7|88.0|90.4|3| |minimax-abab6.5-chat|30元|89|87.0|89.3|95.3|90.2|4| |Baichuan3-Turbo|12元|88|86.7|94.7|90.7|90.0|5| |yi-large|20元|85|91.0|90.0|92.7|89.7|6| |讯飞星火v3.5(spark-max)|30元|87|92.0|89.3|87.3|88.9|7| |minimax-abab6.5s-chat|10元|87|88.0|88.7|88.0|87.9|8| |阿里qwen-plus|12元|88|89.6|90.0|84.0|87.9|9| |月之暗面moonshot-v1-8k|12元|92|85.0|84.0|89.3|87.6|10| |gpt-3.5-turbo|11元|81|83.0|92.7|91.3|87.0|11| |yi-large-turbo|12元|82|90.0|88.7|86.7|86.9|12| |讯飞星火v3(spark-pro)|30元|87|82.0|88.0|86.0|85.8|13| |商汤SenseChat-v4|12元|89|78.5|88.0|86.7|85.6|14| |minimax-abab5.5-chat|15元|83|79.0|86.7|72.7|80.3|15|
##### (3)输出价格10元以下商用大模型排行榜 | 大模型 | 价格(输出) | 分类能力 | 信息抽取 | 阅读理解 | 数据分析 | 总分 | 排名 | |----|------------------------------|------|--------|--------|------|------|----| |gpt-4o-mini(new)|4.3元|90|93.3|89.3|100.0|93.2|1| |deepseek-chat-v2|2元|93|88.0|94.0|96.0|92.8|2| |yi-medium|2.5元|86|93.0|89.3|94.0|90.6|3| |智谱GLM-4-Air|1元|89|91.9|92.7|88.0|90.4|4| |豆包Doubao-pro-32k(new)|2元|86|88.1|96.7|86.7|89.4|5| |百度ERNIE-Speed-8K(new)|0元|88|88.1|88.0|89.3|88.4|6| |阿里qwen-long|2元|89|85.9|90.0|86.7|87.9|7| |智谱GLM-4-Flash|0.1元|89|80.0|86.0|82.0|84.3|8| |yi-spark|1元|82|88.9|88.0|76.0|83.7|9| |qwen-turbo(new)|6元|83|85.2|88.0|76.0|83.1|10| |商汤SenseChat-Turbo|5元|81|77.8|76.7|86.0|80.4|11| |豆包Doubao-lite-32k(new)|0.6元|77|86.7|88.7|64.7|79.3|12| |minimax-abab5.5s-chat|5元|58|57.0|70.7|56.0|60.4|13|
#### 1.2、开源大模型排行榜 ##### (1)10B以下开源大模型排行榜 | 类别 | 大模型 | 分类能力 | 信息抽取 | 阅读理解 | 数据分析 | 总分 | 排名 | |----|----------------------------|------|--------|--------|------|------|----| |开源|glm-4-9b-chat|90|82.2|90.0|82.0|86.1|1| |开源|Qwen2-7B-Instruct|89|83.7|86.7|75.3|83.7|2| |开源|Llama-3-8B-Instruct|86|74.0|80.0|90.0|82.5|3| |开源|Yi-1.5-9B-Chat|82|83.0|84.7|80.0|82.4|4| |开源|openbuddy-llama3-8b|78|86.0|81.3|79.0|81.1|5| |开源|internlm2-chat-7b|86|81.0|72.7|82.7|80.6|6| |开源|Baichuan2-7B-Chat|88|76.0|83.3|69.0|79.1|7| |开源|BlueLM-7B-Chat|82|83.0|74.0|72.0|77.8|8| |开源|Qwen1.5-7B-Chat|80|76.0|76.0|70.7|75.7|9| |开源|谷歌gemma-7b-it|72|79.0|74.0|76.0|75.3|10| |开源|MiniCPM-2B-dpo|79|77.0|74.0|66.0|74.0|11| |开源|Qwen1.5-4B-Chat|75|65.0|79.3|63.0|70.6|12| |开源|Phi-3-mini-128k-instruct|74|63.0|65.3|73.0|68.8|13| |开源|谷歌gemma-2b-it|56|60.0|60.0|43.3|54.8|14| |开源|Qwen1.5-1.8B-Chat|57|58.0|52.7|48.0|53.9|15| |开源|Qwen1.5-0.5B-Chat|44|40.0|60.0|34.7|44.7|16|
##### (2)10B~20B开源大模型排行榜 | 类别 | 大模型 | 分类能力 | 信息抽取 | 阅读理解 | 数据分析 | 总分 | 排名 | |----|----------------------------|------|--------|--------|------|------|----| |开源|Qwen1.5-14B-Chat|89|79.0|90.7|90.7|87.3|1| |开源|internlm2-chat-20b|93|80.0|86.0|88.0|86.8|2| |开源|tigerbot-13b-chat-v4|85|82.0|80.0|85.0|83.0|3| |开源|Baichuan2-13B-Chat|83|83.0|74.7|77.0|79.4|4|
##### (3)30B以上开源大模型排行榜 | 类别 | 大模型 | 分类能力 | 信息抽取 | 阅读理解 | 数据分析 | 总分 | 排名 | |----|------------------------------|------|--------|--------|------|------|----| |开源|Llama-3-70B-Instruct|88|87.0|96.0|95.0|91.5|1| |开源|Qwen2-72B-Instruct|87|91.1|94.7|90.0|90.7|2| |开源|Qwen1.5-32B-Chat|91|86.0|92.7|87.3|89.3|3| |开源|Qwen1.5-72B-Chat|89|84.0|88.0|87.3|87.1|4| |开源|AquilaChat2-70B-Expr|82|84.0|92.0|89.3|86.8|5| |开源|deepseek-llm-67b-chat|87|81.0|86.7|92.0|86.7|6| |开源|openbuddy-deepseek-67b|86|89.0|84.7|85.0|86.2|7| |开源|Yi-1.5-34B-Chat|90|83.0|82.7|83.3|84.8|8| |开源|Yi-34B-Chat|88|82.0|84.7|77.0|82.9|9| |开源|aquilachat2-34b|77|82.0|88.0|83.0|82.5|10| |开源|openbuddy-mixtral-7bx8|86|73.0|86.0|82.0|81.8|11|
### 2、分类能力排行榜 评测样本举例: > 将下列单词按词性分类。 > 狗,追,跑,大人,高兴,树 ![lin](pic/classification.png) 详细数据见[classification](classification.md)

### 3、信息抽取能力排行榜 评测样本举例: > “中信银行3亿元,交通银行增长约2.7亿元,光大银行约1亿元。” > 提取出以上文本中的所有组织机构名称 ![lin](pic/extract.png) 详细数据见[extract](info-extract.md)

### 4、阅读理解能力排行榜 阅读理解能力是一种符合能力,考查针对给定信息的理解能力。 依据给定信息的种类,可以细分为:文章问答、表格问答、对话问答…… 评测样本举例: > 牙医:好的,让我们看看你的牙齿。从你的描述和我们的检查结果来看,你可能有一些牙齦疾病,导致牙齿的神经受到刺激,引起了敏感。此外,这些黑色斑点可能是蛀牙。 病人:哦,真的吗?那我该怎么办? 牙医:别担心,我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病,然后清除蛀牙并填充牙洞。在此过程中,我们将确保您感到舒适,并使用先进的技术和材料来实现最佳效果。 病人:好的,谢谢您,医生。那么我什么时候可以开始治疗? 牙医:让我们为您安排一个约会。您的治疗将在两天后开始。在此期间,请继续刷牙,使用牙线,并避免吃过于甜腻和酸性的食物和饮料。 病人:好的,我会的。再次感谢您,医生。 牙医:不用谢,我们会尽最大的努力帮助您恢复健康的牙齿。 基于以上对话回答:病人在检查中发现的牙齿问题有哪些? > ![lin](pic/mrc.png) 详细数据见[mrc](mrc.md)

### 5、数据分析排行榜 暂不计入综合能力评分。 专门考查大模型对表格的理解分析能力,常用于数据分析。 评测样本举例: > 姓名,年龄,性别,国籍,身高(cm),体重(kg),学历 张三,28,男,中国,180,70,本科 Lisa,33,女,美国,165,58,硕士 Paulo,41,男,巴西,175,80,博士 Miyuki,25,女,日本,160,50,大专 Ahmed,30,男,埃及,175,68,本科 Maria,29,女,墨西哥,170,65,硕士 Antonio,36,男,西班牙,182,75,博士 基于这个表格回答:学历最低的是哪国人? > ![lin](pic/tableQA.png) 详细数据见[tableqa](table-qa.md)

### 6、中文编码效率排行榜 暂不计入综合能力评分。 专门考查大模型编码中文字符的效率,同等尺寸大模型,编码效率越高推理速度越快,几乎成正比。 中文编码效率相当于大模型生成的每个token解码后对应的中文平均字数 (大模型每次生成一个token,然后解码成真正可见的字符,比如中文、英文、标点符号等)。 比如baichuan2、llama2的中文中文编码效率分别为1.67、0.61,意味着在同尺寸模型下,baichuan2的运行速度是llama2的2.7倍(1.67/0.61)。 ![lin](pic/zhcoding.png)

### 7、中文指令遵从排行榜 暂不计入综合能力评分。 参考谷歌IFEval,并将其翻译和适配到中文,精选9类25种指令,说明如下: ![lin](pic/if1.png) ![lin](pic/if2.png) 排行榜: ![lin](pic/ifrank.png)
详细数据见[IFEval](IFEval.md)

### 8、数学基础(算术)能力排行榜 暂不计入综合能力评分。 考查大模型的数学基础能力之算数能力,测试题目为1000以内的整数加减法、不超过2位有效数字的浮点数加减乘除。 举例:166 + 215 + 53 = ?,0.97 + 0.4 / 4.51 = ? ![lin](pic/arithmetic.png)
详细数据见[math](math.md)

## 🌐各项能力评分 评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。 | 类别 | 大模型 | 分类能力 | 信息抽取 | 阅读理解 | 数据分析 | 综合能力 | |----|------------------------------|------|--------|--------|--------|------| |商用|gpt-4o|93|96.3|98.0|100.0|96.8|1| |商用|gpt4|94|94.0|99.3|97.0|96.1|2| |商用|百度ERNIE-3.5-8K(new)|89|89.6|96.7|97.3|93.2|3| |商用|gpt-4o-mini(new)|90|93.3|89.3|100.0|93.2|4| |商用|gpt-4-turbo|91|90.0|94.0|96.0|92.8|5| |商用|deepseek-chat-v2|93|88.0|94.0|96.0|92.8|6| |商用|智谱GLM4|86|90.0|97.3|96.0|92.3|7| |商用|Baichuan4|86|94.1|93.3|95.3|92.2|8| |商用|百度ERNIE-4.0-Turbo(new)|90|88.9|96.0|93.3|92.1|9| |开源|Llama-3-70B-Instruct|88|87.0|96.0|95.0|91.5|10| |商用|百度文心4.0|88|89.0|94.7|94.0|91.4|11| |开源|Qwen2-72B-Instruct|87|91.1|94.7|90.0|90.7|12| |商用|yi-medium|86|93.0|89.3|94.0|90.6|13| |商用|智谱GLM-4-Air|89|91.9|92.7|88.0|90.4|14| |商用|智谱GLM-4-AirX|89|91.9|92.7|88.0|90.4|15| |商用|讯飞4.0Ultra(new)|88|84.4|96.0|92.7|90.3|16| |商用|minimax-abab6.5-chat|89|87.0|89.3|95.3|90.2|17| |商用|Baichuan3-Turbo|88|86.7|94.7|90.7|90.0|18| |商用|yi-large|85|91.0|90.0|92.7|89.7|19| |商用|豆包Doubao-pro-32k(new)|86|88.1|96.7|86.7|89.4|20| |开源|Qwen1.5-32B-Chat|91|86.0|92.7|87.3|89.3|21| |商用|讯飞星火v3.5(spark-max)|87|92.0|89.3|87.3|88.9|22| |商用|阿里qwen-max|86|82.0|95.3|91.3|88.7|23| |商用|百度ERNIE-Speed-8K(new)|88|88.1|88.0|89.3|88.4|24| |商用|阿里qwen-long|89|85.9|90.0|86.7|87.9|25| |商用|minimax-abab6.5s-chat|87|88.0|88.7|88.0|87.9|26| |商用|阿里qwen-plus|88|89.6|90.0|84.0|87.9|27| |商用|月之暗面moonshot-v1-8k|92|85.0|84.0|89.3|87.6|28| |开源|Qwen1.5-14B-Chat|89|79.0|90.7|90.7|87.3|29| |开源|Qwen1.5-72B-Chat|89|84.0|88.0|87.3|87.1|30| |商用|gpt-3.5-turbo|81|83.0|92.7|91.3|87.0|31| |商用|yi-large-turbo|82|90.0|88.7|86.7|86.9|32| |开源|AquilaChat2-70B-Expr|82|84.0|92.0|89.3|86.8|33| |开源|internlm2-chat-20b|93|80.0|86.0|88.0|86.8|34| |开源|deepseek-llm-67b-chat|87|81.0|86.7|92.0|86.7|35| |开源|openbuddy-deepseek-67b|86|89.0|84.7|85.0|86.2|36| |开源|glm-4-9b-chat|90|82.2|90.0|82.0|86.1|37| |商用|讯飞星火v3(spark-pro)|87|82.0|88.0|86.0|85.8|38| |商用|商汤SenseChat-v4|89|78.5|88.0|86.7|85.6|39| |开源|Yi-1.5-34B-Chat|90|83.0|82.7|83.3|84.8|40| |商用|智谱GLM-4-Flash|89|80.0|86.0|82.0|84.3|41| |商用|yi-spark|82|88.9|88.0|76.0|83.7|42| |开源|Qwen2-7B-Instruct|89|83.7|86.7|75.3|83.7|43| |商用|qwen-turbo(new)|83|85.2|88.0|76.0|83.1|44| |开源|tigerbot-13b-chat-v4|85|82.0|80.0|85.0|83.0|45| |开源|Yi-34B-Chat|88|82.0|84.7|77.0|82.9|46| |开源|Llama-3-8B-Instruct|86|74.0|80.0|90.0|82.5|47| |开源|aquilachat2-34b|77|82.0|88.0|83.0|82.5|48| |开源|Yi-1.5-9B-Chat|82|83.0|84.7|80.0|82.4|49| |开源|openbuddy-mixtral-7bx8|86|73.0|86.0|82.0|81.8|50| |开源|openbuddy-llama3-8b|78|86.0|81.3|79.0|81.1|51| |开源|internlm2-chat-7b|86|81.0|72.7|82.7|80.6|52| |商用|商汤SenseChat-Turbo|81|77.8|76.7|86.0|80.4|53| |商用|minimax-abab5.5-chat|83|79.0|86.7|72.7|80.3|54| |开源|Baichuan2-13B-Chat|83|83.0|74.7|77.0|79.4|55| |商用|豆包Doubao-lite-32k(new)|77|86.7|88.7|64.7|79.3|56| |开源|Baichuan2-7B-Chat|88|76.0|83.3|69.0|79.1|57| |开源|BlueLM-7B-Chat|82|83.0|74.0|72.0|77.8|58| |开源|Qwen1.5-7B-Chat|80|76.0|76.0|70.7|75.7|59| |开源|谷歌gemma-7b-it|72|79.0|74.0|76.0|75.3|60| |开源|MiniCPM-2B-dpo|79|77.0|74.0|66.0|74.0|61| |开源|Qwen1.5-4B-Chat|75|65.0|79.3|63.0|70.6|62| |开源|Phi-3-mini-128k-instruct|74|63.0|65.3|73.0|68.8|63| |商用|minimax-abab5.5s-chat|58|57.0|70.7|56.0|60.4|64| |开源|谷歌gemma-2b-it|56|60.0|60.0|43.3|54.8|65| |开源|Qwen1.5-1.8B-Chat|57|58.0|52.7|48.0|53.9|66| |开源|Qwen1.5-0.5B-Chat|44|40.0|60.0|34.7|44.7|67|
## ⚖️原始评测数据 包含各维度评测集以及大模型输出结果,详见本项目的[eval文件目录](eval) ## 为什么做榜单? - 大模型百花齐放,也参差不齐。不少媒体的宣传往往夸大其词,避重就轻,容易混淆视听;而某些公司为了PR,也过分标榜自己大模型的能力,动不动就“达到chatgpt水平”,动不动就“国内第一”。 所谓“外行看热闹,内行看门道”,业界急需一股气流,摒弃浮躁,静下心来打磨前沿技术,真真正正用技术实力说话。这就少不了一个公开、公正、公平的大模型评测系统,把各类大模型的优点、不足一一展示出来。 如此,大家既能把握当下的发展水平、与国外顶尖技术的差距,也能更加清晰地看明白未来的努力方向,而不被资本热潮、舆论热潮所裹挟。 - 对于产业界来说,特别是对于不具备大模型研发能力的公司,熟悉大模型的技术边界、高效有针对性地做大模型技术选型,在现如今显得尤为重要。 而一个公开、公正、公平的大模型评测系统,恰好能够提供应有的助力,避免重复造轮子,避免因技术栈不同而导致不必要的争论,避免“鸡同鸭讲”。 - 对于大模型研发人员,包括对大模型技术感兴趣的人、学术界看中实践的人,各类大模型的效果对比,反应出了背后不同技术路线、技术方法的有效性,这就提供了非常好的参考意义。 不同大模型的相互参考、借鉴,帮忙大家躲过不必要的坑、避免重复实验带来的资源浪费,有助于整个大模型生态圈的良性高效发展。