CompassBench 介绍¶
为支持OpenCompass的年度榜单,本文将提供CompassBench的整体介绍。
本次评测将在语言、知识、创作、推理、数学、代码、长文本、智能体能力的多项任务上开展评测,现提供任务介绍和题目示例。
评测方式采样主观与客观相结合的方式,具体根据各个任务不同进行具体设计。
针对推理、数学、代码、智能体等任务,将会采用Few-shot + CoT的评测方式。
对于填空题,通过在Prompt中提供Few-shot和输出格式约束来协助抽取答案。
对于选择题,针对同一问题,通过变换提问方式,减少随机影响。
对于开放式问题的评测,对同一问题进行多次采样,并采用多维度打分的方式进行评价。
OpenCompass在客观题评测的后处理上已进行较多优化,并在评测时在Prompt中对回答格式进行约束,对于因指令跟随问题带来的无法完成答案提取的情况,将视为回答错误。OpenCompass将会在下一期加入指令跟随能力的评测。
能力 |
任务 |
介绍 |
题目示例 |
---|---|---|---|
语言 |
信息抽取 |
信息抽取是指从文本中提取出特定类型的信息。这类任务通常用于处理结构化数据、知识图谱、问答系统等场景。 |
|
语言 |
意图识别 |
意图识别是对用户输入的文本或语音进行分析,判断其意图或需求。这类任务应用于智能客服、语音助手、聊天机器人等场景。 |
|
语言 |
情感分析 |
情感分析是对文本中的情感或情绪进行识别和分析的任务。这类任务可用于情感倾向分析场景。例如,分析社交媒体上的用户评论,了解新闻或事件的倾向。 |
|
语言 |
内容总结 |
内容总结是将一篇较长的文本压缩成一篇简短的概括性摘要。这类任务适用于需要快速了解文档核心内容的情境,如新闻标题、电子邮件摘要 |
|
语言 |
内容评价 |
内容评价是对文本的质量、价值或观点进行判断和评价的任务。这类任务可用于评论筛选、观点挖掘等场景。 |
|
语言 |
多语言翻译 |
多语言翻译是将一种语言的文本转换为另一种语言的文本。这类任务适用于跨语言沟通、在线翻译等场景。 |
|
语言 |
中华传统文化理解 |
中华传统文化涉及对中国古代文学、艺术、哲学、历史等领域的研究 |
|
语言 |
中文语意理解 |
中文语意理解涉及理解文本中的词汇、短语和句子之间的语义关系,包括但不限于近义词、反义词、整体-部分关系、修饰关系等。 |
|
语言 |
多轮对话 |
评价模型能否在多轮对话中保持上下文一致性和连贯性的能力,评估模型是否能够理解并记住对话的上下文信息,记住之前的对话内容。 |
|
知识 |
生活常识 |
考察普通社会上智力正常的人皆有或普遍拥有的,大众化的知识 |
|
知识 |
自然科学(理科) |
关于自然现象的具体科学,研究自然界的本质和规律(理科):包括不限于数学,物理学,化学,生物学,天文学等 |
|
知识 |
自然科学(工科) |
关于自然现象的具体科学,研究自然界的本质和规律(工科):包括不限于计算机科学,医学,建筑学,材料学,机械学,测量学,气象学,环境学等 |
|
知识 |
社会科学 |
研究社会现象的具体科学,力求揭示社会的本质和规律,例如经济学,政治学,军事学,社会学,管理学,教育学等。社会科学主要以人类社会的组织与结构、体制与关系、功能与效率、秩序与规范为研究认识之对象,并通过这种知识来为人类社会的有序管理、高效运作提供知识、理论和手段 |
|
知识 |
人文科学 |
设设计对人的问题的类型思考与情感体验,围绕着关乎人的心灵世界、关乎人的精神生命主题而展开的种种思想、观念、知识和理论的探索。它以人类自身,特别是人的内心情感世界为研究中心,以人自身的发展和完善作为学术探索的出发点和归宿。包括不限于文学,历史学、哲学、艺术、语言等 |
|
创作 |
内容扩写 |
给定标题或者大纲的基础上,通过增加细节、描述和解释,使内容更加丰富、饱满和具有表现力。这种方法主要用于散文、小说等文学创作,以及学术论文、报告等实用文本 |
|
创作 |
内容续写 |
现有文本的基础上,继续编写后面的内容。这种方法主要用于小说、故事等叙事性文本。续写部分通常要保持与原有文本的风格、情节和人物设定相一致,同时要求作者具备较强的想象力和创造力。 |
|
创作 |
内容改写 |
不改变原文主题和基本结构的前提下,对文本进行一定程度的修改、重组和优化。这种方法主要用于修改学术论文、报告、文章等。内容改写的目的是提高文本的表达能力、逻辑性和可读性,同时避免重复。 |
|
推理 |
逻辑推理 |
综合考察模型的几种常见逻辑推理模式:如演绎、归纳和溯因。 |
|
推理 |
常识推理 |
常识推理是指基于日常生活中积累的知识和经验,对事物进行合理推断和判断的过程。它涉及到对常见事物、现象和规律的理解,通过综合分析得出合理的结论。 |
|
数学 |
初等数学 |
初等教育数学能力(小学数学) |
|
数学 |
中等数学 |
中等教育数学能力(初中和高中数学) |
|
数学 |
高等 |
高教育数学能力(大学和研究生数学) |
|
代码 |
代码理解 |
输入为用户的需求文字或者部分代码,考察模型的逻辑推理能力和代码生成能力,考察模型对各类编程语言的掌握程度。内容包括不限于:算法和数据结构能力考察编程语言语法考察跨编程语言转换 |
|
代码 |
代码分析 |
考察模型对代码的理解和分析能力,给定一段代码,进行代码意图分析,代码规范检查,错误检查等 |
|
长文本 |
长文本理解与推理 |
考察模型在不同的长度上下文(2k, 4k, 8k, 16k, 32k)情况下的理解和推理能力 |
略 |
智能体 |
任务规划 |
智能体根据用户的需求目标和具备工具条件,进行合理的任务拆解,科学地安排子任务的执行顺序和策略,对任务执行路径进行设计和规划,选择合适的策略。 |
略 |
智能体 |
工具调用 |
评估模型能否准确的调用合适的API,在调用API时能否正确的传递参数 |
略 |
智能体 |
反思能力 |
评估模型在子任务执行失败时,是否具有反思和重新规划任务路径的能力 |
略 |
智能体 |
任务执行总结 |
评估模型能否根据子任务的执行结果进行总结分析,完成原始任务目标,正确地按指令输出回复 |
略 |
智能体 |
多轮交互 |
评估模型在进行多轮复杂工具调用时的能力,在多轮情况下能否准确理解意图 |
略 |