概述
九章大模型(MathGPT)团队此次发布了两套开源数学竞赛/练习数据集:TAL-SCQ5K-CN(中文)与 TAL-SCQ5K-EN(英文)。每套包含 5000 道题目(训练集 3000、测试集 2000),题型为标准的单选题,覆盖小学、初中与高中常见的数学知识点与技能。每道题目均配有逐步解析,支持用于训练和评估需要链式推理的模型。
核心能力
- 覆盖广泛的教学阶段: 题目涉及小学、初中、高中多层次知识,适合不同阶段的模型能力评估。
- 标准化的单选题格式: 统一的题型和选项格式,便于批量训练与对比研究。
- 详尽的解题步骤: 每题均提供逐步解析,支持 Chain-of-Thought(COT)训练与生成式推理学习。
- 双语版本: 同时提供中文与英文语料,便于跨语言模型的研究与迁移学习。
- 开放获取与可复现: 在 HuggingFace 与 GitHub 提供下载与说明,利于学术与工程复现。
数据集详情
数据集每道题目标注了题干、选项、标准答案与详细解析,解析包含关键步骤与思路说明,便于模型学习中间推理链。训练集用于模型参数优化,测试集用于泛化与对比评估。数据格式与样例已在仓库中给出,支持批量处理与转换。
使用场景与建议
- COT 训练: 利用逐步解析作为监督信号训练生成式推理路径。
- 能力评估: 用标准化测试集对比不同模型在数学题目上的表现。
- 教学辅助: 作为题库与解析示例,辅助教师备课与学生训练。
开源与获取
数据在 HuggingFace 与 GitHub 上公开,包含下载、格式说明与使用许可信息,便于研究者直接获取并在本地或云端复现实验。
招募与加入我们
项目团队由数学教师、AI 科研人员与工程师组成,团队正在全球范围内招募数学爱好者、研究科学家、基础设施与数据工程师等职位,欢迎有志者加入,共同推进数学大模型与教育 AI 的发展。
推荐原因
如果你的研究或工程方向涉及数学推理、链式思维训练或跨语言教学数据,TAL-SCQ5K 提供了高质量、结构化且带解析的题库,是进行算法验证、模型训练和教育应用开发的实用资源。


