Improvements

数学推論データセット

LLMの数学推論能力を改善させるデータセット
AIME・MATH 等の最新ベンチマークに対応した数学推論データセットを提供します。問題のステップ数・難易度・解法バリエーションをバランス良く揃え、Chain-of-Thought 学習に最適化された形式で構築しています。
主要点
  • 問題と解答だけでなく、解法ステップ・補助図・別解までを 1 セットで収録(CoT / ToT 学習に直接利用可能)。
  • 高校数学・大学受験・数学オリンピック・大学数学(線形代数 / 解析 / 離散)まで難易度を段階分けし、レベル分布を可視化。
データセット概要
数学推論データセットは、整数論・代数・幾何・確率統計・解析の 5 領域で構成され、各領域 2,000〜5,000 問を収録しています。問題は専門家による作問と既存問題集からのライセンス取得を組み合わせています。
解法ステップアノテーション
各問題に対し、最低 1 つの「正しい解法」と任意で「典型的な誤答パターン」をアノテーション。解法は 3〜10 ステップで明示し、ステップ間の論理の飛躍がないことを数学博士課程レベルのレビュアーが検証しています。
難易度分布
中学レベル 10% / 高校レベル 35% / 大学受験レベル 30% / 大学レベル 20% / 数学オリンピック レベル 5% の分布で、easy-to-hard カリキュラム学習に最適化された配分になっています。
ベンチマーク評価
AIME 2025 / MATH / GSM8K / MMLU-STEM の 4 ベンチマークで自動評価可能な形式で配布。Pass@1 / Pass@k / Self-Consistency 全てに対応した評価スクリプトを同梱しています。
ライセンス
商用利用可(Commercial License)。研究用途は学術ライセンス(無償)でも提供。再配布権・派生データ生成権は契約により設定可能です。
AIME2025 ランキング
Benchmark | AIME2025
01
gpt-oss-20b
OpenAI 製 20B パラメータ MoE モデル。本データセット fine-tuned で +10 点改善。
1043.3
02
Qwen3-32B
Alibaba 製。CoT トレース学習で精度が安定的に向上。
10.136.7
03
gpt-4o-mini
軽量モデルでも本データセットでベースから +6.67 点。
6.6710
04
o3 medium
OpenAI o3 medium 設定。長期推論で大きな上昇。
719.1

Data that sparks innovation

Unlock new possibilities for your business with APTO's AI data.
Feel free to get started by requesting our materials.