Improvements
数学推論データセット
LLMの数学推論能力を改善させるデータセット
AIME・MATH 等の最新ベンチマークに対応した数学推論データセットを提供します。問題のステップ数・難易度・解法バリエーションをバランス良く揃え、Chain-of-Thought 学習に最適化された形式で構築しています。
主要点
データセット概要
数学推論データセットは、整数論・代数・幾何・確率統計・解析の 5 領域で構成され、各領域 2,000〜5,000 問を収録しています。問題は専門家による作問と既存問題集からのライセンス取得を組み合わせています。
解法ステップアノテーション
各問題に対し、最低 1 つの「正しい解法」と任意で「典型的な誤答パターン」をアノテーション。解法は 3〜10 ステップで明示し、ステップ間の論理の飛躍がないことを数学博士課程レベルのレビュアーが検証しています。
難易度分布
中学レベル 10% / 高校レベル 35% / 大学受験レベル 30% / 大学レベル 20% / 数学オリンピック レベル 5% の分布で、easy-to-hard カリキュラム学習に最適化された配分になっています。
ベンチマーク評価
AIME 2025 / MATH / GSM8K / MMLU-STEM の 4 ベンチマークで自動評価可能な形式で配布。Pass@1 / Pass@k / Self-Consistency 全てに対応した評価スクリプトを同梱しています。
ライセンス
商用利用可(Commercial License)。研究用途は学術ライセンス(無償)でも提供。再配布権・派生データ生成権は契約により設定可能です。
AIME2025 ランキング
Benchmark | AIME2025
01
gpt-oss-20bⓘ
OpenAI 製 20B パラメータ MoE モデル。本データセット fine-tuned で +10 点改善。
1043.3
02
Qwen3-32Bⓘ
Alibaba 製。CoT トレース学習で精度が安定的に向上。
10.136.7
03
gpt-4o-miniⓘ
軽量モデルでも本データセットでベースから +6.67 点。
6.6710
04
o3 mediumⓘ
OpenAI o3 medium 設定。長期推論で大きな上昇。
719.1
Data that sparks innovation
Unlock new possibilities for your business with APTO's AI data.
Feel free to get started by requesting our materials.