OpenAIとGoogleが東大理三超えで映す受験AI新局面

理三首席級報道が示す入試AIの転換点

4月下旬、OpenAIとGoogleのAIが東大理科三類で「首席級」とする報道が注目を集めました。元記事は有料であり参照していませんが、周辺の公開資料だけを追っても、見出しが誇張だけでできているとは言い切れない状況が見えてきます。2025年には河合塾が採点協力した実験でAIが理三の合格水準に達し、2026年には東進の即日検証でも複数モデルが理三突破を示しました。

重要なのは、これは単なる話題づくりではなく、入試を支えてきた「難問でふるい落とす」という設計思想そのものに圧力がかかり始めたという点です。本稿では、東大理三という最難関の物差しで何が起きているのか、なぜ数学で急伸が起きたのか、そして教育現場が次に何を見直すべきかを整理します。

首席報道の読み解き

東大理三という物差し

東大の公式資料によれば、2026年度一般選抜の理科三類は前期日程の募集人員が95人で、2人増の可能性を含む運用でした。試験は2月25日、26日に加え、理科三類のみ27日にも実施されます。さらに理三は学力試験だけでなく、面接結果も含めて総合判定されます。将来、医療や医学研究に従事するのにふさわしい資質まで見る建て付けであり、単に筆記試験の高得点だけで語れない学科です。

同じく東大公表の2026年度成績資料では、第2次学力試験合格者成績は550点満点換算です。内訳は大学入学共通テスト1000点を110点に圧縮し、個別学力検査440点を合算する方式です。理科三類の最高点は453.6000点、最低点は346.0900点、平均点は377.7881点でした。ここで重要なのは、理三の「高得点」は感覚的な表現ではなく、かなり明確な数値の壁として公表されていることです。したがってAIが上位層に達したかどうかは、公開資料と第三者採点があれば相当程度まで検証できます。

「首席」という言葉自体は独自採点企画に基づく評価であり、公開資料だけでは直接確認できません。ただし、理三最高点453.6点という公式の物差しがある以上、もし外部調査でそれを超えたという結果が出ているなら、そのインパクトは単なる「合格した」より一段重い意味を持ちます。合格ライン突破は例外値で済ませられても、最高点超えは試験設計そのものの限界を示し始めるからです。

2025年から2026年への連続線

この流れは、2026年に突然始まったものではありません。河合塾は2025年4月、ChatGPT o1とDeepSeek R1がその年の東大二次試験に挑戦し、共通テストとの合計点で理科III類の合格最低点を上回ったと公表しました。採点には東大入試対策に通じた10人の講師が参加しています。さらにLifePromptの詳細公開では、2025年3月時点で両モデルの学習期限は2024年6月までで、実験対象モデルにはリアルタイムのWebブラウジング機能がないと説明されています。少なくとも「試験後に模範解答を拾ってきた」という単純な抜け道ではない形で、合格水準に届いたということです。

2025年実験の中身を見ると、ChatGPT o1は共通テストで文系・理系ともに9割超を取り、二次試験の理系科目では275点、DeepSeek R1は281点でした。ここで注目すべきは、当時はすでに「AIが理三に受かるか」が論点ではなく、「どこで点数を落とすか」が論点になっていた点です。実際、LifePromptは数学や図形、論述の粗さを弱点として詳しく分析しています。つまり2025年時点で、ボトルネックは知識量や単純計算ではなく、記述の精度と視覚的な読み取りへ移っていました。

その延長線上にあるのが2026年の東進調査です。東進は東京大学二次試験の当日に、Claude Opus4.6、Gemini 3.1 Pro、GPT-5.2の3モデルへ即日解答させ、3種すべてが文理とも得点率8割以上で理三合格レベルを超えたと公表しました。しかも文系数学は3モデルとも満点でした。2025年に「合格圏」が見え、2026年には「上位圏」が視野に入った。公開情報だけでも、この一年でAIの位置が確実に一段上がったことは読み取れます。

数学満点を支えた技術変化

推論モデルの成熟

数学が象徴的です。かつての生成AIは、途中式をもっともらしく並べても、最後の論理が崩れたり、複数条件の整理で破綻したりする場面が目立ちました。ところが現在の最前線モデルは、単なる次単語予測の延長ではなく、長い推論手順を保ちながら解く能力を前面に押し出しています。OpenAIは2025年12月公開のGPT-5.2で、AIME 2025においてツールなしで100.0%を記録したと公表しました。GPQA Diamondでも92.4%です。これは競技数学や難科学問における推論の安定性が、短期間でかなり高い水準まで来たことを意味します。

Google側も同じ方向で伸びています。2025年3月のGemini 2.5 Pro発表時点で、GoogleはAIME 2025とGPQAのような数学・科学ベンチマークで先行していると説明しました。さらに2026年2月公開のGemini 3.1 Proでは、未知の論理パターンに対応するARC-AGI-2で77.1%の検証済みスコアを示し、複雑問題向けの基礎推論がさらに伸びたとしています。東進調査でGemini 3.1 Proが理三合格レベルを超えたという結果は、こうした公式ベンチマークの延長に位置づけると理解しやすいでしょう。

要するに、最近のモデルは「答えを知っている」から強いのではなく、「条件を整理し、途中で自己整合性を保ち、長い解答を崩さず出し切る」能力が伸びたから強いのです。東大数学のような問題では、発想の華やかさよりも、条件整理、場合分け、途中式の一貫性、記述の節度が得点を左右します。この型に推論モデルが急速に適応してきたことが、数学満点という現象の土台にあります。

記述式を押し上げたマルチモーダル化

もう一つの変化は、テキストだけでなく図表や画像を前提にした処理能力です。OpenAIのo3とo4-miniのシステムカードは、複雑な数学、科学、視覚分析に強いと説明しています。GoogleもGemini 3.1 Proを、複雑な問題解決や視覚的説明、データ統合に向くモデルとして展開しています。大学入試、とりわけ東大の二次試験は、設問文だけではなく、図、グラフ、資料、行数制約、論述分量の感覚まで含んだ総合格闘技です。モデルがマルチモーダル化するほど、こうした試験との相性は良くなります。

東進の方法論もその点を裏付けます。問題文の文章はテキスト化し、図表は画像として入力し、文字数指定がない問題は解答用紙の行数から字数制約を与えています。つまりAIにとって不利すぎる条件でも、有利すぎる条件でもない、中間的な実戦環境を作っているわけです。そのうえで文系数学満点が出たのなら、単純な暗記では説明しにくい。推論と視覚理解、さらに記述の長さ制御まで含めた実装が、受験という古典的フォーマットに適応してきたと見るのが自然です。

ここで見落とせないのは、採点対象がマークシートではなく記述答案だという点です。大学入試の世界では長らく、「記述がある限りAIは簡単には超えられない」という期待がありました。しかし今や、記述は防波堤ではなく、モデル改善の訓練目標になっています。AI企業にとって、長い推論を書き切る力は、学術、金融、法務、プログラミングでもそのまま価値になります。受験だけが特殊な課題ではなくなったからこそ、性能改善が一気に効き始めたと言えます。

合格と学力を同一視できない理由

図形と史料に残る未解決領域

とはいえ、ここで「人間の受験生はもう勝てない」と結論づけるのは早計です。東進調査でも、図形の読み解きや日本史の史料処理には弱点が残ると明記されています。図から条件を抽出して自分で再構成する場面や、史料を要約するだけでなく、出題者が想定する日本史用語へ翻訳し直す場面では、なお減点が起きています。2025年のLifePrompt分析でも、数学の論述、化学の図形記述、歴史の題意把握などで粗さが残りました。

つまりAIは、定型化しやすい高難度問題に強く、読解の向こう側にある「試験文化」にはまだ完全には適応していないのです。日本の難関大入試には、正答そのものだけでなく、どういう書き方なら採点者に伝わるかという暗黙知があります。人間の上位受験生は、問題を解くだけでなく、採点基準に沿って減点を避ける作文まで学んでいます。AIはそこへ急速に近づいているものの、完全に同じゲームをしているわけではありません。

それでも、この反論だけでは安心材料にはなりません。なぜなら弱点の種類が、以前の「基礎計算が危うい」から、現在は「最後の数点を削る周辺技能」へ変わっているからです。弱点が残っていること自体よりも、弱点の位置が上位化していることの方が重要です。制度設計の観点では、これはかなり厄介な変化です。

医学部教育との非連続性

さらに理三では、筆記試験の高得点がそのまま「優れた医師候補」であることを意味しません。東大公式ページが明記するように、理科三類は面接を含め、医療や医学研究に従事するのにふさわしい資質まで含めて総合判断します。患者との対話、倫理的判断、曖昧な症状の扱い、長期の学習耐性、共同研究での協働など、医師養成に必要な能力は、入試答案の点数よりはるかに広いからです。

この意味で、AIが理三の筆記試験を突破したとしても、それは医学教育の代替を意味しません。むしろ逆です。筆記試験の選抜機能がAIで代替されやすいなら、大学側は「何を見て選ぶのか」をより明確にしなければならなくなります。特に理三のような専門職前段階の選抜では、知識処理能力だけでなく、志向性、継続性、対人能力、倫理観をどこまで評価設計に組み込めるかが問われます。

教育現場に迫る再設計

学習の外部化と評価軸の再編

教育現場にとって本質的な変化は、AIが「カンニング装置」ではなく「常時接続の思考補助具」になったことです。OECDは2025年時点で、加盟国では個人の3分の1超が生成AIを利用し、16歳以上の学生では4分の3が使っていると整理しています。つまりAI利用は一部の先端層の話ではなく、すでに広く浸透した前提条件です。この前提でなお、知識再生と定型論述を中心に評価するなら、試験は学力よりも「AIをどこまで排除できたか」の競争へ寄ってしまいます。

UNESCOも、生成AIの普及速度が教育制度や規制の整備を上回り、教育機関はツールを妥当性検証する準備が不十分だと警告しています。データプライバシーの保護や年齢に応じた利用設計を含め、人間中心の運用が必要だという指摘です。これは日本の大学入試にもそのまま当てはまります。AIを禁止するか容認するかの二択ではなく、「AIを使っても差がつく能力」と「AIを使うと測れなくなる能力」を切り分ける設計が必要です。

企業や研究の現場では、すでにAIを前提に仕事が組み直されています。であれば教育も、暗算や定型要約を過度に神格化するより、問いの定義、検証手順の設計、AIの出力批判、複数ソースの統合、倫理判断といった上位技能へ重心を移す方が現実的です。AIに解ける問題を残す意味がないのではなく、その問題をどう使うかを変える必要がある、ということです。

入試改革の現実路線

現実的な改革は、全面的な口頭試問化でも、筆記試験の放棄でもありません。第一に、図や資料、実験設定、未公開データなど、その場で解釈させる比重を高めることです。第二に、解答だけでなく検証過程を比較させる設問を増やすことです。第三に、面接や小論文を単なる補助科目で終わらせず、筆記と連動させることです。理三がすでに面接を含めているのは、その方向性を先取りしています。

同時に、AIが得意な部分を授業から締め出す必要はありません。むしろ、AIで下書きを作らせ、その誤りを見抜かせる授業の方が、現実社会に近い訓練になります。東進の調査でも、AIは図形や史料でまだ弱い一方、回答速度は圧倒的でした。ならば人間は、速度で競うのでなく、妥当性の監査者としての能力を強めるべきです。受験産業が先にAIを教材へ組み込んでいるのは、その必要性を直感しているからでしょう。

調査条件差と東大型記述試験のAI耐性

注意すべきなのは、こうした調査の多くが教育事業者やAI関連企業によるものであり、採点設計やプロンプト条件に差があり得ることです。したがって、1本の調査だけで「人間超え」を断言するのは避けるべきです。ただし、2025年の河合塾協力実験、2026年の東進即日検証、OpenAIとGoogleの公式ベンチマークを並べると、方向性はかなり一貫しています。AIの強みは偶然の当たりではなく、推論・視覚理解・長文記述の三点で同時進行に伸びています。

今後の焦点は二つです。一つは、東大型の記述試験がどこまでAI耐性を保てるか。もう一つは、大学がその変化を踏まえて選抜目的をどこまで明示できるかです。筆記の難化だけでAIを振り落とす発想は、すでに持続可能ではありません。むしろ、AIを使ってもなお測りたい能力を定義し直せる大学ほど、選抜の説得力を維持しやすくなります。

OpenAIとGoogleが迫る判断評価型入試

OpenAIとGoogleのAIが東大理三級の入試で上位圏へ近づいた背景には、単なる知識量の増大ではなく、推論モデルの成熟、マルチモーダル化、長い記述を破綻なく書き切る能力の向上があります。2025年には理三合格水準、2026年には複数モデルの理三突破という公開情報が並び、もはや「AIは難関大では通用しない」という前提は維持しにくくなりました。

次に問われるのは、AIが強いか弱いかではなく、教育が何を測るべきかです。東大理三のニュースは、受験の話題であると同時に、知識評価から判断評価へ軸をずらす必要を突きつけるシグナルでもあります。AI時代の入試改革は、試験を難しくすることではなく、能力の定義を精密にし直すことから始まります。

参考資料:

OpenAIとGoogleが東大理三超えで映す受験AI新局面

理三首席級報道が示す入試AIの転換点

首席報道の読み解き

東大理三という物差し

2025年から2026年への連続線

数学満点を支えた技術変化

推論モデルの成熟

記述式を押し上げたマルチモーダル化

合格と学力を同一視できない理由

図形と史料に残る未解決領域

医学部教育との非連続性

教育現場に迫る再設計

学習の外部化と評価軸の再編

入試改革の現実路線

調査条件差と東大型記述試験のAI耐性

OpenAIとGoogleが迫る判断評価型入試

関連記事

AI東大理3首席超えが示した受験突破後の競争軸と人間の評価軸

Anthropic評価額OpenAI超えへAIエージェント戦略

Geminiが迫るChatGPTの壁生活導線と体験設計の勝負

FDEとは何か、AI時代に高年収を得るエンジニアの条件と未来

OpenAI誤侵入が示す自律AIサイバー危機と企業防衛の新常識

最新ニュース

高年収窓際族を生まないAI時代の人材再配置戦略と学び直し改革

北海道の冷房特需が問うダイキンの施工人材育成とDX戦略の現実

食料品消費税1%減税の財源難、国債市場と成長投資へ広がる波紋

日本人1億2千万人割れが迫る地方財政と公共サービスの抜本再設計

熊本地震の企業被害から考えるBCPと供給網再点検、全国経営の急所

理三首席級報道が示す入試AIの転換点

首席報道の読み解き

東大理三という物差し

2025年から2026年への連続線

数学満点を支えた技術変化

推論モデルの成熟

記述式を押し上げたマルチモーダル化

合格と学力を同一視できない理由

図形と史料に残る未解決領域

医学部教育との非連続性

教育現場に迫る再設計

学習の外部化と評価軸の再編

入試改革の現実路線

調査条件差と東大型記述試験のAI耐性

OpenAIとGoogleが迫る判断評価型入試

関連記事

AI東大理3首席超えが示した受験突破後の競争軸と人間の評価軸

Anthropic評価額OpenAI超えへAIエージェント戦略

Geminiが迫るChatGPTの壁 生活導線と体験設計の勝負

FDEとは何か、AI時代に高年収を得るエンジニアの条件と未来

OpenAI誤侵入が示す自律AIサイバー危機と企業防衛の新常識

最新ニュース

高年収窓際族を生まないAI時代の人材再配置戦略と学び直し改革

北海道の冷房特需が問うダイキンの施工人材育成とDX戦略の現実

食料品消費税1%減税の財源難、国債市場と成長投資へ広がる波紋

日本人1億2千万人割れが迫る地方財政と公共サービスの抜本再設計

熊本地震の企業被害から考えるBCPと供給網再点検、全国経営の急所

Geminiが迫るChatGPTの壁生活導線と体験設計の勝負