OpenAIとGoogleが東大理三超えで映す受験AI新局面
はじめに
4月下旬、OpenAIとGoogleのAIが東大理科三類で「首席級」とする報道が注目を集めました。元記事は有料であり参照していませんが、周辺の公開資料だけを追っても、見出しが誇張だけでできているとは言い切れない状況が見えてきます。2025年には河合塾が採点協力した実験でAIが理三の合格水準に達し、2026年には東進の即日検証でも複数モデルが理三突破を示しました。
重要なのは、これは単なる話題づくりではなく、入試を支えてきた「難問でふるい落とす」という設計思想そのものに圧力がかかり始めたという点です。本稿では、東大理三という最難関の物差しで何が起きているのか、なぜ数学で急伸が起きたのか、そして教育現場が次に何を見直すべきかを整理します。
首席報道の読み解き
東大理三という物差し
東大の公式資料によれば、2026年度一般選抜の理科三類は前期日程の募集人員が95人で、2人増の可能性を含む運用でした。試験は2月25日、26日に加え、理科三類のみ27日にも実施されます。さらに理三は学力試験だけでなく、面接結果も含めて総合判定されます。将来、医療や医学研究に従事するのにふさわしい資質まで見る建て付けであり、単に筆記試験の高得点だけで語れない学科です。
同じく東大公表の2026年度成績資料では、第2次学力試験合格者成績は550点満点換算です。内訳は大学入学共通テスト1000点を110点に圧縮し、個別学力検査440点を合算する方式です。理科三類の最高点は453.6000点、最低点は346.0900点、平均点は377.7881点でした。ここで重要なのは、理三の「高得点」は感覚的な表現ではなく、かなり明確な数値の壁として公表されていることです。したがってAIが上位層に達したかどうかは、公開資料と第三者採点があれば相当程度まで検証できます。
「首席」という言葉自体は独自採点企画に基づく評価であり、公開資料だけでは直接確認できません。ただし、理三最高点453.6点という公式の物差しがある以上、もし外部調査でそれを超えたという結果が出ているなら、そのインパクトは単なる「合格した」より一段重い意味を持ちます。合格ライン突破は例外値で済ませられても、最高点超えは試験設計そのものの限界を示し始めるからです。
2025年から2026年への連続線
この流れは、2026年に突然始まったものではありません。河合塾は2025年4月、ChatGPT o1とDeepSeek R1がその年の東大二次試験に挑戦し、共通テストとの合計点で理科III類の合格最低点を上回ったと公表しました。採点には東大入試対策に通じた10人の講師が参加しています。さらにLifePromptの詳細公開では、2025年3月時点で両モデルの学習期限は2024年6月までで、実験対象モデルにはリアルタイムのWebブラウジング機能がないと説明されています。少なくとも「試験後に模範解答を拾ってきた」という単純な抜け道ではない形で、合格水準に届いたということです。
2025年実験の中身を見ると、ChatGPT o1は共通テストで文系・理系ともに9割超を取り、二次試験の理系科目では275点、DeepSeek R1は281点でした。ここで注目すべきは、当時はすでに「AIが理三に受かるか」が論点ではなく、「どこで点数を落とすか」が論点になっていた点です。実際、LifePromptは数学や図形、論述の粗さを弱点として詳しく分析しています。つまり2025年時点で、ボトルネックは知識量や単純計算ではなく、記述の精度と視覚的な読み取りへ移っていました。
その延長線上にあるのが2026年の東進調査です。東進は東京大学二次試験の当日に、Claude Opus4.6、Gemini 3.1 Pro、GPT-5.2の3モデルへ即日解答させ、3種すべてが文理とも得点率8割以上で理三合格レベルを超えたと公表しました。しかも文系数学は3モデルとも満点でした。2025年に「合格圏」が見え、2026年には「上位圏」が視野に入った。公開情報だけでも、この一年でAIの位置が確実に一段上がったことは読み取れます。
数学満点を支えた技術変化
推論モデルの成熟
数学が象徴的です。かつての生成AIは、途中式をもっともらしく並べても、最後の論理が崩れたり、複数条件の整理で破綻したりする場面が目立ちました。ところが現在の最前線モデルは、単なる次単語予測の延長ではなく、長い推論手順を保ちながら解く能力を前面に押し出しています。OpenAIは2025年12月公開のGPT-5.2で、AIME 2025においてツールなしで100.0%を記録したと公表しました。GPQA Diamondでも92.4%です。これは競技数学や難科学問における推論の安定性が、短期間でかなり高い水準まで来たことを意味します。
Google側も同じ方向で伸びています。2025年3月のGemini 2.5 Pro発表時点で、GoogleはAIME 2025とGPQAのような数学・科学ベンチマークで先行していると説明しました。さらに2026年2月公開のGemini 3.1 Proでは、未知の論理パターンに対応するARC-AGI-2で77.1%の検証済みスコアを示し、複雑問題向けの基礎推論がさらに伸びたとしています。東進調査でGemini 3.1 Proが理三合格レベルを超えたという結果は、こうした公式ベンチマークの延長に位置づけると理解しやすいでしょう。
要するに、最近のモデルは「答えを知っている」から強いのではなく、「条件を整理し、途中で自己整合性を保ち、長い解答を崩さず出し切る」能力が伸びたから強いのです。東大数学のような問題では、発想の華やかさよりも、条件整理、場合分け、途中式の一貫性、記述の節度が得点を左右します。この型に推論モデルが急速に適応してきたことが、数学満点という現象の土台にあります。
記述式を押し上げたマルチモーダル化
もう一つの変化は、テキストだけでなく図表や画像を前提にした処理能力です。OpenAIのo3とo4-miniのシステムカードは、複雑な数学、科学、視覚分析に強いと説明しています。GoogleもGemini 3.1 Proを、複雑な問題解決や視覚的説明、データ統合に向くモデルとして展開しています。大学入試、とりわけ東大の二次試験は、設問文だけではなく、図、グラフ、資料、行数制約、論述分量の感覚まで含んだ総合格闘技です。モデルがマルチモーダル化するほど、こうした試験との相性は良くなります。
東進の方法論もその点を裏付けます。問題文の文章はテキスト化し、図表は画像として入力し、文字数指定がない問題は解答用紙の行数から字数制約を与えています。つまりAIにとって不利すぎる条件でも、有利すぎる条件でもない、中間的な実戦環境を作っているわけです。そのうえで文系数学満点が出たのなら、単純な暗記では説明しにくい。推論と視覚理解、さらに記述の長さ制御まで含めた実装が、受験という古典的フォーマットに適応してきたと見るのが自然です。
ここで見落とせないのは、採点対象がマークシートではなく記述答案だという点です。大学入試の世界では長らく、「記述がある限りAIは簡単には超えられない」という期待がありました。しかし今や、記述は防波堤ではなく、モデル改善の訓練目標になっています。AI企業にとって、長い推論を書き切る力は、学術、金融、法務、プログラミングでもそのまま価値になります。受験だけが特殊な課題ではなくなったからこそ、性能改善が一気に効き始めたと言えます。
合格と学力を同一視できない理由
図形と史料に残る未解決領域
とはいえ、ここで「人間の受験生はもう勝てない」と結論づけるのは早計です。東進調査でも、図形の読み解きや日本史の史料処理には弱点が残ると明記されています。図から条件を抽出して自分で再構成する場面や、史料を要約するだけでなく、出題者が想定する日本史用語へ翻訳し直す場面では、なお減点が起きています。2025年のLifePrompt分析でも、数学の論述、化学の図形記述、歴史の題意把握などで粗さが残りました。
つまりAIは、定型化しやすい高難度問題に強く、読解の向こう側にある「試験文化」にはまだ完全には適応していないのです。日本の難関大入試には、正答そのものだけでなく、どういう書き方なら採点者に伝わるかという暗黙知があります。人間の上位受験生は、問題を解くだけでなく、採点基準に沿って減点を避ける作文まで学んでいます。AIはそこへ急速に近づいているものの、完全に同じゲームをしているわけではありません。
それでも、この反論だけでは安心材料にはなりません。なぜなら弱点の種類が、以前の「基礎計算が危うい」から、現在は「最後の数点を削る周辺技能」へ変わっているからです。弱点が残っていること自体よりも、弱点の位置が上位化していることの方が重要です。制度設計の観点では、これはかなり厄介な変化です。
医学部教育との非連続性
さらに理三では、筆記試験の高得点がそのまま「優れた医師候補」であることを意味しません。東大公式ページが明記するように、理科三類は面接を含め、医療や医学研究に従事するのにふさわしい資質まで含めて総合判断します。患者との対話、倫理的判断、曖昧な症状の扱い、長期の学習耐性、共同研究での協働など、医師養成に必要な能力は、入試答案の点数よりはるかに広いからです。
この意味で、AIが理三の筆記試験を突破したとしても、それは医学教育の代替を意味しません。むしろ逆です。筆記試験の選抜機能がAIで代替されやすいなら、大学側は「何を見て選ぶのか」をより明確にしなければならなくなります。特に理三のような専門職前段階の選抜では、知識処理能力だけでなく、志向性、継続性、対人能力、倫理観をどこまで評価設計に組み込めるかが問われます。
教育現場に迫る再設計
学習の外部化と評価軸の再編
教育現場にとって本質的な変化は、AIが「カンニング装置」ではなく「常時接続の思考補助具」になったことです。OECDは2025年時点で、加盟国では個人の3分の1超が生成AIを利用し、16歳以上の学生では4分の3が使っていると整理しています。つまりAI利用は一部の先端層の話ではなく、すでに広く浸透した前提条件です。この前提でなお、知識再生と定型論述を中心に評価するなら、試験は学力よりも「AIをどこまで排除できたか」の競争へ寄ってしまいます。
UNESCOも、生成AIの普及速度が教育制度や規制の整備を上回り、教育機関はツールを妥当性検証する準備が不十分だと警告しています。データプライバシーの保護や年齢に応じた利用設計を含め、人間中心の運用が必要だという指摘です。これは日本の大学入試にもそのまま当てはまります。AIを禁止するか容認するかの二択ではなく、「AIを使っても差がつく能力」と「AIを使うと測れなくなる能力」を切り分ける設計が必要です。
企業や研究の現場では、すでにAIを前提に仕事が組み直されています。であれば教育も、暗算や定型要約を過度に神格化するより、問いの定義、検証手順の設計、AIの出力批判、複数ソースの統合、倫理判断といった上位技能へ重心を移す方が現実的です。AIに解ける問題を残す意味がないのではなく、その問題をどう使うかを変える必要がある、ということです。
入試改革の現実路線
現実的な改革は、全面的な口頭試問化でも、筆記試験の放棄でもありません。第一に、図や資料、実験設定、未公開データなど、その場で解釈させる比重を高めることです。第二に、解答だけでなく検証過程を比較させる設問を増やすことです。第三に、面接や小論文を単なる補助科目で終わらせず、筆記と連動させることです。理三がすでに面接を含めているのは、その方向性を先取りしています。
同時に、AIが得意な部分を授業から締め出す必要はありません。むしろ、AIで下書きを作らせ、その誤りを見抜かせる授業の方が、現実社会に近い訓練になります。東進の調査でも、AIは図形や史料でまだ弱い一方、回答速度は圧倒的でした。ならば人間は、速度で競うのでなく、妥当性の監査者としての能力を強めるべきです。受験産業が先にAIを教材へ組み込んでいるのは、その必要性を直感しているからでしょう。
注意点・展望
注意すべきなのは、こうした調査の多くが教育事業者やAI関連企業によるものであり、採点設計やプロンプト条件に差があり得ることです。したがって、1本の調査だけで「人間超え」を断言するのは避けるべきです。ただし、2025年の河合塾協力実験、2026年の東進即日検証、OpenAIとGoogleの公式ベンチマークを並べると、方向性はかなり一貫しています。AIの強みは偶然の当たりではなく、推論・視覚理解・長文記述の三点で同時進行に伸びています。
今後の焦点は二つです。一つは、東大型の記述試験がどこまでAI耐性を保てるか。もう一つは、大学がその変化を踏まえて選抜目的をどこまで明示できるかです。筆記の難化だけでAIを振り落とす発想は、すでに持続可能ではありません。むしろ、AIを使ってもなお測りたい能力を定義し直せる大学ほど、選抜の説得力を維持しやすくなります。
まとめ
OpenAIとGoogleのAIが東大理三級の入試で上位圏へ近づいた背景には、単なる知識量の増大ではなく、推論モデルの成熟、マルチモーダル化、長い記述を破綻なく書き切る能力の向上があります。2025年には理三合格水準、2026年には複数モデルの理三突破という公開情報が並び、もはや「AIは難関大では通用しない」という前提は維持しにくくなりました。
次に問われるのは、AIが強いか弱いかではなく、教育が何を測るべきかです。東大理三のニュースは、受験の話題であると同時に、知識評価から判断評価へ軸をずらす必要を突きつけるシグナルでもあります。AI時代の入試改革は、試験を難しくすることではなく、能力の定義を精密にし直すことから始まります。
参考資料:
- 一般選抜 | 東京大学
- 令和8(2026)年度 一般選抜(前期日程)第1段階選抜合格者成績及び第2次学力試験合格者成績 | 東京大学
- 〖東進調査〗2026年東大二次試験、最新AIが理三合格レベルを突破、9割に迫る。文系数学は全3種が満点! | 東進
- 米中のAIが東大入試問題に挑戦。河合塾講師の採点結果が日経新聞はじめ各メディアで報道されました | 河合塾グループ
- 〖東大理3合格〗ChatGPT o1とDeepSeek R1に2025年度東大受験を解かせた結果と答案分析 | LifePrompt
- Introducing GPT-5.2 | OpenAI
- Model Release Notes | OpenAI Help Center
- OpenAI o3 and o4-mini System Card | OpenAI
- Gemini 2.5: Our most intelligent AI model | Google
- Gemini 3.1 Pro: A smarter model for your most complex tasks | Google
- Guidance for generative AI in education and research | UNESCO
- Generative AI | OECD
- 東大2次模試の数学で偏差値76.2を記録!/「ロボットは東大に入れるか」 | 国立情報学研究所
関連記事
AI東大理3首席超えが示した受験突破後の競争軸と人間の評価軸
ChatGPT 5.2 Thinkingが東大理科3類で503.59点を記録し、合格者最高点453.60点を上回りました。Gemini 3.1 Proも続いた一方、世界史論述や理科三類の面接は別の評価軸です。372人が志願した最難関入試で何が測られ、何がまだ測れないのかを技術と制度の両面から読み解きます。
Anthropic評価額OpenAI超えへAIエージェント戦略
AnthropicはSpaceXのColossus 1活用で300MW超の計算資源を確保し、Claude Codeの制限緩和に動いた。9000億ドル級評価報道やOpenAIの8520億ドル評価と比べ、AIエージェント市場、企業導入、インフラ競争、一人企業論の現実味まで、なぜ投資家が熱狂するのかを読み解く。
Geminiが迫るChatGPTの壁 生活導線と体験設計の勝負
ブランド・ジャパン2026でChatGPTが総合81位に入り、Geminiも純粋想起で浮上しました。GoogleはGmailやChromeへの統合、BRUTUSとの体験企画、スポーツ連携で一般層接点を拡大中です。国内利用率調査と公式発表を基に、生成AIのブランド競争と職場浸透の構図を丁寧に読み解きます。
noteのAIコンテンツ使用料構想はメディアの新収益源になるか
noteが掲げるAI向けコンテンツ使用料構想は、学習データの許諾、利用履歴の計測、権利者分配を一体化する試みです。JASRAC型管理、海外メディアのOpenAI提携、日本の著作権法に照らし、AI企業と出版社が納得する実装条件、利用ログ課金の難しさ、著者還元の課題、国内メディアの交渉戦略まで読み解く。
AI浪費を防ぐ企業統治、生成AIの費用対効果を測る実務の条件
生成AIの社内利用はMcKinsey調査で88%に広がる一方、EBIT効果を示す企業は39%にとどまります。API課金、AIエージェント、クラウド費用が重なれば、個人の試行は経営課題に膨張します。CIOと取締役会が設けるべき予算統制、KPI、業務設計、停止基準、プロジェクト別原価管理を具体策から解説。
最新ニュース
GX新制度で脱炭素製品調達が補助金条件に、日本企業の市場拡大へ
2026年度からのGX-ETS本格稼働を控え、政府は補助金要件に脱炭素製品の調達目標を組み込む方向です。GX経済移行債やGXリーグ、製品カーボンフットプリントを手掛かりに、グリーンスチール、水素、サプライチェーン選定が設備投資と調達戦略をどう変えるのか、今後の製造業、建設、電力の発注実務まで読み解く。
人事AIで進む適所適材と人的資本経営、配属改革の実務論点最前線
人的資本開示とスキル不足を背景に、人事AIは採用だけでなく配属、育成、キャリア相談へ広がる。オリックス生命のエンゲージメント分析やブリヂストンのタレント創造性KPI、EU AI Actなどの規制を踏まえ、適所適材を実装するデータ基盤、説明責任、人事の役割転換、社員納得感を高める運用条件の具体策を解説。
国民年金7万円時代、支給増でも残る地方家計の重荷と自治体課題
2026年度の基礎年金満額は月7万608円となり、厚生年金の標準額も月23万7279円へ増えます。ただ物価3.2%に対し基礎年金の伸びは1.9%にとどまり、保険料や税の天引き後の手取りには差が出ます。支給日の仕組み、マクロ経済スライド、地方家計と自治体財政への影響、高齢世帯の消費と相談窓口の変化も読み解く。
GPU大型化で日本基板・材料に追い風、NVIDIA供給網の核心
NVIDIAのBlackwellは2080億トランジスタ、72GPUラック、HBMを軸に供給網を再編する。TSMCのCoWoS、ABF、先端基板で日本勢に需要が集まる理由と、基板大型化・多層化が利益を押し上げる条件を分析。過剰投資・技術転換リスクまで含めて、AIデータセンター投資の裏側構造を読み解く。
スペースX上場熱狂に潜む2兆ドル評価とマスク支配の危うい罠の深層
スペースXのIPOは初日終値で時価総額2.1兆ドルに達し、StarlinkとAIへの期待を一身に集めた。一方でマスク氏が85.1%の議決権を握る統治構造、2025年49.4億ドル赤字、Starship開発遅延、FCC規制依存が株価下振れ要因となる理由を解説。個人投資家が熱狂の外側で確認すべき論点を読み解く。