OpenAIとGoogleが東大理三超えで映す受験AI新局面
はじめに
4月下旬、OpenAIとGoogleのAIが東大理科三類で「首席級」とする報道が注目を集めました。元記事は有料であり参照していませんが、周辺の公開資料だけを追っても、見出しが誇張だけでできているとは言い切れない状況が見えてきます。2025年には河合塾が採点協力した実験でAIが理三の合格水準に達し、2026年には東進の即日検証でも複数モデルが理三突破を示しました。
重要なのは、これは単なる話題づくりではなく、入試を支えてきた「難問でふるい落とす」という設計思想そのものに圧力がかかり始めたという点です。本稿では、東大理三という最難関の物差しで何が起きているのか、なぜ数学で急伸が起きたのか、そして教育現場が次に何を見直すべきかを整理します。
首席報道の読み解き
東大理三という物差し
東大の公式資料によれば、2026年度一般選抜の理科三類は前期日程の募集人員が95人で、2人増の可能性を含む運用でした。試験は2月25日、26日に加え、理科三類のみ27日にも実施されます。さらに理三は学力試験だけでなく、面接結果も含めて総合判定されます。将来、医療や医学研究に従事するのにふさわしい資質まで見る建て付けであり、単に筆記試験の高得点だけで語れない学科です。
同じく東大公表の2026年度成績資料では、第2次学力試験合格者成績は550点満点換算です。内訳は大学入学共通テスト1000点を110点に圧縮し、個別学力検査440点を合算する方式です。理科三類の最高点は453.6000点、最低点は346.0900点、平均点は377.7881点でした。ここで重要なのは、理三の「高得点」は感覚的な表現ではなく、かなり明確な数値の壁として公表されていることです。したがってAIが上位層に達したかどうかは、公開資料と第三者採点があれば相当程度まで検証できます。
「首席」という言葉自体は独自採点企画に基づく評価であり、公開資料だけでは直接確認できません。ただし、理三最高点453.6点という公式の物差しがある以上、もし外部調査でそれを超えたという結果が出ているなら、そのインパクトは単なる「合格した」より一段重い意味を持ちます。合格ライン突破は例外値で済ませられても、最高点超えは試験設計そのものの限界を示し始めるからです。
2025年から2026年への連続線
この流れは、2026年に突然始まったものではありません。河合塾は2025年4月、ChatGPT o1とDeepSeek R1がその年の東大二次試験に挑戦し、共通テストとの合計点で理科III類の合格最低点を上回ったと公表しました。採点には東大入試対策に通じた10人の講師が参加しています。さらにLifePromptの詳細公開では、2025年3月時点で両モデルの学習期限は2024年6月までで、実験対象モデルにはリアルタイムのWebブラウジング機能がないと説明されています。少なくとも「試験後に模範解答を拾ってきた」という単純な抜け道ではない形で、合格水準に届いたということです。
2025年実験の中身を見ると、ChatGPT o1は共通テストで文系・理系ともに9割超を取り、二次試験の理系科目では275点、DeepSeek R1は281点でした。ここで注目すべきは、当時はすでに「AIが理三に受かるか」が論点ではなく、「どこで点数を落とすか」が論点になっていた点です。実際、LifePromptは数学や図形、論述の粗さを弱点として詳しく分析しています。つまり2025年時点で、ボトルネックは知識量や単純計算ではなく、記述の精度と視覚的な読み取りへ移っていました。
その延長線上にあるのが2026年の東進調査です。東進は東京大学二次試験の当日に、Claude Opus4.6、Gemini 3.1 Pro、GPT-5.2の3モデルへ即日解答させ、3種すべてが文理とも得点率8割以上で理三合格レベルを超えたと公表しました。しかも文系数学は3モデルとも満点でした。2025年に「合格圏」が見え、2026年には「上位圏」が視野に入った。公開情報だけでも、この一年でAIの位置が確実に一段上がったことは読み取れます。
数学満点を支えた技術変化
推論モデルの成熟
数学が象徴的です。かつての生成AIは、途中式をもっともらしく並べても、最後の論理が崩れたり、複数条件の整理で破綻したりする場面が目立ちました。ところが現在の最前線モデルは、単なる次単語予測の延長ではなく、長い推論手順を保ちながら解く能力を前面に押し出しています。OpenAIは2025年12月公開のGPT-5.2で、AIME 2025においてツールなしで100.0%を記録したと公表しました。GPQA Diamondでも92.4%です。これは競技数学や難科学問における推論の安定性が、短期間でかなり高い水準まで来たことを意味します。
Google側も同じ方向で伸びています。2025年3月のGemini 2.5 Pro発表時点で、GoogleはAIME 2025とGPQAのような数学・科学ベンチマークで先行していると説明しました。さらに2026年2月公開のGemini 3.1 Proでは、未知の論理パターンに対応するARC-AGI-2で77.1%の検証済みスコアを示し、複雑問題向けの基礎推論がさらに伸びたとしています。東進調査でGemini 3.1 Proが理三合格レベルを超えたという結果は、こうした公式ベンチマークの延長に位置づけると理解しやすいでしょう。
要するに、最近のモデルは「答えを知っている」から強いのではなく、「条件を整理し、途中で自己整合性を保ち、長い解答を崩さず出し切る」能力が伸びたから強いのです。東大数学のような問題では、発想の華やかさよりも、条件整理、場合分け、途中式の一貫性、記述の節度が得点を左右します。この型に推論モデルが急速に適応してきたことが、数学満点という現象の土台にあります。
記述式を押し上げたマルチモーダル化
もう一つの変化は、テキストだけでなく図表や画像を前提にした処理能力です。OpenAIのo3とo4-miniのシステムカードは、複雑な数学、科学、視覚分析に強いと説明しています。GoogleもGemini 3.1 Proを、複雑な問題解決や視覚的説明、データ統合に向くモデルとして展開しています。大学入試、とりわけ東大の二次試験は、設問文だけではなく、図、グラフ、資料、行数制約、論述分量の感覚まで含んだ総合格闘技です。モデルがマルチモーダル化するほど、こうした試験との相性は良くなります。
東進の方法論もその点を裏付けます。問題文の文章はテキスト化し、図表は画像として入力し、文字数指定がない問題は解答用紙の行数から字数制約を与えています。つまりAIにとって不利すぎる条件でも、有利すぎる条件でもない、中間的な実戦環境を作っているわけです。そのうえで文系数学満点が出たのなら、単純な暗記では説明しにくい。推論と視覚理解、さらに記述の長さ制御まで含めた実装が、受験という古典的フォーマットに適応してきたと見るのが自然です。
ここで見落とせないのは、採点対象がマークシートではなく記述答案だという点です。大学入試の世界では長らく、「記述がある限りAIは簡単には超えられない」という期待がありました。しかし今や、記述は防波堤ではなく、モデル改善の訓練目標になっています。AI企業にとって、長い推論を書き切る力は、学術、金融、法務、プログラミングでもそのまま価値になります。受験だけが特殊な課題ではなくなったからこそ、性能改善が一気に効き始めたと言えます。
合格と学力を同一視できない理由
図形と史料に残る未解決領域
とはいえ、ここで「人間の受験生はもう勝てない」と結論づけるのは早計です。東進調査でも、図形の読み解きや日本史の史料処理には弱点が残ると明記されています。図から条件を抽出して自分で再構成する場面や、史料を要約するだけでなく、出題者が想定する日本史用語へ翻訳し直す場面では、なお減点が起きています。2025年のLifePrompt分析でも、数学の論述、化学の図形記述、歴史の題意把握などで粗さが残りました。
つまりAIは、定型化しやすい高難度問題に強く、読解の向こう側にある「試験文化」にはまだ完全には適応していないのです。日本の難関大入試には、正答そのものだけでなく、どういう書き方なら採点者に伝わるかという暗黙知があります。人間の上位受験生は、問題を解くだけでなく、採点基準に沿って減点を避ける作文まで学んでいます。AIはそこへ急速に近づいているものの、完全に同じゲームをしているわけではありません。
それでも、この反論だけでは安心材料にはなりません。なぜなら弱点の種類が、以前の「基礎計算が危うい」から、現在は「最後の数点を削る周辺技能」へ変わっているからです。弱点が残っていること自体よりも、弱点の位置が上位化していることの方が重要です。制度設計の観点では、これはかなり厄介な変化です。
医学部教育との非連続性
さらに理三では、筆記試験の高得点がそのまま「優れた医師候補」であることを意味しません。東大公式ページが明記するように、理科三類は面接を含め、医療や医学研究に従事するのにふさわしい資質まで含めて総合判断します。患者との対話、倫理的判断、曖昧な症状の扱い、長期の学習耐性、共同研究での協働など、医師養成に必要な能力は、入試答案の点数よりはるかに広いからです。
この意味で、AIが理三の筆記試験を突破したとしても、それは医学教育の代替を意味しません。むしろ逆です。筆記試験の選抜機能がAIで代替されやすいなら、大学側は「何を見て選ぶのか」をより明確にしなければならなくなります。特に理三のような専門職前段階の選抜では、知識処理能力だけでなく、志向性、継続性、対人能力、倫理観をどこまで評価設計に組み込めるかが問われます。
教育現場に迫る再設計
学習の外部化と評価軸の再編
教育現場にとって本質的な変化は、AIが「カンニング装置」ではなく「常時接続の思考補助具」になったことです。OECDは2025年時点で、加盟国では個人の3分の1超が生成AIを利用し、16歳以上の学生では4分の3が使っていると整理しています。つまりAI利用は一部の先端層の話ではなく、すでに広く浸透した前提条件です。この前提でなお、知識再生と定型論述を中心に評価するなら、試験は学力よりも「AIをどこまで排除できたか」の競争へ寄ってしまいます。
UNESCOも、生成AIの普及速度が教育制度や規制の整備を上回り、教育機関はツールを妥当性検証する準備が不十分だと警告しています。データプライバシーの保護や年齢に応じた利用設計を含め、人間中心の運用が必要だという指摘です。これは日本の大学入試にもそのまま当てはまります。AIを禁止するか容認するかの二択ではなく、「AIを使っても差がつく能力」と「AIを使うと測れなくなる能力」を切り分ける設計が必要です。
企業や研究の現場では、すでにAIを前提に仕事が組み直されています。であれば教育も、暗算や定型要約を過度に神格化するより、問いの定義、検証手順の設計、AIの出力批判、複数ソースの統合、倫理判断といった上位技能へ重心を移す方が現実的です。AIに解ける問題を残す意味がないのではなく、その問題をどう使うかを変える必要がある、ということです。
入試改革の現実路線
現実的な改革は、全面的な口頭試問化でも、筆記試験の放棄でもありません。第一に、図や資料、実験設定、未公開データなど、その場で解釈させる比重を高めることです。第二に、解答だけでなく検証過程を比較させる設問を増やすことです。第三に、面接や小論文を単なる補助科目で終わらせず、筆記と連動させることです。理三がすでに面接を含めているのは、その方向性を先取りしています。
同時に、AIが得意な部分を授業から締め出す必要はありません。むしろ、AIで下書きを作らせ、その誤りを見抜かせる授業の方が、現実社会に近い訓練になります。東進の調査でも、AIは図形や史料でまだ弱い一方、回答速度は圧倒的でした。ならば人間は、速度で競うのでなく、妥当性の監査者としての能力を強めるべきです。受験産業が先にAIを教材へ組み込んでいるのは、その必要性を直感しているからでしょう。
注意点・展望
注意すべきなのは、こうした調査の多くが教育事業者やAI関連企業によるものであり、採点設計やプロンプト条件に差があり得ることです。したがって、1本の調査だけで「人間超え」を断言するのは避けるべきです。ただし、2025年の河合塾協力実験、2026年の東進即日検証、OpenAIとGoogleの公式ベンチマークを並べると、方向性はかなり一貫しています。AIの強みは偶然の当たりではなく、推論・視覚理解・長文記述の三点で同時進行に伸びています。
今後の焦点は二つです。一つは、東大型の記述試験がどこまでAI耐性を保てるか。もう一つは、大学がその変化を踏まえて選抜目的をどこまで明示できるかです。筆記の難化だけでAIを振り落とす発想は、すでに持続可能ではありません。むしろ、AIを使ってもなお測りたい能力を定義し直せる大学ほど、選抜の説得力を維持しやすくなります。
まとめ
OpenAIとGoogleのAIが東大理三級の入試で上位圏へ近づいた背景には、単なる知識量の増大ではなく、推論モデルの成熟、マルチモーダル化、長い記述を破綻なく書き切る能力の向上があります。2025年には理三合格水準、2026年には複数モデルの理三突破という公開情報が並び、もはや「AIは難関大では通用しない」という前提は維持しにくくなりました。
次に問われるのは、AIが強いか弱いかではなく、教育が何を測るべきかです。東大理三のニュースは、受験の話題であると同時に、知識評価から判断評価へ軸をずらす必要を突きつけるシグナルでもあります。AI時代の入試改革は、試験を難しくすることではなく、能力の定義を精密にし直すことから始まります。
参考資料:
- 一般選抜 | 東京大学
- 令和8(2026)年度 一般選抜(前期日程)第1段階選抜合格者成績及び第2次学力試験合格者成績 | 東京大学
- 〖東進調査〗2026年東大二次試験、最新AIが理三合格レベルを突破、9割に迫る。文系数学は全3種が満点! | 東進
- 米中のAIが東大入試問題に挑戦。河合塾講師の採点結果が日経新聞はじめ各メディアで報道されました | 河合塾グループ
- 〖東大理3合格〗ChatGPT o1とDeepSeek R1に2025年度東大受験を解かせた結果と答案分析 | LifePrompt
- Introducing GPT-5.2 | OpenAI
- Model Release Notes | OpenAI Help Center
- OpenAI o3 and o4-mini System Card | OpenAI
- Gemini 2.5: Our most intelligent AI model | Google
- Gemini 3.1 Pro: A smarter model for your most complex tasks | Google
- Guidance for generative AI in education and research | UNESCO
- Generative AI | OECD
- 東大2次模試の数学で偏差値76.2を記録!/「ロボットは東大に入れるか」 | 国立情報学研究所
関連記事
Geminiが迫るChatGPTの壁 生活導線と体験設計の勝負
ブランド・ジャパン2026でChatGPTが総合81位に入り、Geminiも純粋想起で浮上しました。GoogleはGmailやChromeへの統合、BRUTUSとの体験企画、スポーツ連携で一般層接点を拡大中です。国内利用率調査と公式発表を基に、生成AIのブランド競争と職場浸透の構図を丁寧に読み解きます。
企業AI格差が拡大 成果を分けるデータ・人材・経営実装の条件
AI活用は導入率より実装力の差が競争力を左右する段階に入りました。スタンフォード大学は2024年の企業AI利用率を78%とし、BCGは5%の先進企業が価値創出で突出すると分析。経営主導の優先順位、データ基盤、人材再教育、ガバナンスの4条件から企業間格差が広がる構図を解説します。
SoftBank純資産価値30兆円台の意味と割安修正シナリオ
ArmとOpenAIで膨らむ純資産価値、LTV管理と市場ディスカウント解消の論点整理
英語学習を難しくするスキーマの正体
日本語の無意識の分類が英語運用を邪魔する認知科学からの学習設計
生成AIの高性能化で進む無難化と退屈化、その構造と活用の勘所
生成AIが高性能化するほど答えが平均化する背景と、独自性を引き出す実務上の設計原則
最新ニュース
中国包頭レアアース集積の実像と輸出規制が映す対日供給網リスク
中国・包頭は国家級高新技術企業158社を抱え、2025年は稀土産業45案件と産業総生産額1300億元を掲げる中核拠点です。4月4日の輸出規制と追跡制度で、日本企業は最終用途や顧客情報の提示を迫られました。IEAが示す中国の永久磁石生産94%支配を踏まえ、包頭の産業集積がなぜ対日供給網リスクと直結するのかを解説します。
ファーウェイ車戦略の核心 ブランドと技術の境界設計を読み解く
ファーウェイの智能車事業は2025年に売上高450.18億元、HIMAの年間納車は58万9107台まで拡大しました。北京モーターショー2026で進んだ「EVの次は知能化」という潮流のなか、完成車を造らずに問界・智界・享界・尊界・尚界を束ねる仕組みはどう設計されたのか。賽力斯と上汽の事例から読み解きます。
JAL管理職年収改革の本質 日本企業の昇進回避をどう変えるのか
JALで報じられた管理職処遇の大幅見直しは、若手賃上げの陰で薄れた昇進メリットをどう再設計するかという日本企業共通の課題を映します。JALの有報・ESGデータ、厚労省関連統計、昇進忌避調査を基に、部長級報酬改革の狙いと管理職「罰ゲーム」脱却の条件、次世代管理職を増やす人材戦略の主要な要点も読み解きます。
管理職が部下のメンタル不調を早期発見する心技体サインを読み解く
労働者の82.7%が仕事上の強いストレスを抱え、13.5%の事業所ではメンタル不調による1カ月以上の休業者や退職者が出ています。管理職は「心・技・体」のどこに変化を見つけ、どう声をかけ、いつ産業医や人事につなぐべきか。厚労省やWHOの指針、ストレスチェック制度を踏まえて早期発見の実務を具体的に解説します。
デンソーがローム買収提案を撤回、パワー半導体は3社連合の時代へ
デンソーが約1兆3000億円規模のローム買収提案を撤回した。ロームはトヨタグループ傘下入りを拒否し、東芝デバイス&ストレージ・三菱電機とのパワー半導体3社統合を選択。世界シェア11.3%で2位に浮上する「日の丸パワー半導体連合」の実力と課題、そして撤退を余儀なくされたデンソーが描く次の半導体戦略を読み解く。