AIに2025年実施の東大の入学試験問題を解かせると、主に医学部に進学する”最難関の理科3類の合格水準に達した”とAIベンチャーのライフプロンプトが5日、明らかにした。
このAIは合格最低点を上回り、AIの能力を裏付けるものだ。2次試験では英語が得意だったが、数学や国語に弱点がみられ、物理の難解な問題を解く一方で、世界史では人間だと間違え難いミスをした。1教科当たり約2~60分で解答を作成し、試験時間を大きく下回った。
米国OpenAIの”o1”と、中国の新興企業DeepSeekの”R1”を使い、大学入学共通テストと東大の2次試験前期を解かせた。
まず問題を画像データにしてAIに入力し、2次試験は記述式を含む為に、大手予備校講師が採点。結果は550点満点のうち、o1は文科1~3類で379点、理科1~3類では374点を取り、文系理系ともに合格最低点を超えた。東大が発表した文科1類の合格最低点は336点で、理科3類は368点だった。また、R1は文科1~3類と理科3類が合格水準に達した。
一方、2次試験の英語(120点満点)はo1が93点、R1が92点と高得点だったが、文系国語(120点満点)はo1が71点、R1が75点に留まり、特に小説に関する設問の得点が低かった。文系数学(80点満点)は図形問題で苦戦し、o1が40点、R1が18点と低迷した。
因みに、ライフプロンプト(日本)は24年にOpenAIの最新モデル”ChatGPT4”を使い東大入試を解かせたが、文系理系ともに合格最低点に達しなかったが、数学の点数は24年と比べてかなり伸びたという。
但し、AI解答を採点した大手予備校の講師はAIの英語能力を”合格者の中でもトップ層に入る偏差値80を超える水準で、設問が英語だと特に優れていた”と高く評価した。一方で、AIが不得意な分野も浮き彫りになり、図形問題の得点が低く”数学は合格レベルには及ばない”と分析し、”図形認識が十分でなく、論証や根拠が必要になる問題にも弱い”と言う。
また、”小説やエッセイのような(主人公や出題者の意図を)推察する問題は苦手で、地図など多くの資料を読み取るのは難しい”とも語った。
以上、日刊スポーツの記事からでしたが、”英語や暗記系には滅法強く、数学の抽象的で複雑な論理系に弱い”事は、「OpenAIが切り開く未来」でも書いた様に、昨今の進化するAIの能力には、ほぼ想定内でもあった。
日本に東京大学はいらない?
結果をありのまま全て鵜呑みにすれば、日本にはAIさえあれば、天下の”東京大学医学部はいらない”となる。
一方で今回挑戦したAIが、人工知能の分野でも激しくやりあう米中の2大国の最新モデルだから、日本も随分と舐められたもんだ。
ただ、日本の受験制度が私が高校になった時に暗記型のマークシート方式になった事で、日本人の知能が早かれ遅かれ、AIに抜かれる事は大方想像はついてはいた。
そういう意味では、今回の結果にはそこまでの驚きもないが、日本では”AIが東大理科3類(医学部)に合格”のニュースは大きな衝撃として映ってる様だ。勿論、東大(医学部)以外の学生らは大喜びだろう。
しかし、普通に考えれば、人は自動車より速く走れないし飛行機の様には自力では飛べない。つまり、人間の能力には最初から限界があるのは当然だ。
同じ事は、知能や知識においてでも言えて、特に日本の受験制度は暗記型がメインだから、AIが最も得意とする分野で天下の東大が追い越されても何ら不思議はないのだろう。
確かに、一部の機械学習の専門家になれる東大生よりも、真の意味で優秀な学生しかAIをプログラムする側には回れない。だが、すでに4000以上もの分野で優秀な人間よりもAIの方が優秀で”人間は仕事を失う”と警鐘を鳴らすAI専門家もいる。
事実、某理学修士(数学)のコメントでは、2023年に証明補助生成AI”Lean”がchatGPTと手を組み、数学者がコードを用いてLeanと会話しながらフィールズ賞に輝いた論文を査読するのが他の数学者の査読よりずっと速かった事でで有名になったという。
また、100次の偏微分方程式の解などは人間の勘を頼りにしてたが、それよりも数十倍もよい数値を得たという。無料の生成AIではその程度だが、既に専門の生成AIが4000以上あり、それらは人間の最高峰レベルで、30年前に書かれた未解決問題の論文も僅か15分程で査読したという。
今では、1995年にワイルズらにより解決された「フェルマーの最終定理」に数学専門の生成AIが挑んでるとされる。
最後に
確かに、東大医学部と言えど、受験に必要な知識は市販の参考書で十分だし、AIに全ての参考書を記憶させれば、合格できるのは当たり前だろう。
また、AIは人間が与えた知識の中で解答を生成してるだけなので、英語は日本語に翻訳して要約し、情報処理をするだけなので、AIが英語や暗記を得意とするのも理解できる。
一方で数学は、AIに入力するデータに同じものが1つも無く、生身の人間の様に思考を順序よく積み重ねて回答する必要があるので、まだまだAIには難しい。
そこで、今回の結果について、AIの見解を聞かせてもらう事にする。
”今回騒がれている理由は、AIが人間と同等以上の学力を持つ事を示した事で、従来AIが東大医学部の難関を突破する事は予想されていませんでした。しかし、今回は英語では高得点を叩き出し、苦手とされた(数学はともかく)国語でも最低合格点を獲得しました。
人間は身体的な能力では機械に劣るが、知能では人間が優れてると考えられてきたが、今回の結果は、知能においても人間を上回る可能性がある事を示唆しています”(一部抜粋)
随分と自信満々だが、特に数学での弱点が露呈した事は、AIがまだ数学に関する人間の抽象的な思考や複雑な知能や知覚の構造の仕組みを完全に理解し、再現できていない事を示している。
それでも、特に人間の知能では追いつけないとされる数学の様々な難題を解き明かすには、AIの助けと支えが必要になるのは明らかだろう。
ただ、AIが人類の存在を脅かすとの考えはSF的過ぎるが、AIの進化が人類が生きる上でより賢くするのであれば、満更警戒する事でもない。が、AIに浮かれ過ぎる単純な人類を見てると、思う以上に人類がAIに舐められてるのかなと、そっちの方が心配になる。
ただ、医者や医学部が”選ばれし存在”であった時代は、とっくに過ぎ去ったのかも知れない。ある意味、AIには感謝でもある。
でもね
日本や韓国それに中国なんかの
加熱しすぎた受験戦争に巻き込まれるくらいなら
そんな機械みたいな
受験サイボーグを作るくらいなら
AIにかわってもらったほうが
国家戦略としても合理的だと思うの
そう思うと
人工知能って
出るべくして登場した産物なのかもね
という定義が崩れつつある時代。
それに、AIも多様性を持つ事で人類社会に受け入れられつつある。
いや、私らが思う以上に十分に受け入れられてる。
言われる通り、無機質で非人間的な受験サイボーグを作るくらいなら、AIの方がずっと効率的で安上がりだし、精神衛生上もいい。
その一方で、昔ながらの真面目な研究者も必要で、そこら辺の兼ね合いが難しい所です。
但し、世界レヴェルでAIに浮かれ過ぎの傾向にあるけど、あくまでもよりよく生きる為の道具であり、期待し過ぎるとそのAIから逆に、大きなしっぺ返しを喰らうかもです。
つまり、AIへの投資も程々にってとこで・・
ChatGPTにしても
単に入力されたデータ群を流暢に纏めてるだけで、出力されるものは完成度は高くとも、言われてるほどのものでもない。
一時の流暢なデタラメからは随分と進化してるけど
受験問題と解いたくらいでは何とも評価のしようがない。
ただ、数学の分野でアメリカのOpenAI(o1)が東大の文系数学とは言え、80点満点で40点をとった事に、少し衝撃を覚えました。
それに比べ、中国のR1は18点と散々な結果に終わりましたが、これが普通でしょうね。
国産のChatGPT4も、数学においては結構優秀で、ある円周率の問題をその本質を理解し、「アルキメデスの原理」を使って解いている。
勿論、昨今の汎用AIでも、政治屋や議員の知力ならAIの方がずっと効率的で、いい世の中が構築されるかも知れないですね。
つまり「知能指数100で豊富な知識を持った秘書」を持つのと同じ。
活用しない手はありません。
楽しみなのはシンギュラリティでAIが人間の知能を超えた時。
さてAIは何を始めるのでしょう?
とんでもない宇宙論、物理理論を提示してくれるかもしれません。
AIと言えど”流暢なデタラメ”に近かったので
一部肯定的で一部懐疑的でしたが
v4.0になると凄い進化を遂げてますね。
特に、数学の論理的思考に何とか順応してるのには、正直驚きました。
AIの知能が100だとすれば、ハーバード大学の平均よりも上のレベルでしょうか。
事実、GPT-4に司法試験の模擬テストを受けさせたら、上位10%程のスコアだったとされます。
言われる通り
秘書やキャスターだけでなく、公務員や弁護士に政治家や人文科学の専門家らも、AIに任せた方がずっと効率的でお得かもです。
ただ、AIに浮かれ過ぎてもですが、戦争ばかりしてたら、人類は簡単に駆逐されるでしょうね。