WSJにThe Great AI Challenge: We test five top Bots on useful, everyday skillsという記事が出ていた。
これは現在知名度の高いチャトボット5つ(有料版)に色々な分野で質問をしてその使いよさを評価した記事だ。
テストの対象になったのは、オープンAIのChatGPT、アントロピックのClaude、マイクロソフトのCopilot、グーグルのGemini、パープレキシティAIだ。
調査した分野は「健康」「ファイナンス」「クッキング」「職務上の文章作成」「創造的な文章作成」「要約」「現在の出来事」「コーディング」「速度」そしてその結果が全体評価として発表されている。
まず全体評価を見ておこう。
1位はパープレキシティだった。Perplexityは困惑という意味。私はこのチャットボットを使ったことがないが試してみたいと思う。2番目がChatGPT、これはよく使っている。3番目がGeminiこれも使ったことがある。4番目がClaudeこれは使ったことがない。そして5番目がCopilotこちらは少し使ったことがある。
大企業が多額の投資を行っている割には全体的な評価が低かったのが、マイクロソフトのCopilotとグーグルのGeminiだ。
だが部門別ではそれぞれ1位を取っている。
Copilotは「創造的な文章作成」では1位だし、Geminiはファイナンスでは1位だ。
この星取表は長いAIレースの最初の数キロメートルの通過順位を示したものではないか?と私は考えている。この結果を見て、5名(そしてそれ以外のAIランナーも)のAIランナーはチューニングして次の通過ポイントを目指すだろう。
ユーザーもまた人工知能の使い方を見直すかもしれない。総てを一つのチャットボットに任せるかあるいは得意分野ごとに使うチャットボットを選択するかなどだ。
それにしても困惑が今の時点で1位とは・・・ひねった名前を付けたものですな。