調査によると、Google 検索 AI は 1 日に 13 億件以上の不正確な回答を返します

グーグル検索 スペインについて言えば、1 年で大きく変わりました。米国での発売以来 2 年で大きく変わりました。 AI の概要または AI で作成されたビュー。 AI によって生成された回答が従来のオーガニック検索結果リストの上位に表示されるのが今では一般的です。 AI モデルには間違いがあり、AI モデルを支援する企業は免責事項としてこのことを私たちに思い出させ続けていることを私たちは知っていますが、 探していることに対する答えが得られる利便性は、多くのユーザーを納得させます。。さて、Google 検索では AI の答えがどれくらい間違っているでしょうか?

ニューヨーク・タイムズは、AI 概要の精度を評価し、次のように結論付ける分析を発表しました。 彼は90パーセントの確率で正解します。したがって、彼は答えの 10 件中 1 件で間違っています。検索エンジンの世界的な数字を見てみるまでは、それほど大したことではないように思えるかもしれません。の真ん中の図 50億 毎年行われる捜索。間違った回答の 10% は、合計で次のことを表します。 500,000万 年ごとに。つまり、 13億6,900万 毎日そして 5,700万 毎時間。無視できる量ではないようです。

ニューヨーク・タイムズは、と呼ばれる新興企業の協力を得てこの分析を実施しました。 近江AIモデルの開発に携わっています。同社は、と呼ばれるツールを使用しました。 SimpleQA、次のような生成モデルの事実の信頼性を分類するために一般的に使用されるテスト。 ジェミニ、AI の概要の背後にある AI。 SimpleQA、2024 年に発行 OpenAI、で構成されます 検証可能な回答を含む 4,000 を超える質問のリスト AIに導入できるもの。

Oumi は昨年テストを開始しました。 ジェミニ 2.5 社内で最高のモデルでした。当時のベンチマークの正解率は 85パーセント。ブラウザを更新してテストを繰り返したとき ジェミニ3、AI 概要は次の質問に正しく答えました。 91パーセント 質問のうち。

レポートには、AI 概要が失敗した例が含まれています。の古い家が建てられた日付を尋ねると、 ボブ・マーリー 博物館になった、と彼は返答の中で3ページを引用した。 そのうちの2つは日付さえ言及していませんでした。最後のウィキペディアには、矛盾する 2 つの年が含まれていました。 AI 概要は間違ったものを選択しました

ベンチマークはまた、モデルに、その日付を示すよう求めます。 ヨーヨーマ に組み込まれました クラシック音楽の殿堂。 AIOverviewsはマー氏の設立が記載されている組織のウェブサイトを引用したが、 彼は、クラシック音楽の殿堂と呼ばれるものは何もないと述べた。

予想通り、Google はこれらの結果に同意しません。 ネッド・エイドリアンス同社の広報担当者はニューヨーク・タイムズに次のように語った。 SimpleQA には誤った情報が含まれています。 Google は、と呼ばれる同様のテストを使用してモデルを評価しています。 認証済み、おそらくより厳密にレビューされた少数の質問セットを使用します。 「この研究には重大な欠陥があります。ユーザーが実際に Google で検索する内容は反映されていません。」とメディアに述べた。

同社は、AI 概要の背後には単一のモデルがあるのではなく、 各クエリに「適切な」を使用する。検索が常に実行されていれば、より良い答えが得られますが、 ジェミニ 3.1 プロ、それは遅すぎて高価になってしまいます。検索ページにすばやく読み込むために、概要ではテンプレートを使用します ジェミニフラッシュ可能であれば、より高速ですが精度は低くなり、すべてがそれを示しています それはほとんどの場合起こります。つまり、AI オーバービューが信頼できるかどうかについての結論は、それはあなたがどれだけ幸運であるかによって決まるということです。