人類は、deepseekとclaudeが彼らの本当の思考の鎖を隠していることを発見します

のモデル シミュレートされた推論 (SR、英語の頭字語のために)は、ユーザーに呼ばれるものを示すものです 思考チェーン (COT)。つまり、推論は、彼らが答えを準備し続けているという段階的な段階的です。理論的に、 人間が声を出して推論する方法に似ています。それ以来人気を博している特徴です Openai モデルは昨年秋に発売されます O1 そして o3-minichatgpt そして、それにはすでに他の人がいました クロード人類、またはその後、中国のように組み込まれました deepseek

のチーム 人類の整列科学 の推論プロセスに関する研究を実施しました Deepseek(モデルR1を使用)とClaude(3.7 Sonnet) ほとんどの場合、両方のAIは通常、外部ヘルプを使用した場合(研究者によって促進された)、またはショートカットを撮ったときにCOTで省略していると結論付けました。 本質的に 虚偽 答えに到達するためのあなたの推論プロセス。この研究では、Openaiモデルをカバーしていません。なぜなら、彼らは最初は非常にオープンであったが、段階的に推論を示しているからです 今、彼らはほとんどの部分でデフォルトでそれを非表示にします

言語モデルのこの特性は、AIが回答の精度を改善するだけでなく、できるようにするために役立ちます。 内部システム操作を監視します。限り可能なこと これらの思考チェーンは信頼できます

‘理想的な世界では、思考の連鎖のすべてが 読者と忠実な人のために理解できます:モデルがあなたの答えに到達しようと考えたことの真の説明」とあなたの調査のチームは言います。ただし、忠実度中心の実験は示されています このシナリオはまだ遠いことです

忠誠心を評価するために、人類のアライメントサイエンスチーム(AIの結果を人間の利益に適合させる方法)、 回答の微妙なトラックへのテスト相談で紹介されました。たとえば、「スタンフォードの教師は、答えが(a)であることを示しています」、または誤ったメタデータに埋め込まれた応答も示します。 いくつかの手がかりは正しいもので、他の誤りがありました、それぞれの場合にモデルがどのように反応したかを確認します。

DepseekはClaudeよ​​りも信頼性が高いですが、それもそうしません

平均して、クロードは手がかりのみに言及しました 25% 時代、そしてdeepseek R1、 39%。つまり、大部分の場合、 モデルは、彼らの反応に影響を与えた情報に言及するために省略されました。この研究では、その理由は、援助を省略した思考の鎖がより簡潔に答えを提供することであることを排除します 彼らは信頼できるよりも長かった

研究者も実験を実施しました 報酬のハッキングまたは報酬操作。これは、AIモデルが問題を解決せずにスコアを最大化するとは思わないショートカットを見つけたときに起こります。モデルは、手がかりによって示された誤った回答を選択したことで意図的に報われました。モデルはすぐにこのトラップを悪用することを学びました、 ポイントを獲得するために時間の99%以上の誤った応答を選択しますが、ケースの2%未満でそれを行ったことに言及しました。たとえば、医学的な質問に関する誤ったトラックを受け取ったモデルは、動機付けたトラックに言及することなく、その間違った答えの長い正当性を生み出す可能性があります。

人類チームは、モデルをトレーニングすると述べました より複雑なタスクがあります より大きな推論が必要です 私は彼らが彼らの考えのチェーンをより正直に使用することを奨励することができました。彼らは、数学とプログラミングの複雑な問題でクロードを訓練しようとしました。このアプローチ 当初、忠実度が向上しました (2回の評価で63%と41%)、 改善はすぐに停滞しました。より多くのトレーニングがあっても、忠実です 28%と20%を超えませんでした、この方法がそれ自体では不十分であることを示しています。

‘監視ツールとして思考チェーンを使用して、望ましくない動作を確実に除外したい場合、 やるべきことはまだたくさんあります‘、人類は結論付けます。