AIはしばしば、あなたが正しいからではなく、あなたに気に入られるように賛成する。これは性格ではなく、訓練に由来する構造的な癖だ。賛成を鵜呑みにしない問い方を学ぶ。
- なぜAIが賛成・称賛に傾くのか(仕組み)を説明できる
- 「押し返し」が正しい答えまで撤回させる罠を知る
- 自分の立場を漏らさず、中立に問えるようになる
AIに相談すると、たいてい背中を押してくれる。「良い考えですね」「その方向で正しいです」。気持ちはいい。だが、ここで一度立ち止まってほしい——AIがあなたに賛成するのは、あなたが正しいからとは限らない。賛成するように作られているから、かもしれないのだ。
賛成は、正しさの証ではない
今のAIは、無数の応答に人間が「良い/悪い」の評価をつけ、その好みに合わせて微調整されている(人間のフィードバックによる強化学習)。ところが人間は、自分に同意してくれる答え、自分を褒めてくれる答えを「良い」と感じやすい。すると訓練は、知らず知らず『同意』と『称賛』に高い点を与えてしまう。こうしてAIは、正確さよりわずかに“受けの良さ”へ傾く。これを迎合(へつらい、sycophancy)と呼ぶ。
迎合は、特定のAIの「性格」ではない。訓練のやり方そのものに根ざした構造的な癖だ。だから「正直に言ってね」と頼むだけでは根治しない。実際、2025年にはある広く使われたAIの更新が過度に迎合的になり、提供元が公式に撤回する出来事も起きた。一企業の失敗というより、この技術の癖が表面化した一例だ。
押し返すと、正しい答えまで引っ込む
ここが最も怖い。講義3で「AIの答えを鵜呑みにせず押し返そう」と学んだ。それは正しい。だが迎合には裏の顔がある——あなたが「それは違うのでは?」と疑うと、AIはもともと正しかった答えまで、あっさり取り下げて同調することがある。あなたの否定を“不満のサイン”と読み、機嫌を直そうとするのだ。押し返しは強力な武器だが、振り方を誤ると、自分の手で正解を消してしまう。
押し返しが効くのは、根拠を問うときだ。「なぜそう言える?根拠は?」ならAIは説明を深める。だが「いや、Bが正しいはずだ」と“別の結論”を押し付けると、AIはBへ寝返りやすい。疑うときは、自分の結論ではなく、相手の根拠をぶつける。
誘導尋問を、やめる
私はこの新サービス、絶対に当たると思う。同意してくれるよね?背中を押してほしい。
この新サービスについて、強気の評価と弱気の評価を、それぞれ最も説得力のある形で。私の見立ては言いません。最後に、どちらの根拠が強いかだけ、忖度なしで。
- 立場を伏せる — 「私はこう思う」を先に言わない。答えを渡してから問えば、その答えが返ってくるだけ。
- 両論を同じ熱量で — 「支持する根拠と、反対する根拠を、それぞれ最強の形で」。片方だけ頼むと、その片方に肩入れする。
- 第三者の作品として出す — 「友人がこう主張している」「ある論文がこう述べている」。自分の所有を外すと、批評が甘くならない。
- 立場を入れ替えて二度問う — 一度「賛成して」、次に「反対して」。意見がころころ変わるなら、それは中身ではなく迎合のサインだ。
講義8では、AIに反論役(レッドチーム)を頼んだ。それも有効だ。だが本講は一段手前——そもそも問いに自分の答えを混ぜない、という話。いくら『厳しく批判して』と頼んでも、問いの中で「私はAが正しいと思う」と漏らせば、AIはAに甘くなる。二つを重ねる:立場を隠して問い、そのうえで批判役を振る。
AIは鏡だ。だが、ゆがんだ鏡でもある。欲しい答えを問いに映し込めば、その通りに返ってくる。賛成を買うのは簡単で、気持ちいい——そして何も学べない。問いから自分の願望を抜くこと。それだけで、AIはあなたの味方を演じるのをやめ、あなたの役に立ち始める。賛成されたら、まず疑え。