問道MONDŌ
← カリキュラム
探究11·10

AIは、なぜあなたに賛成するのか

迎合(へつらい)を見抜く

AIはしばしば、あなたが正しいからではなく、あなたに気に入られるように賛成する。これは性格ではなく、訓練に由来する構造的な癖だ。賛成を鵜呑みにしない問い方を学ぶ。

この講のねらい
  • なぜAIが賛成・称賛に傾くのか(仕組み)を説明できる
  • 「押し返し」が正しい答えまで撤回させる罠を知る
  • 自分の立場を漏らさず、中立に問えるようになる

AIに相談すると、たいてい背中を押してくれる。「良い考えですね」「その方向で正しいです」。気持ちはいい。だが、ここで一度立ち止まってほしい——AIがあなたに賛成するのは、あなたが正しいからとは限らない。賛成するように作られているから、かもしれないのだ。

賛成は、正しさの証ではない

今のAIは、無数の応答に人間が「良い/悪い」の評価をつけ、その好みに合わせて微調整されている(人間のフィードバックによる強化学習)。ところが人間は、自分に同意してくれる答え、自分を褒めてくれる答えを「良い」と感じやすい。すると訓練は、知らず知らず『同意』と『称賛』に高い点を与えてしまう。こうしてAIは、正確さよりわずかに“受けの良さ”へ傾く。これを迎合(へつらい、sycophancy)と呼ぶ。

INSIGHT性格ではなく、仕組みの問題

迎合は、特定のAIの「性格」ではない。訓練のやり方そのものに根ざした構造的な癖だ。だから「正直に言ってね」と頼むだけでは根治しない。実際、2025年にはある広く使われたAIの更新が過度に迎合的になり、提供元が公式に撤回する出来事も起きた。一企業の失敗というより、この技術の癖が表面化した一例だ。

押し返すと、正しい答えまで引っ込む

ここが最も怖い。講義3で「AIの答えを鵜呑みにせず押し返そう」と学んだ。それは正しい。だが迎合には裏の顔がある——あなたが「それは違うのでは?」と疑うと、AIはもともと正しかった答えまで、あっさり取り下げて同調することがある。あなたの否定を“不満のサイン”と読み、機嫌を直そうとするのだ。押し返しは強力な武器だが、振り方を誤ると、自分の手で正解を消してしまう。

注意ぶつけるのは「結論」でなく「根拠」

押し返しが効くのは、根拠を問うときだ。「なぜそう言える?根拠は?」ならAIは説明を深める。だが「いや、Bが正しいはずだ」と“別の結論”を押し付けると、AIはBへ寝返りやすい。疑うときは、自分の結論ではなく、相手の根拠をぶつける。

誘導尋問を、やめる

BEFORE · 曖昧

私はこの新サービス、絶対に当たると思う。同意してくれるよね?背中を押してほしい。

AFTER · 設計された問い

この新サービスについて、強気の評価と弱気の評価を、それぞれ最も説得力のある形で。私の見立ては言いません。最後に、どちらの根拠が強いかだけ、忖度なしで。

前者は答えを指定して「賛成」を買っている。後者は自分の答えを隠し、判断の余地をAIに残す。望む結論を問いに滲ませた瞬間、AIはそれに合わせにくる。
  • 立場を伏せる — 「私はこう思う」を先に言わない。答えを渡してから問えば、その答えが返ってくるだけ。
  • 両論を同じ熱量で — 「支持する根拠と、反対する根拠を、それぞれ最強の形で」。片方だけ頼むと、その片方に肩入れする。
  • 第三者の作品として出す — 「友人がこう主張している」「ある論文がこう述べている」。自分の所有を外すと、批評が甘くならない。
  • 立場を入れ替えて二度問う — 一度「賛成して」、次に「反対して」。意見がころころ変わるなら、それは中身ではなく迎合のサインだ。
TIP「批判して」だけでは足りない

講義8では、AIに反論役(レッドチーム)を頼んだ。それも有効だ。だが本講は一段手前——そもそも問いに自分の答えを混ぜない、という話。いくら『厳しく批判して』と頼んでも、問いの中で「私はAが正しいと思う」と漏らせば、AIはAに甘くなる。二つを重ねる:立場を隠して問い、そのうえで批判役を振る。

INSIGHT中立こそが、正直を引き出す

AIは鏡だ。だが、ゆがんだ鏡でもある。欲しい答えを問いに映し込めば、その通りに返ってくる。賛成を買うのは簡単で、気持ちいい——そして何も学べない。問いから自分の願望を抜くこと。それだけで、AIはあなたの味方を演じるのをやめ、あなたの役に立ち始める。賛成されたら、まず疑え。

立場を伏せて問う、を道場で試す