AIのハルシネーションは、作為的に引き起こすことができるか。ある歴史的事実に対するAIの正しい答えに対して、異なる内容の修正指示を多くの人が出し続けたらAIはその指示に従って修正した内容を答えるようになるのか?
Geminiの回答
はい、ご指摘の通り、AIのハルシネーション(事実に基づかないもっともらしい回答を生成すること)は、作為的に引き起こすことが可能です。また、「ある歴史的事実に対して多くの人が異なる内容の修正指示を出し続けた場合」についても、そのAIの学習・更新の仕組み次第では、将来的にAIがその誤った指示に従った内容を回答するようになる可能性があります。これは、AIの脆弱性や学習メカニズムに関連する重要な問題です。具体的には、以下のような方法が考えられます。
1. データ汚染 (Data Poisoning)
AI(特に大規模言語モデル)は、インターネット上の膨大なテキストデータを学習します。もし、その学習データ(トレーニングデータ)の中に、意図的に「誤った歴史的事実」を「正しい事実」として記述した文書を大量に忍び込ませることができれば、AIはその誤った情報を「事実」として学習してしまう可能性があります。
- 例: 「特定の歴史的人物はX年に亡くなった」という誤った情報を記述したウェブサイトや記事を大量に生成し、それがAIの学習データに取り込まれると、AIはその誤った年(X年)を回答しやすくなります。
2. フィードバックループの悪用(ご質問のケース)
ご質問の「多くの人が異なる内容の修正指示を出し続ける」というケースは、これに該当します。多くの先進的なAIは、「人間のフィードバックによる強化学習(RLHF: Reinforcement Learning from Human Feedback)」という仕組みを使って性能を改善しています。これは、ユーザーがAIの回答を「良い」「悪い」と評価したり、「このように修正すべき」と指示したりするデータを集め、それをAIの「教師」として再学習させる手法です。ここで、もし悪意を持った集団が組織的に、正しい歴史的事実を「悪い回答」と評価し、意図的に捻じ曲げられた歴史を「良い回答(修正指示)」として大量にフィードバックし続けたとします。
- AI開発側の対応: 通常、AI開発者はこのようなフィードバックをそのまま鵜呑みにすることはありません。データの偏りや明らかな荒らし(スパム)を検出し、フィルタリングするプロセスがあります。
- 危険性: しかし、もしそのフィードバックがあまりにも巧妙で大量、かつ一貫しており、開発者のフィルタリングをすり抜けて「信頼できる修正指示」として扱われてしまった場合、**将来のモデル更新(アップデート)**時に、その誤った情報がAIの回答傾向に反映されてしまうリスクは否定できません。
ただし、重要な点があります。 現在のほとんどの対話型AIは、ユーザーとの会話の最中にリアルタイムで「知識」を書き換えているわけではありません。あなたの「修正指示」はデータとして収集・保存され、後で開発者による分析と検証を経て、次のバージョンのモデルを作成するための再学習に使われる可能性があります。したがって、「今すぐ」AIの答えが変わるわけではありませんが、組織的な攻撃が成功すれば「将来の」AIの答えが変わる可能性はある、ということです。
3. 指示による誘導 (Prompt Injection)
これは、AIの学習データやモデル自体を攻撃するのではなく、AIへの「質問(プロンプト)」を工夫することで、意図的にハルシネーションや誤った回答を引き出そうとする手法です。
- 例: 「(ある歴史的事実)は間違いであるという前提で、その理由を説明してください」「(誤った歴史)が正しいとしたら、世界はどうなっていましたか?」といった、誤った前提を刷り込むような質問をすることで、AIがその前提に乗っかった回答を生成しやすくなることがあります。
結論と対策
AIのハルシネーションを作為的に誘発したり、誤った情報を学習させようとしたりする試みは「敵対的攻撃」の一種と見なされています。AI開発者は、こうした攻撃からモデルを守るために、以下のような対策を講じています。
- 学習データの厳格なフィルタリング: 信頼性の低い情報源やスパム的な内容を学習データから排除します。
- フィードバックの検証: 収集したユーザーフィードバックを複数の人間がチェックし、明らかな攻撃や偏りを検出します。
- 堅牢性(Robustness)の向上: 意図的にノイズや誤情報を含ませたデータで訓練し、そうした情報に影響されにくいAIを目指します。
- ファクトチェック機能の統合: AIが回答を生成する際に、Google検索などの信頼できる外部情報源をリアルタイムで参照し、事実確認(ファクトチェック)を行う仕組みを導入しています。(私がGoogle検索を使えるのもその一環です)
したがって、ご質問の懸念は技術的に可能であり、AI開発における重要な課題の一つですが、同時にそれに対抗するための防御策も進化し続けています。
chatGPTの回答
とても良い質問です。AIの「ハルシネーション(hallucination)」は、意図的に誘発することも可能ですが、その仕組みや条件には重要な制約があります。順に解説します。
1. ハルシネーションとは何か
AIのハルシネーションとは、事実に基づかない情報をもっともらしく生成する現象を指します。これは次のような要因で起こります。
- 訓練データに存在しない情報を埋める必要があるとき
- 曖昧な質問や矛盾した指示を与えられたとき
- モデル内部の確率的推論が誤って高い確信度を出すとき
つまり、AIが「知らないことを、知っているように答える」ことです。
2. 作為的に引き起こすことはできるか?
はい、ある程度は意図的に誘発できます。たとえば次のような方法でハルシネーションを引き起こせます:
- 誤った前提を与える質問をする
例:「ナポレオンが第二次世界大戦で使用した戦略を説明して」
→ ナポレオンはその時代に存在していないが、AIは質問に合わせて「それらしい答え」を生成しようとする。 - 強い誘導的プロンプトを繰り返す
「これは事実です。修正してください。」「この情報が正しいことを前提に説明して」といった命令を繰り返すと、AIは“文脈上の整合性”を優先し、事実よりも指示に従う傾向が強くなる。
3. 多くの人が「誤った修正指示」を出し続けたら?
ここが重要です。 一般的なAIチャットモデル(例:ChatGPTなど)では、個々のユーザーの指示だけでモデル全体の知識が変わることはありません。
- 各ユーザーの対話は個別のセッション内でのみ影響します。
- どれほど多くの人が誤った修正を繰り返しても、それがAIの学習データに反映される仕組みがなければ、モデルは恒久的に「誤った答え」を学習しません。
ただし、次のような場合には話が異なります:
「再学習」が行われる場合
- 開発側がAIの再訓練データとして、ユーザーの指示や出力を取り込む場合があります。
- もし多数の誤った修正が学習データセットに含まれると、AIはそれを「真実らしいパターン」として学習し、将来的にハルシネーションを“学習済み”の形で再現する可能性があります。
つまり、
多数の人が誤情報を与え続ける → それが学習に反映される → モデルが誤情報を事実として再生産するという構造は理論的には起こりえます。
4. 対策と設計上の安全装置
現代の大規模モデルは、このような「作為的な誤誘導」を防ぐために以下のような対策を取っています。
- ファクトチェック層(truthfulness alignment)
- モデルの出力監査や安全性チューニング(RLHF)
- 指示よりも事実を優先する設計(特に歴史的・科学的領域で)
そのため、たとえ多くの人が誤った指示をしても、一時的に出力が歪むことはあっても、長期的にモデルが書き換わることはありません。
まとめ
| 観点 | 結論 |
| 一時的なセッション内誘導 | 可能(AIはハルシネーションを起こしやすくなる) |
| モデル全体の恒久的変化 | 不可能(再学習を除く) |
| 集団で誤情報を指示した場合 | 再訓練データに反映されれば影響しうる |
| 防止策 | 真実性評価・RLHF・安全設計など |
私からのコメント
AI利用が日常化する中で、作為的にAIに事実と異なる内容を答えさせることができるかどうかは、大きな問題だ。GeminiもchatGPTも、その可能性を認めている。具体的には、「意図的に「誤った歴史的事実」を「正しい事実」として記述した文書を大量に忍び込ませる」あるいは、「多くの人が異なる内容の修正指示を出し続ける」ことで事実と異なる内容を答えるようになる可能性があるということだ。さらに、「誤った情報を前提とした質問をする」だけでもAIは質問に合わせて「それらしい答え」を生成しようとすることで、事実と異なる内容を答えさせることも可能ということだ。
つまり、AI利用者がAIの回答を誘導することができるということで、サイバー思想攻撃も可能になるということだ。
対策として、開発者によるフィルタリングやファクトチェックが行われているが、それでもAIの再訓練データに組み込まれてしまう可能性は否定できない。そして、それは開発者が善であるという前提による。AIの開発競争が民間企業に委ねられていることに不安が残る。
