幻覚と現実の狭間で：大規模言語モデルの夢

前回に引き続き、生成AIの基礎知識です。今回はChatGPTのようなAIチャットボットが見せるハルシネーション（幻覚）という現象について、よくある誤解に陥らないように、やさしい言葉でていねいに紹介します。

幻覚（ハルシネーション）とは
「幻覚」はバグではなく、LLM最大の特徴

幻覚（ハルシネーション）とは

AIチャットボットが事実でないことを言う現象を「ハルシネーション」と呼ぶことがあります。この間違いには2つのパターンがあると言われています。

学習データが間違っていた（幻覚ではない）
学習データが不足しているので、根拠のない情報を生成した（幻覚）

例えば「日本ではクリスマスにかぼちゃを食べてお祝いします」という文について考えてみましょう。そのような事実はありませんね。

この文章がもし、学習データに基づいて出力されたのであれば、それは学習したテキストに間違いがあったためで、AIに非はありません。

一方、2番のパターンでは、この文脈に関する十分な学習データがなかったため、AIが根拠のない情報を生成しています。これはAIが「幻覚を見ている」という現象に該当します。

例として、筆者がGPT-4に書かせた「クリスマスかぼちゃ」論を引用します：

日本では、クリスマスにかぼちゃを食べる習慣は、独自の文化的要因により形成されたものです。クリスマスが宗教的な意味合いよりも文化的、商業的なイベントとして捉えられていることから、伝統的なクリスマス料理とは異なる選択がされる余地があります。また、かぼちゃは「冬至」にも食される季節的な食材であり、これがクリスマスにも取り入れられる一因となっています。さらに、ハロウィンとの文化的な連携も影響している可能性があり、これらの要素が融合して、日本独自のクリスマスの祝い方としてかぼちゃを食べる習慣が生まれたと考えられます。

いかがですか。非常にもっともらしいことを言っていて、かなり説得力がありますね。

このような「もっともらしい嘘」に、人間が簡単に騙されてしまった事例が既にいくつもあり、AIチャットボットを使う際はハルシネーションに注意し、必ず事実確認を行うことが重要である、という新たな常識が生まれました。

この流れを受けて「LLMには幻覚の問題がある」と言われることも増えましたが、この表現は不正確で、かつ混乱を招くおそれがあります。詳細は以下で述べますが、らいけんの過去の講演や著書にも同様の不正確な表現があったため、この場を借りてお詫びいたします。

「幻覚」はバグではなく、LLM最大の特徴

前回の記事で「LLMとAIチャットボットの違い」について説明した通り、ChatGPTとは大規模言語モデルそのものを指す言葉ではありません。LLMとAIチャットボットとの違いとは、LLMとはGPT-4やGemini Ultraのような言語モデルのことを指す一方、それらの言語モデルをアシスタントサービスとして製品化したものがChatGPTやGoogle BardのようなAIチャットボットである、ということです。

「LLMには幻覚の問題がある」という表現の問題点は、LLMが何をするための機械であるかという理解が不十分なまま、人間本位の身勝手な解釈をしていることです。

大規模言語モデル（LLM）は学習データに基づき、創造的に「もっともらしい」文章を生成するプログラムです。生成された文章が事実かどうかを判定する機能は組み込まれていませんし、そのように設計されたものではありません。この「文章生成器」が書いた文章に嘘が含まれていたとしても大規模言語モデル自体に非はありませんし、それが標準の機能なのですから、問題ですらありません。

もうお気づきかと思いますが、LLMの仕事は言わば「夢を見る」ことなのです。学習データとプロンプトを手がかりに、新たな文章表現を夢想して生成するように設計されているのですから「幻覚」を見ることはバグではありません。むしろそれこそがLLM最大の特徴なのです。

LLMからすれば事実であろうと非事実であろうと同じように生成するわけで、そのプロセスに差はありません。いつもと同じ仕事をしているのに、事実に反する内容が生み出されたときだけ、急に人間が「嘘じゃないか」と文句を言うわけです。何とも愚かで身勝手な話だと思いませんか。

とはいえ、これが単なる言語モデルではなく、AIチャットボットの挙動となれば話は別です。AIチャットボットはLLMを利用したアシスタントサービスとして売り出している製品ですから、その回答の信頼性は製品の品質そのものと言ってよいでしょう。この場合、事実に反する文章が生成されれば「幻覚の問題が発生した」と言うことができます。

つまり製品としてのAIチャットボット／アシスタントサービスにおいては幻覚は問題であり、対策が必要ですが、テクノロジーの本質としては幻覚を見ることこそが言語モデルの特徴であり、設計通りの振る舞いなのです。