GPT-5のハルシネーション、本当に減ったのでしょうか?

「2025年8月、ついにGPT-5が公開されました。
AIコミュニティはもちろん、世界中が沸き立ちました。」
この日、ちょうど新しいGPT-5を試す機会がありました。
「今回はいったいどれほど変わったのだろう?」という期待感から、すぐにテストを始めました。
▼ GPT5の性能について知りたいですか?
第一印象――情緒は減ったが、正確性は?

GPT-5を初めて使った感想は、少し意外でした。
会話が以前より冷たく、形式的に感じられました。
知識は豊富なのに、感情があまり乗っていない博士と話しているような感覚でしょうか。
しかし、性能指標では確かな変化がありました。
OpenAIは、今回のGPT-5がハルシネーション(Hallucination)、
つまり事実ではない内容を本当のように語ってしまう誤りを45%以上削減したと明らかにしました。
特にThinkingモードでは最大65%減少したそうです。
そして実際に体験してみた結果、
ハルシネーションはまったく見られませんでした。
すべて論理と数値計算に基づき、予測可能性を含んでいました。
ただし、見方によっては創造性が落ちたという評価にもなり得ます。
世界は目に見えない力で動くこともありますから。
公式ベンチマーク結果――数字で確認する
公開されたベンチマークを見ると、
- LongFact-Concepts: 0.7%
- LongFact-Objects: 0.8%
以前のモデル(o3)ではそれぞれ4.5%、5.1%だったことを考えると、大幅な改善です。
確かにGPT-5は「事実性」の面で、より慎重になった印象です。
ある方はインタビューで、90%も減ったように感じると話していました。
私の感覚でも、体感としてはほとんどないと言ってよさそうです。
ただし、さまざまな可能性がある分野では間違える可能性もありますが、
それはハルシネーションというより、AIの性能不足と捉えるのがよいでしょう。
しかし、まだ完璧ではない

興味深いのは、まだ間違える瞬間があるとお伝えしましたが、
ガーディアンの報道によれば、GPT-5が
「blueberryにはBが3つある」と言ったり、
存在しない州を作り出したりするなど、
基礎的な誤りを犯した事例も報告されています。
つまり、ハルシネーションは減ったものの、完全に消えたわけではないということです。
とはいえ、記事というものは根拠がやや乏しいこともありますし、
実際にChatGPT5を体験してみるのが確実な方法だと思います。
結論――賢くなったのは確かですが、検証は常に必須です

GPT-5は確実により正確になり、Thinkingモードではその変化がはっきりしています。
ただし、まだ間違える可能性があることは覚えておく必要があります。
結局のところ、AIの回答は常に「参考資料」として扱い、
重要な判断や事実確認は自分で検証する習慣が必要です。
何より、事実を見極める力を養うことが、
AI時代において有利な資質ではないでしょうか。
本日はChatGPT5のハルシネーションについて見てきました。
今回もご一緒いただき、ありがとうございました。
「皆さんはGPT-5を使って、どんな変化を感じましたか?
コメントでご意見を共有してください!」
