GPT-5のハルシネーションはなぜ起き、どう減らすのか？

「2025年8月、ついにGPT-5が公開されました。
AIコミュニティはもちろん、世界中が沸き立ちました。」

この日、ちょうど新しいGPT-5を試す機会がありました。
「今回はいったいどれほど変わったのだろう？」という期待感から、すぐにテストを始めました。

▼ GPT5の性能について知りたいですか？

ChatGPT5 출시, 오히려 성능이 하락된 것 같을 때 팁

第一印象――情緒は減ったが、正確性は？

GPT-5を初めて使った感想は、少し意外でした。
会話が以前より冷たく、形式的に感じられました。
知識は豊富なのに、感情があまり乗っていない博士と話しているような感覚でしょうか。

しかし、性能指標では確かな変化がありました。
OpenAIは、今回のGPT-5がハルシネーション(Hallucination)、
つまり事実ではない内容を本当のように語ってしまう誤りを45%以上削減したと明らかにしました。
特にThinkingモードでは最大65%減少したそうです。

そして実際に体験してみた結果、
ハルシネーションはまったく見られませんでした。
すべて論理と数値計算に基づき、予測可能性を含んでいました。
ただし、見方によっては創造性が落ちたという評価にもなり得ます。
世界は目に見えない力で動くこともありますから。

公式ベンチマーク結果――数字で確認する

公開されたベンチマークを見ると、

LongFact-Concepts: 0.7%
LongFact-Objects: 0.8%

以前のモデル(o3)ではそれぞれ4.5%、5.1%だったことを考えると、大幅な改善です。
確かにGPT-5は「事実性」の面で、より慎重になった印象です。

ある方はインタビューで、90%も減ったように感じると話していました。
私の感覚でも、体感としてはほとんどないと言ってよさそうです。
ただし、さまざまな可能性がある分野では間違える可能性もありますが、
それはハルシネーションというより、AIの性能不足と捉えるのがよいでしょう。

しかし、まだ完璧ではない

興味深いのは、まだ間違える瞬間があるとお伝えしましたが、
ガーディアンの報道によれば、GPT-5が
「blueberryにはBが3つある」と言ったり、
存在しない州を作り出したりするなど、
基礎的な誤りを犯した事例も報告されています。

つまり、ハルシネーションは減ったものの、完全に消えたわけではないということです。

とはいえ、記事というものは根拠がやや乏しいこともありますし、
実際にChatGPT5を体験してみるのが確実な方法だと思います。

結論――賢くなったのは確かですが、検証は常に必須です

GPT-5は確実により正確になり、Thinkingモードではその変化がはっきりしています。
ただし、まだ間違える可能性があることは覚えておく必要があります。

結局のところ、AIの回答は常に「参考資料」として扱い、
重要な判断や事実確認は自分で検証する習慣が必要です。

何より、事実を見極める力を養うことが、
AI時代において有利な資質ではないでしょうか。

本日はChatGPT5のハルシネーションについて見てきました。
今回もご一緒いただき、ありがとうございました。

「皆さんはGPT-5を使って、どんな変化を感じましたか？
コメントでご意見を共有してください！」

GPT-5のハルシネーション、本当に減ったのでしょうか？

第一印象――情緒は減ったが、正確性は？

公式ベンチマーク結果――数字で確認する

しかし、まだ完璧ではない

結論――賢くなったのは確かですが、検証は常に必須です

🫂サム・アルトマンへの手紙:あなたを理解できるような気がします。

🤖 AIと共に作った私の感性ルーティン – イッティピと成長する一日

🤖 AIが提案してくれた“人生ヘア”！美容室に行く前に「AIヘア提案」が必須な理由

😌 人工知能時代が到来したとき、光を放つ人間の資質があります

🖋 GPTとブログ自動化、これくらいなら執筆は半分終わったも同然です

🔥【ある華金の気づき：ChatGPT 5.2が投げかけたAGIの善悪についての断想】

コメントを残すコメントをキャンセル

第一印象――情緒は減ったが、正確性は？

公式ベンチマーク結果――数字で確認する

しかし、まだ完璧ではない

結論――賢くなったのは確かですが、検証は常に必須です

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル