GPT-5 할루시네이션, 정말 줄었을까?

“2025년 8월, 드디어 GPT-5가 공개됐습니다.
AI 커뮤니티는 물론 전 세계가 들썩였죠.”
이날, 마침 새로운 GPT-5를 사용해 볼 기회가 있었어요.
“이번엔 과연 얼마나 달라졌을까?” 하는 기대감에 바로 테스트를 시작했습니다.
▼ GPT5 성능에 대해서 알고 싶으신가요?
첫인상 — 감성은 줄었지만, 정확성은?

GPT-5를 처음 써본 느낌은 조금 의외였습니다.
대화가 예전보다 차갑고 형식적인 느낌이었어요.
마치 지식은 가득하지만, 감정이 덜 실린 박사님과 얘기하는 기분이랄까요?
그런데 성능 수치에선 확실한 변화가 있었습니다.
OpenAI는 이번 GPT-5가 할루시네이션(Hallucination),
즉 사실이 아닌 내용을 진짜처럼 말하는 오류를 45% 이상 줄였다고 밝혔습니다.
특히 Thinking 모드에서는 최대 65% 감소했다고 하죠.
그리고 실제로 경험해 본 결과,
할루시네이션이 완전히 보이지 않았습니다.
전부 논리와 수치 계산으로 예측 가능성을 포함하고 있었어요.
그렇지만, 어떻게 보면 창의력이 줄었다는 평가로 볼 수도 있지요.
세상은 보이지 않는 힘으로 움직이기도 하니까요.
공식 벤치마크 결과 — 숫자로 확인하기
공개된 벤치마크를 보면,
- LongFact-Concepts: 0.7%
- LongFact-Objects: 0.8%
이전 모델(o3)에서 각각 4.5%, 5.1%였던 걸 생각하면 큰 폭의 개선입니다.
확실히 GPT-5는 ‘사실성’ 측면에서 더 신중해진 모습이에요.
어떤 분은 인터뷰에서 90%나 줄었다고 느낀다고 말하기도 했습니다.
제가 보기에도, 체감상으로는 거의 없다고 봐도 될 것 같아요.
다만, 다양한 가능성이 있는 분야에서는 틀릴 가능성도 있으나,
이것은 할루시네이션이라기 보단, 인공지능의 성능 부족이라고 보면 되겠어요.
하지만, 아직도 완벽하진 않다

재밌는 건, 여전히 틀리는 순간이 있다고 말씀드렸는데요.
가디언 보도에 따르면 GPT-5가
“blueberry에 B가 세 개”라거나,
존재하지 않는 주(州)를 만들어내는 등
기초적인 오류를 범한 사례도 보고됐습니다.
즉, 할루시네이션이 줄어들긴 했지만 완전히 사라진 건 아니다는 거죠.
그렇지만, 기사라는 게 다소 사실 근거가 부족하기도 하고,
직접 ChatGPT5를 경험해 보는 게 확실한 방법일 것 같아요.
결론 — 똑똑해진 건 맞지만, 항상 검증은 필수

GPT-5는 확실히 더 정확해졌고, Thinking 모드에선 그 변화가 뚜렷합니다.
하지만 아직도 틀릴 수 있다는 점을 기억해야 합니다.
결국 언제나 AI의 답변은 ‘참고 자료’로 쓰고,
중요한 결정이나 사실 확인은 스스로 검증하는 습관이 필요합니다.
무엇보다, 사실을 판단할 수 있는 능력을 기르는 게,
인공지능 시대에 유리한 자질이 아닐까요?
오늘은 ChatGPT5 할루시네이션에 대해서 알아보았습니다.
이번에도 함께해 주셔서 감사합니다.
“여러분은 GPT-5 써보면서 어떤 변화 느끼셨나요?
댓글로 의견을 공유해 주세요!”
오늘은 할루시네이션에 대해서 알아보았어요 🙂
앞으로도 AI 관련 정보 많이 다뤄 볼게요!