논문) Why Language Models Hallucinate-OPENAI 논문 살펴보기

관심있는 주제/Paper

논문) Why Language Models Hallucinate-OPENAI 논문 살펴보기

데이터분석뉴비 2025. 9. 15. 08:12

결론: 환각 없는 언어 모델은 불가능하다

최신 연구(OpenAI Kalai et al., 2025 외)에 따르면, 환각(hallucination)은 버그가 아니라 언어 모델 구조에서 필연적으로 발생하는 통계적 현상이다.

환각(Hallucination): LLM이 실제 데이터에 근거하지 않은 출력을 생성하는 것.
특징: 문법·맥락은 자연스럽지만 사실성(factuality)이 결여됨.
위험: 의료 진단, 법률 상담, 금융 자문 등에서 잘못된 의사결정을 초래할 수 있음.

즉, Hallucination-free 모델은 이론적으로 불가능하며, 우리가 할 수 있는 것은 환각을 관리·완화(mitigation) 하는 것뿐이다.

1. 왜 불가능한가? (이론적 근거)

Cross-Entropy 학습 한계
- 모델은 항상 “가장 가능성 높은 토큰”을 생성 → 불확실할 때도 무언가를 말함.
평가 구조의 편향
- Accuracy 기반 평가에서 “모른다(IDK)”는 보상받지 못함 → 추측을 강화.
데이터 희소성
- 특정 사실(singleton fact)은 데이터에 거의 등장하지 않아 확률적으로 맞히기 불가능.
Kalai & Vempala (2024)
- 단 한 번만 등장한 사실은 재현 확률이 구조적으로 낮다는 수학적 증명.
결론: 에러율을 0으로 만드는 것은 불가능 → 따라서 “환각 제로 모델”은 존재할 수 없음.

2. 연구가 보여준 사례

OpenAI Kalai et al., 2025
환각은 binary classification error와 유사, 추측을 강제하는 훈련·평가 설계 탓.
Lei Yu et al., 2024
환각은 특정 뉴런/레이어에서 factual 신호가 약해지는 내부 메커니즘 실패와 연결.

3. 가능한 해결책 (완전 제거가 아닌 완화)

평가 개선: “모른다”를 허용하는 metric 도입.
불확실성 표현: confidence score, semantic entropy, IDK 응답.
환각 검출: FactCheckMate 등 hidden state 기반 사전 탐지.
지식 증강 (RAG): 외부 DB·검색으로 fact grounding.
Representation Repair: 특정 attention head/뉴런 수정으로 factual 강화.

4. 앞으로의 과제

Trade-off: 환각 억제 ↔ 응답 유용성 사이의 균형 찾기.
사용자 경험: 불확실성 신호를 자연스럽게 전달하는 UX 필요.
멀티모달 환각: 텍스트·이미지 결합 모델에서 새로운 환각 유형 대응.

5. 핵심 메시지

환각은 피할 수 없는 구조적 산물이다.

목표는 “없애기”가 아니라 “관리하기”.
출처 확인, 불확실성 표현, 검출 메커니즘, 외부 지식 활용이 필수적이다.
결국, “AI가 틀릴 수 있다”는 전제를 바탕으로 신뢰할 수 있는 사용 습관과 아키텍처 설계가 필요하다.

환각 최소화를 위한 활용 전략

1. 개발자 입장 (LLM 시스템 설계·개발자)

RAG(Retrieval-Augmented Generation) 적극 활용
- 모델이 스스로 “기억”에 의존하기보다, 외부 지식베이스/검색으로 grounding.
- 특히 도메인 특화(의료, 금융 등)에서는 반드시 필요.
불확실성 신호 노출
- 모델 출력에 confidence score, semantic entropy, “모른다” 응답 옵션을 추가.
- UI/API에서 이를 그대로 사용자에게 전달.
후처리 검증 파이프라인 구축
- Fact-check 모듈, 규칙 기반 필터, 검증용 서브 모델 등으로 2차 필터링.
- 예: FactCheckMate처럼 hidden state 기반 환각 예측.
출력 제한 (Constrained Generation)
- 스키마 기반 응답(JSON schema, structured output)으로 범위를 좁혀 오류 가능성 최소화.
Human-in-the-Loop
- 중요한 의사결정(보험 언더라이팅, 의료 조언 등)에는 반드시 전문가 검증 절차 포함.

2. 일반 사용자 입장 (일상 활용자)

출처 확인 습관화
- 모델이 말한 사실은 반드시 다른 출처(검색, 공식 문서)로 교차 검증.
- “AI가 말했다=사실”이 아님을 항상 인지.
질문 방식 개선
- 구체적이고 맥락이 분명한 질문 → 환각 확률 낮아짐.
- 모호하거나 지나치게 열린 질문은 환각을 유발하기 쉬움.
불확실성에 대비
- 모델 답변이 이상하게 확신에 차 있을 때 “정말 그런가요?”라고 재질문.
- “모른다”라고 답변할 수 있는지 물어보기.
비판적 사고 유지
- AI의 답변을 1차 초안, 아이디어 브레인스토밍 도구로 활용.
- 최종 판단은 반드시 본인 또는 전문가에게 맡기기.
고위험 영역 주의
- 의료·법률·재정 관련 질문은 참고용으로만 → 실제 결정은 반드시 전문가 상담 필요.

최종 요약

개발자: 구조적으로 환각을 억제할 수 있는 아키텍처(RAG, Fact-check, Uncertainty 표현)를 반드시 붙여라.
일반 사용자: 환각을 인지하고, “출처 확인 + 비판적 사고 + 고위험 주제에서 전문가 검증”을 습관화하라.

생각 정리

개인적으로 환각이라는 게 사실을 기반으로 한 정보를 참고해서 만들어야 할 경우에는 조심해야할 영역이지만 창의적이거나 다양한 발상이 필요할 때는 통계적인 사실을 기반으로 다양한 것이 나오게 하는 것도 사람에게는 굉장히 쓸모 있는 것으로 생각된다.

1. 필요한 영역 vs 그렇지 않은 영역

필수적으로 환각 억제가 필요한 영역
- 의료, 법률, 금융, 보험 언더라이팅, 과학 데이터 분석 등
- → 사실성(factuality)과 신뢰성이 최우선, 잘못된 추측은 치명적.
환각 억제가 덜 필요한 영역
- 창작, 브레인스토밍, 마케팅 카피, 게임 스토리텔링, 예술적 아이디어 등
- → 오히려 “틀린 말 같은 창의적 발상”이 가치를 가짐.

즉, 도메인별로 환각 억제 수준을 조절하는 게 합리적입니다.

2. 모드 전환을 통해 균형을 가지기

그래서 결국 어렵지만 모드를 또 하나 분리해서 어떻게 보면 기존에 나온 것처럼 레드팀과 같은 안전 필터링과는 별도로 모드가 있어서 보다 자유롭게 말하는 것과 진짜 사실을 근거로 말하는 경우를 나누는 것도 필요해보인다..

도메인 맞춤형 설계가 필요
- 의료/법률 → 환각 억제 우선 (RAG, fact-check 필터 필수)
- 창작/마케팅 → 환각 억제보다 다양성·발산적 사고 유지
모드 전환
- “정확 모드(Strict Mode)” vs “창의 모드(Creative Mode)”를 사용자/개발자가 선택할 수 있도록 설계하는 것이 이상적.
장기적 방향
- 완벽한 환각 제거는 불가능하므로, 맥락에 따라 제어할 수 있는 시스템이 가장 현실적이고 합리적인 접근.

출처

https://openai.com/ko-KR/index/why-language-models-hallucinate/

https://arxiv.org/abs/2504.11346

Seedream 3.0 Technical Report

We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained ty

arxiv.org

저작자표시 (새창열림)