관심있는 주제/Paper

논문) Why Language Models Hallucinate-OPENAI 논문 살펴보기

데이터분석뉴비 2025. 9. 15. 08:12
728x90

결론: 환각 없는 언어 모델은 불가능하다

최신 연구(OpenAI Kalai et al., 2025 외)에 따르면, 환각(hallucination)은 버그가 아니라 언어 모델 구조에서 필연적으로 발생하는 통계적 현상이다.

  • 환각(Hallucination): LLM이 실제 데이터에 근거하지 않은 출력을 생성하는 것.
  • 특징: 문법·맥락은 자연스럽지만 사실성(factuality)이 결여됨.
  • 위험: 의료 진단, 법률 상담, 금융 자문 등에서 잘못된 의사결정을 초래할 수 있음.


즉, Hallucination-free 모델은 이론적으로 불가능하며, 우리가 할 수 있는 것은 환각을 관리·완화(mitigation) 하는 것뿐이다.


1. 왜 불가능한가? (이론적 근거)

  • Cross-Entropy 학습 한계
    • 모델은 항상 “가장 가능성 높은 토큰”을 생성 → 불확실할 때도 무언가를 말함.
  • 평가 구조의 편향
    • Accuracy 기반 평가에서 “모른다(IDK)”는 보상받지 못함 → 추측을 강화.
  • 데이터 희소성
    • 특정 사실(singleton fact)은 데이터에 거의 등장하지 않아 확률적으로 맞히기 불가능.
  • Kalai & Vempala (2024)
    • 단 한 번만 등장한 사실은 재현 확률이 구조적으로 낮다는 수학적 증명.
  • 결론: 에러율을 0으로 만드는 것은 불가능 → 따라서 “환각 제로 모델”은 존재할 수 없음.

2. 연구가 보여준 사례

  • OpenAI Kalai et al., 2025
    환각은 binary classification error와 유사, 추측을 강제하는 훈련·평가 설계 탓.
  • Lei Yu et al., 2024
    환각은 특정 뉴런/레이어에서 factual 신호가 약해지는 내부 메커니즘 실패와 연결.

3. 가능한 해결책 (완전 제거가 아닌 완화)

  • 평가 개선: “모른다”를 허용하는 metric 도입.
  • 불확실성 표현: confidence score, semantic entropy, IDK 응답.
  • 환각 검출: FactCheckMate 등 hidden state 기반 사전 탐지.
  • 지식 증강 (RAG): 외부 DB·검색으로 fact grounding.
  • Representation Repair: 특정 attention head/뉴런 수정으로 factual 강화.

4. 앞으로의 과제

  • Trade-off: 환각 억제 ↔ 응답 유용성 사이의 균형 찾기.
  • 사용자 경험: 불확실성 신호를 자연스럽게 전달하는 UX 필요.
  • 멀티모달 환각: 텍스트·이미지 결합 모델에서 새로운 환각 유형 대응.

5. 핵심 메시지

환각은 피할 수 없는 구조적 산물이다.

  • 목표는 “없애기”가 아니라 “관리하기”.
  • 출처 확인, 불확실성 표현, 검출 메커니즘, 외부 지식 활용이 필수적이다.
  • 결국, “AI가 틀릴 수 있다”는 전제를 바탕으로 신뢰할 수 있는 사용 습관과 아키텍처 설계가 필요하다.

환각 최소화를 위한 활용 전략

1. 개발자 입장 (LLM 시스템 설계·개발자)

  • RAG(Retrieval-Augmented Generation) 적극 활용
    • 모델이 스스로 “기억”에 의존하기보다, 외부 지식베이스/검색으로 grounding.
    • 특히 도메인 특화(의료, 금융 등)에서는 반드시 필요.
  • 불확실성 신호 노출
    • 모델 출력에 confidence score, semantic entropy, “모른다” 응답 옵션을 추가.
    • UI/API에서 이를 그대로 사용자에게 전달.
  • 후처리 검증 파이프라인 구축
    • Fact-check 모듈, 규칙 기반 필터, 검증용 서브 모델 등으로 2차 필터링.
    • 예: FactCheckMate처럼 hidden state 기반 환각 예측.
  • 출력 제한 (Constrained Generation)
    • 스키마 기반 응답(JSON schema, structured output)으로 범위를 좁혀 오류 가능성 최소화.
  • Human-in-the-Loop
    • 중요한 의사결정(보험 언더라이팅, 의료 조언 등)에는 반드시 전문가 검증 절차 포함.

2. 일반 사용자 입장 (일상 활용자)

  • 출처 확인 습관화
    • 모델이 말한 사실은 반드시 다른 출처(검색, 공식 문서)로 교차 검증.
    • “AI가 말했다=사실”이 아님을 항상 인지.
  • 질문 방식 개선
    • 구체적이고 맥락이 분명한 질문 → 환각 확률 낮아짐.
    • 모호하거나 지나치게 열린 질문은 환각을 유발하기 쉬움.
  • 불확실성에 대비
    • 모델 답변이 이상하게 확신에 차 있을 때 “정말 그런가요?”라고 재질문.
    • “모른다”라고 답변할 수 있는지 물어보기.
  • 비판적 사고 유지
    • AI의 답변을 1차 초안, 아이디어 브레인스토밍 도구로 활용.
    • 최종 판단은 반드시 본인 또는 전문가에게 맡기기.
  • 고위험 영역 주의
    • 의료·법률·재정 관련 질문은 참고용으로만 → 실제 결정은 반드시 전문가 상담 필요.

최종 요약

  • 개발자: 구조적으로 환각을 억제할 수 있는 아키텍처(RAG, Fact-check, Uncertainty 표현)를 반드시 붙여라.
  • 일반 사용자: 환각을 인지하고, “출처 확인 + 비판적 사고 + 고위험 주제에서 전문가 검증”을 습관화하라.

생각 정리

개인적으로 환각이라는 게 사실을 기반으로 한 정보를 참고해서 만들어야 할 경우에는 조심해야할 영역이지만 창의적이거나 다양한 발상이 필요할 때는 통계적인 사실을 기반으로 다양한 것이 나오게 하는 것도 사람에게는 굉장히 쓸모 있는 것으로 생각된다. 

1. 필요한 영역 vs 그렇지 않은 영역

  • 필수적으로 환각 억제가 필요한 영역
    • 의료, 법률, 금융, 보험 언더라이팅, 과학 데이터 분석 등
    • → 사실성(factuality)과 신뢰성이 최우선, 잘못된 추측은 치명적.
  • 환각 억제가 덜 필요한 영역
    • 창작, 브레인스토밍, 마케팅 카피, 게임 스토리텔링, 예술적 아이디어 등
    • → 오히려 “틀린 말 같은 창의적 발상”이 가치를 가짐.

즉, 도메인별로 환각 억제 수준을 조절하는 게 합리적입니다.

 

2. 모드 전환을 통해 균형을 가지기

그래서 결국 어렵지만 모드를 또 하나 분리해서 어떻게 보면 기존에 나온 것처럼 레드팀과 같은 안전 필터링과는 별도로 모드가 있어서 보다 자유롭게 말하는 것과 진짜 사실을 근거로 말하는 경우를 나누는 것도 필요해보인다.. 

  • 도메인 맞춤형 설계가 필요
    • 의료/법률 → 환각 억제 우선 (RAG, fact-check 필터 필수)
    • 창작/마케팅 → 환각 억제보다 다양성·발산적 사고 유지
  • 모드 전환
    • “정확 모드(Strict Mode)” vs “창의 모드(Creative Mode)”를 사용자/개발자가 선택할 수 있도록 설계하는 것이 이상적.
  • 장기적 방향
    • 완벽한 환각 제거는 불가능하므로, 맥락에 따라 제어할 수 있는 시스템이 가장 현실적이고 합리적인 접근.

출처

https://openai.com/ko-KR/index/why-language-models-hallucinate/

https://arxiv.org/abs/2504.11346

 

Seedream 3.0 Technical Report

We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained ty

arxiv.org