OpenAI 최신 AI 모델, 더 잦아진 환각 문제?

관리자

OpenAI 최신 AI 모델, 더 잦아진 환각 문제?

OpenAI의 최신 AI 모델 GPT o3와 o4-mini는 이전 모델보다 더 자주 환각을 일으킵니다. 이로 인해 신뢰성 문제가 제기되며, AI의 복잡성이 증가하면서 부정확성도 더욱 자신감 있게 나타납니다. 이는 실제 응용에서 AI의 신뢰성에 대한 우려를 불러일으키고 있습니다.

원문:

AI 환각

(이미지 출처: Shutterstock)

  • OpenAI의 최신 AI 모델인 GPT o3 및 o4-mini는 이전 모델보다 더 자주 환각을 일으킵니다
  • 모델의 복잡성이 증가하면서 더 자신감 있는 부정확성을 초래할 수 있습니다
  • 높은 오류율은 실제 응용에서 AI의 신뢰성에 대한 우려를 제기합니다

뛰어나지만 신뢰할 수 없는 사람들은 소설(및 역사)의 단골 소재입니다. 뉴욕 타임즈에서 공개한 OpenAI의 조사에 따르면, 같은 상관관계가 AI에도 적용될 수 있습니다. 환각, 상상의 사실, 노골적인 거짓말은 AI 챗봇이 만들어질 때부터 존재해 왔습니다. 모델의 개선은 이들의 출현 빈도를 줄이도록 이론상으로는 작용해야 합니다.

OpenAI의 최신 주력 모델인 GPT o3와 o4-mini는 인간의 논리를 모방하기 위해 설계되었습니다. 이전 모델들이 주로 유창한 텍스트 생성에 초점을 맞춘 반면, OpenAI는 GPT o3와 o4-mini를 단계별로 사고하도록 구축했습니다. OpenAI는 o1이 화학, 생물학, 수학 분야에서 박사 과정 학생들의 성과를 대등하거나 초과할 수 있다고 자랑했습니다. 그러나 OpenAI의 보고서는 ChatGPT 응답을 그대로 신뢰하는 사람들에게 불길한 결과를 강조합니다.

OpenAI는 GPT o3 모델이 공인 관련 시험에서 환각을 포함한 빈도가 세 번의 하나라는 것을 발견했습니다. 이는 작년의 이전 o1 모델의 오류율의 두 배에 해당합니다. 더 작은 o4-mini 모델은 유사한 작업에서 48%의 환각 빈도를 보이며 더욱 나쁜 성과를 냈습니다.


당신이 좋아할 만한 기사

SimpleQA 시험에서 일반적인 지식 질문에 대해 시험했을 때, o3의 응답의 51%와 o4-mini의 79%에서 환각이 폭증했습니다. 이는 단순한 시스템 내의 약간의 소음이 아니라 완전한 정체성 위기입니다. 논리 시스템으로 홍보된 것이 답변을 조작하기 전에 적어도 자신의 논리를 두 번 확인해야 한다고 생각할 수 있지만, 실제로는 그렇지 않습니다.

AI 연구 커뮤니티에서 유포되고 있는 하나의 이론은 모델이 더 많은 추론을 시도할수록 오류가 발생할 가능성이 높아진다는 것입니다. 더 단순한 모델들은 높은 신뢰도의 예측에 충실한 반면, 추론 모델들은 여러 가능한 경로를 평가하고, 다양한 사실을 연결하며, 본질적으로 즉흥적으로 접근합니다. 그리고 사실을 둘러싼 즉흥 접근이란 것은 보통 사실을 만들어낸다는 것을 나타냅니다.

허구적 기능

상관관계가 인과 작용은 아니며, OpenAI는 뉴욕 타임즈에 환각의 증가는 추론 모델이 본질적으로 더 나쁘기 때문이 아닐 수 있다고 말했습니다. 대신에, 단지 그들이 더 길고 모험적인 답변을 만들 수 있다는 것입니다. 새로운 모델들은 예측 가능한 사실을 반복하는 것이 아니라 가능성을 추측하고 있기 때문에, AI에게는 이론과 조작된 사실 사이의 경계가 흐려질 수 있습니다. 불행히도, 그러한 가능성 중 일부는 현실에서 완전히 벗어난 것입니다.

여전히, 더 많은 환각은 OpenAI나 Google, Anthropic과 같은 경쟁자들이 그들의 가장 진보된 모델에서 원하는 것의 정반대입니다. AI 챗봇을 도우미와 조종사로 부르는 것은 그들이 도움을 주기 위함이지 위험을 초래하는 것이 아닙니다. 이미 변호사들은 ChatGPT를 사용하고 가상의 법원 인용을 알아차리지 못해 곤경에 처했습니다. 더 낮은 위험 상황에서 그러한 오류가 얼마나 많은 문제를 일으켰는지는 알 수 없습니다.

AI 시스템이 교실, 사무실, 병원 및 정부 기관에 도입되면서 사용자가 문제를 겪을 기회가 빠르게 확장되고 있습니다. 정교한 AI는 구직 지원서를 초안하거나 청구 문제를 해결하거나 스프레드시트를 분석하는 데 도움이 될 수 있지만, 역설적으로 AI가 더 유용해질수록 오류의 여지가 줄어듭니다.

사람들이 당신의 말을 두 번 확인하는 데 같은 시간을 소비하도록 만들어서는 안 됩니다. GPT o3는 코딩과 논리에서 놀라운 업적을 보여왔습니다. 특정 면에서는 많은 인간보다 뛰어날 수도 있습니다. 문제는 AI가 에이브러햄 링컨이 팟캐스트를 진행했다고 착각하거나 물이 섭씨 80도에서 끓는다고 주장하는 순간 신뢰성의 환상이 무너진다는 것입니다.

이 문제가 해결되기 전까지는 AI 모델의 응답을 접할 때는 항상 소금을 한 스푼 듬뿍 넣어 받아들여야 합니다. 때로는 ChatGPT가 우리가 참석한 수많은 회의에서 자신만만한 허튼소리를 하는 그 귀찮은 사람처럼 보일 때가 있습니다.

당신이 또한 좋아할 만한 기사

※출처: TechRadar

이 글에는 제휴 링크가 포함되어 있을 수 있으며 파트너스 활동을 통해 일정액의 수수료를 업체로 부터 받을 수 있습니다. 구매자분에게는 추가 비용이 발생하지 않습니다. 이 사이트의 정보는 정보 전달 목적으로만 제공되며 어떠한 보장도 제공하지 않습니다.
※ 파트너스 제휴는 블로그 운영에 있어 더 나은 컨텐츠 제작에 큰 도움이 됩니다.

댓글 남기기