AI 일반 지능 측정의 새로운 기준, ARC-AGI-2 발표

관리자

AI 일반 지능 측정의 새로운 기준, ARC-AGI-2 발표

저명한 AI 연구원 François Chollet가 공동 설립한 비영리 단체인 Arc Prize Foundation은 화요일 블로그 게시물에서 주요 AI 모델의 일반 지능을 측정하기 위한 새로운 도전적인 시험을 만들었다고 발표했습니다.

현재까지 ARC-AGI-2라는 새로운 시험은 대부분의 모델을 난처하게 만들었습니다.

Arc Prize 리더보드에 따르면 OpenAI의 o1-pro와 DeepSeek의 R1과 같은 ‘추론’ AI 모델은 ARC-AGI-2에서 1%에서 1.3% 사이의 점수를 기록하고 있으며, GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash를 포함한 강력한 비추론 모델도 약 1%의 점수를 얻고 있습니다.

ARC-AGI 시험은 AI가 다양한 색상의 사각형 집합에서 시각적 패턴을 식별하고 올바른 ‘정답’ 그리드를 생성해야 하는 퍼즐과 같은 문제로 구성되어 있습니다. 이 문제들은 AI가 이전에 본 적 없는 새로운 문제에 적응하도록 설계되었습니다.

Arc Prize Foundation은 ARC-AGI-2의 인간 기준을 설립하기 위해 400명이 넘는 사람들에게 시험을 보게 했습니다. 평균적으로 이 사람들로 구성된 ‘패널’은 시험 질문의 60%를 맞혔으며, 이는 모든 모델의 점수보다 훨씬 높았습니다.

Screenshot 2025 03 24 at 3.16.48PMArc-AGI-2의 예시 질문 (출처: Arc Prize).

Chollet는 X에 게시된 글에서 ARC-AGI-2가 시험의 첫 번째 버전인 ARC-AGI-1보다 AI 모델의 실제 지능을 더 잘 측정한다고 주장했습니다. Arc Prize Foundation의 시험은 AI 시스템이 교육받은 데이터 외에서도 새로운 기술을 효율적으로 습득할 수 있는지를 평가하는 것을 목표로 하고 있습니다.

Chollet는 ARC-AGI-1과는 달리, 새로운 시험은 AI 모델이 ‘무차별 대입(막대한 컴퓨팅 능력)’을 통해 해답을 찾는 것을 막는다고 말했습니다. Chollet는 이전에 이것이 ARC-AGI-1의 주요 결점이라고 인정한 바 있습니다.

첫 번째 시험의 결점을 해결하기 위해 ARC-AGI-2는 새 지표인 효율성을 도입하고, 모델들이 암기에 의존하지 않고 즉석에서 패턴을 해석하도록 요구합니다.

Arc Prize Foundation 공동 설립자인 Greg Kamradt는 블로그 게시물에서 “지능은 문제를 해결하거나 높은 점수를 얻는 능력만으로 정의되지 않습니다. 그 능력을 획득하고 사용하는 효율성은 중요하고 결정적인 요소입니다. 주요 질문은 ‘AI가 과제를 해결하기 위한 기술을 획득할 수 있는가?’에 그치지 않고, ‘그 효율성이나 비용은 어떠한가?’입니다.”

ARC-AGI-1은 거의 5년 동안 아무도 깨지 못하다가 2024년 12월에 OpenAI가 고급 추론 모델인 o3를 발표하면서 모든 다른 AI 모델을 능가하며 평가에서 인간 성과와 맞먹는 성과를 냈습니다. 그러나 당시의 우리는, ARC-AGI-1에서의 o3의 성과 향상이 상당한 비용이 든다고 언급했습니다.

OpenAI의 o3 모델 버전인 o3(low)는 ARC-AGI-1에서 새로운 기록을 세우며 75.7%의 점수를 얻었지만, ARC-AGI-2에서는 작업당 $200의 컴퓨팅 비용을 사용하여 겨우 4%만을 기록했습니다.

Screenshot 2025 03 24 at 3.18.29PMFrontier AI 모델의 ARC-AGI-1 및 ARC-AGI-2에 대한 성능 비교 (출처: Arc Prize).

ARC-AGI-2의 출현은 많은 기술 산업 관계자들이 AI 발전을 측정하기 위한 새로운, 포화되지 않은 기준을 요구하는 가운데 이루어졌습니다. Hugging Face의 공동 설립자인 Thomas Wolf는 최근 TechCrunch에 AI 산업이 이른바 인공 일반 지능의 주요 특성을 측정하기 위한 충분한 시험이 없다고 말했습니다.

새로운 기준과 함께 Arc Prize Foundation은 ARC-AGI-2 시험에서 $0.42 이하의 비용으로 85%의 정확도를 달성하도록 개발자들에게 도전하는 2025 Arc Prize 대회를 발표했습니다.

이 글에는 제휴 링크가 포함되어 있을 수 있으며 파트너스 활동을 통해 일정액의 수수료를 업체로 부터 받을 수 있습니다. 구매자분에게는 추가 비용이 발생하지 않습니다. 이 사이트의 정보는 정보 전달 목적으로만 제공되며 어떠한 보장도 제공하지 않습니다.
※ 파트너스 제휴는 블로그 운영에 있어 더 나은 컨텐츠 제작에 큰 도움이 됩니다.

관련기사

댓글 남기기