AI의 새로운 도전: 포켓몬을 해결하는 클로드와 제미니의 경쟁

관리자

Updated on:

AI의 새로운 도전: 포켓몬을 해결하는 클로드와 제미니의 경쟁

AI 모델이 포켓몬 게임을 해결하기 위한 중요 도전 과제로 자리 잡았습니다. 클로드와 제미니는 각각의 방법으로 게임을 플레이하며 AI의 문제 해결 능력과 비판적 사고를 테스트합니다. 제미니는 8개의 배지를 획득했지만, 서로 다른 조건에서 실행되는 AI의 성과 비교는 어렵습니다. 이러한 프로젝트는 AI 발전을 보여주는 매력적인 사례입니다.

포켓몬 레드와 블루는 게임 보이에서 가장 많이 팔린 비디오 게임 중 하나이며, 세계 최대의 미디어 프랜차이즈 중 하나에 속합니다. 이제 이 게임이 AI 벤치마크로 사용되고 있으며, 피카츄의 오랜 팬으로서 AI가 이 게임을 해결하려고 노력하는 것을 보는 데 완전히 빠져 있습니다.

아마 클로드 플레이즈 포켓몬에 대해 이미 들어보셨을 겁니다. 그렇지 않다면, 앤트로픽의 AI가 포켓몬 레드를 완료하려고 시도하는 과정을 실시간으로 스트리밍하는 트위치 채널이 있으며, 이 AI는 1996년의 비디오 게임 클래식을 몇 달 동안 플레이해 왔습니다.

저는 이 프로젝트를 얼마 전에 우연히 발견했지만, 구글의 Gemini 2.5 Pro Experimental을 사용하는 또 다른 트위치 라이브 스트림인 Gemini 플레이즈 포켓몬에 대해 듣고 나서야 주목하기 시작했습니다.


당신이 좋아할 수도 있습니다

포켓몬은 대리적 AI 모델을 위한 실질적인 벤치마크가 되었으며, 앤트로픽은 새로운 모델을 발표할 때 3.5에 비해 3.7 소넷이 게임에서 더 깊이 들어갈 수 있는 능력을 강조하기도 했습니다.

구글은 이후 AI 스튜디오 책임자인 로건 킬패트릭이 Gemini 2.5 Pro가 500시간 만에 X에서 5번째 배지를 획득할 수 있다는 능력을 공유하며 포켓몬에 대한 자신의 능력을 선보였습니다.

Gemini 2.5 Pro는 포켓몬을 완료하는 데 큰 진전을 이루고 있습니다! 방금 5번째 배지를 얻었습니다 (다음 최고 모델은 아직 3개만 가지고 있지만, 다른 에이전트 하니스로) 👀 pic.twitter.com/LwIyq64eXTApril 18, 2025

하지만 왜 포켓몬일까요?

포켓몬 레드에서 체크포인트를 사용하는 것이 각 AI 모델의 문제 해결 및 성공에 도달하는 사고 능력을 보여주는 훌륭한 방법이라는 것이 밝혀졌습니다. 게임 보이의 포켓몬은 또한 AI의 비판적 사고와 모호성 속에서 과제를 완료하는 능력을 보는 재미난 방법이 되고 있습니다.

앤트로픽은 “모델이 초점을 유지하고 개방형 목표를 달성하는 능력은 개발자들이 최첨단 AI 에이전트를 폭넓게 구축하는 데 도움이 될 것입니다.”라고 말합니다.

포켓몬 게임을 한 번도 해보지 않았다면, 새로운 몬스터를 잡고 체육관 리더(본질적으로 보스)를 물리치고 8개의 배지를 획득하는 여정을 떠난다고 생각하시면 됩니다. 8개의 배지를 얻게 되면, 엘리트 포(점점 더 어려워지는 포켓몬 트레이너 4명과의 보스 러시)를 물리칠 준비가 됩니다.

흑백이 아닙니다

포켓몬 레드와 블루 게임 보이 박스 아트

(이미지 출처: 닌텐도)

현재 클로드 3.7 소넷은 최근에 막힌 후 재설정되어, Mt. Moon에 있으며, 모델의 최고 성과는 버밀리언 시티에서 3번째 배지를 얻은 것입니다. 반면, 제미니는 이제 포켓몬 블루에서 8개의 배지를 모두 획득하고 빅토리 로드를 탐색하고 있습니다.

그러나 그러한 비교는 제미니 2.5 프로 실험적이 클로드 3.7 소넷보다 포켓몬 게임을 더 잘 한다고 들릴 수 있지만, Lesswrong 사이트의 AI 전문가는 그렇게 명확하지 않다고 설명했습니다.

각 트위치 스트림에는 플레이 스루가 설정된 방식과 이를 실행하는 개발자가 실행과 상호 작용하는 방식 등 다른 조건이 포함되어 있습니다. 포켓몬을 AI 시험 도구로 사용하는 개념에 조금이라도 관심이 있다면, Lesswrong에서 발견할 수 있는 주제에 대한 뛰어난 분석을 읽어보시길 강력히 추천합니다.

“Gemini가 이제 포켓몬에서 클로드보다 나은가?”라는 글에서 저자는 두 스트림의 구현 차이점과 각 AI 모델이 액션을 취하는 방식 및 각각에 주어진 “에이전트 하니스” 때문에 직접적으로 비교할 수 없음을 설명합니다.

에이전트 하니스는 AI 에이전트가 목표를 달성하는 데 도움을 주기 위해 설정된 외부 요소로 생각할 수 있습니다. 경로 탐색에 도움이 되는 도구일 수도 있고, 플레이스루에 접근하는 최적의 방법을 결정하는 추가 정보일 수도 있습니다. 저자는 각 AI 모델이 포켓몬을 플레이하는 정확한 상황에 대한 알려지지 않은 부분들 때문에 어느 쪽이 더 잘하는지 확실히 말할 수 없다고 결론 내립니다.

그렇긴 해도, 포켓몬은 AI의 능력을 실제로 보는 데 매우 재미있는 방법입니다.

6살 아이보다 더 똑똑한가요?

대부분 우리가 어릴 때 했던 게임을 AI가 헤쳐 나가려고 노력하는 모습을 라이브 스트림으로 보는 것은 매우 매력적입니다. 90년대에 태어났다면 포켓몬 레드나 블루가 어린 시절 처음 플레이한 비디오 게임 타이틀일 가능성이 큽니다.

어릴 때, 포켓몬은 어디에서 검색 결과를 빠르게 찾을 수 있는 구글이 없었고, 다음으로 어디로 가야 하는지를 알려줄 ChatGPT도 없었던 시기에 발매되어 흥미로웠습니다. 6살 때 우리는 결국 해결할 수 있었습니다. 하지만 클로드와 제미니는?

AI가 포켓몬을 스트림에서 플레이하는 것을 왜 보는지 이야기하면서 한 레딧 사용자는 “ClaudePlaysPokemon을 꽤 오래 동안 보고 있습니다.”라고 말했습니다.

“이 프로젝트는 확실히 대규모 언어 모델의 약점을 강조하지만, 또한 이상하게 중독성이 있습니다. 그 작은 친구를 응원하고 싶어지죠.”

다른 사람은 “흥미로운 것은 포켓몬이 충분한 시간이 주어지면 RNG가 게임을 이길 수 있는 간단하고 직선적인 게임이라는 것입니다(그리고 이것이 실제로 이루어졌습니다). 그러나 이 게임을 완전히 합리적인 방식으로 플레이하려면 상당한 인지적 구조가 필요하다는 사실이 드러났습니다.”라고 말했습니다.

이 글을 작성하는 시점에, 70명 이상의 사람들이 트위치에서 Claude Plays Pokémon을 보고 있으며, 또 다른 100명 이상이 Gemini Plays Pokémon을 보고 있습니다. 제미니가 클로드보다 먼저 포켓몬 마스터가 될 가능성이 높지만, 이러한 프로젝트는 여행과 현대 기술과 과거의 향수의 완벽한 균형에 더 중점을 두고 있습니다.

당신이 좋아할 수도 있습니다

※출처: TechRadar

관련기사

댓글 남기기