AI 봇 클로드, 포켓몬 게임 도전기: 실패와 가능성

관리자

AI 봇 클로드, 포켓몬 게임 도전기: 실패와 가능성

AI 봇 클로드는 포켓몬 게임 도전에서 실패했지만 가능성을 보여줬습니다. 다양한 전략을 시도하며 개선을 보였고, 이는 AI 발전의 새로운 기준이 될 수 있습니다. 프로젝트는 새로운 모델이 나올 때마다 업데이트되며 지속적으로 평가받을 예정입니다. 허쉬는 장기 계획을 두진 않았지만, 여전히 발전 가능성을 탐구합니다.

“Claude Plays Pokémon”은 AI의 미래를 엿볼 수 있는 기회를 제공하려는 시도로 시작되었으나, 그리 설득력 있는 사례는 아닙니다. 지난 한 달 동안, 트위치(Twitch)에서는 Anthropic의 챗봇이 “포켓몬 레드”를 겨우 겨우 플레이하는 모습을 지켜봤으나, 여러 시도에도 불구하고 30여 년 된 이 게임을 클리어하는 데 실패했습니다. 그러나 프로젝트의 주 개발자인 데이비드 허쉬(David Hershey)는 이 시도가 성공적이었다고 평가합니다.

“클로드가 긴 시간 동안 다양한 상황을 처리하는 방법을 이해할 수 있는 장소를 원했습니다,”라고 허쉬는 영상 통화 중에 설명합니다. 그는 Anthropic에서 고투마켓(go-to-market) 팀의 일원으로서 고객이 자체 에이전트를 개발할 수 있도록 돕는 업무를 하고 있으며, 작년 6월 Anthropic이 3.5 Sonnet을 출시할 즈음에 이 프로젝트를 부업으로 시작했습니다.

프로젝트의 이름에서 알 수 있듯이, 이는 부분적으로 2014년에 등장한 “Twitch Plays Pokémon”에서 영감을 받았습니다. 이 프로젝트에서는 시청자들이 채팅창에 입력하는 명령어만으로 “포켓몬 레드”를 클리어하려는 시도가 진행되었습니다. 허쉬가 포켓몬 리그 챔피언으로 클로드를 만들려고 시도한 최초의 Anthropic 직원은 아니지만, 프로젝트는 그의 참여와 함께 독자적인 생명력을 얻게 되었습니다.

프로젝트 초기에, 클로드가 레드의 집을 나서서 오박사(Professor Oak)를 찾았을 때가 큰 사건이었습니다. “그런 진행을 이루기 위해 엄청난 시간을 투자했습니다,”라고 허쉬는 말합니다. 처음에는 대다수의 회사 직원들이 이 프로젝트에 별 관심이 없었고, Anthropic도 이를 대중에게 공유하려는 계획이 없었습니다.

그러나 허쉬는 Anthropic에서 새로운 모델이 출시될 때마다 이 프로젝트를 다시 검토하는 습관을 갖게 되었고, 최근에 3.7 Sonnet에서도 이를 진행했습니다. “이 새로운 모델이 어떤지를 확인하고, 어떻게 작동하는지를 배우기 위한 방법입니다,”라고 허쉬는 설명합니다. 지금 게임을 플레이하고 있는 3.7 Sonnet에서는 처음으로 “생명력의 징조”를 볼 수 있었습니다.

Anthropic 내부에서는 클로드가 다양한 전략을 시도하고 계획대로 되지 않을 때 접근 방식을 조정하는 데 더 나아질 수 있기를 희망하고 있었습니다. Pokémon Red에서 클로드는 실시간으로 이러한 행동을 보였습니다. “클로드 3.7 Sonnet은 가정에 붙잡혀 있는 시간이 적었습니다,”라고 허쉬는 말합니다. 이전 모델들은 계속해서 잘못된 가정을 하고 그것에 얽매이는 경향이 있었지만, 새로운 모델은 이 문제에서 일부 진전을 보였습니다.

Pokémon Red 같은 게임에서 충성도 높은 팬들에게는 “가정에 덜 얽매이는” 모델이 작고 무의미하게 보일 수 있습니다. 하지만 그것은 클로드 3.7이 추구하는 AI 시스템의 새로운 기준이자 지표입니다.

Claude Plays Pokémon에서 눈에 띄는 두 가지는 허쉬가 Anthropic의 코딩 에이전트를 통해 많은 프로그램을 위임해 프로젝트를 가능하게 했다는 점과, 클로드가 Pokémon Red를 플레이하기 위해 사전 학습이 없었다는 점입니다. 챗봇은 게임의 기본 사항, 체육관 관장 이름, 도전 순서를 알고 있지만, 수십 년간의 게임 지식을 가진 일부 특화된 AI와는 다릅니다. “모델을 게임에 던져두고 아무 가이드 없이 스스로 모든 것을 배우도록 할 수 있습니다,”라고 허쉬는 말합니다.

허쉬는 클로드에게 도움을 주어야 했습니다. 게임의 인터페이스를 해석할 수 있게 도와주는 오버레이 같은 부분입니다. 픽셀 아트는 모든 AI 시스템이 어려워하는 부분이고, 3.7 Sonnet도 예외는 아닙니다. 인간의 상상력은 픽셀 몇 개로 제시된 디테일을 보완하는 데 큰 역할을 합니다. 또한 클로드는 우리가 볼 수 있는 방식으로 “볼” 수 없습니다.

클로드가 주인공 캐릭터를 움직일 때마다 몇 개의 입력을 수행하고, 자신의 위치를 평가합니다. 각 프레임 사이에서 클로드는 감각 입력을 받지 않습니다. 레드가 걷거나, 장애물에 부딪히는 소리를 “듣지” 못합니다. 이러한 클로드의 “시각적 결함”은 게임에서의 어려움의 주요 원인입니다. 허쉬는 화면 해석의 오류를 줄이기 위해 게임의 메모리를 읽을 수 있는 방법을 챗봇에게 제공해야 했습니다.

만약 클로드가 Pokémon Red를 클리어하는 것이 목표였다면, 간단히 할 수 있었을 것입니다. 허쉬는 챗봇을 위한 게임 경로를 프로그래밍할 수 있었지만, 그것은 엄격한 규칙을 얼마나 잘 따를 수 있는지를 시험하는 것에 불과했을 것입니다. “클로드는 그 점에서는 매우 뛰어나다,”라고 허쉬는 말합니다. “우리는 모두 그 사실을 알고 있습니다.”

클로드에 자유를 줌으로써 새로운 모델은 계획 수립과 새로운 전략 개발, 잘못된 가정이 드러났을 때 다른 것을 시도하는 데 더 나은 모습을 보였습니다. 클로드가 게임을 여러 번 도전하면서 개발한 새로운 해결책 중 하나는, 자신의 모든 포켓몬을 기절시키고 무인산(Mt. Moon)에서 탈출하는 방법이었습니다.

하지만, 클로드는 단기 및 장기 계획에서 더 나아질 수 있습니다. 같은 사례에서는 클로드가 무인산의 모든 메모를 삭제했으며, 잘못된 결정의 반복으로 게임 클리어에 실패한 적도 있습니다.

“앞으로 이 프로젝트가 내부적으로 ‘기준’으로 얼마나 유용할지는 모르겠습니다. 클로드가 게임을 클리어하면 평가점은 흥미롭지 않을 수도 있습니다,”라고 허쉬는 인정합니다. “다음 모델에 대한 학습 점이 여전히 많이 남아 있을 수도 있습니다.”

향후 계획에 대해 허쉬는 클로드 플레이 포켓몬에 대한 장기 계획이 없습니다. “이걸 보는데 너무 많은 시간을 보냈어요 – 제 아내는 너무 많은 시간이라고 말할 것입니다,”라며 허쉬는 웃습니다. 그러나 프로젝트를 완전히 닫을 준비가 되어있지 않은 듯한 느낌도 줍니다. “새로운 모델이 나올 때마다 포켓몬과 함께 할 것이고, 아마도 세상에 그것을 보여줄 것입니다.”

앞으로도 Anthropic은 최근 변경 사항을 반영해 Twitch에서 “Claude Plays Pokémon” 스트리밍을 계속할 것입니다. 이 프로젝트는 독립 개발자를 자극해 “Gemini Plays Pokémon” 스트림을 구성하도록 했고, 더 많은 모방자가 곧 나타날 것으로 예상됩니다.

※출처: Engadget

이 글에는 제휴 링크가 포함되어 있을 수 있으며 파트너스 활동을 통해 일정액의 수수료를 업체로 부터 받을 수 있습니다. 구매자분에게는 추가 비용이 발생하지 않습니다. 이 사이트의 정보는 정보 전달 목적으로만 제공되며 어떠한 보장도 제공하지 않습니다.
※ 파트너스 제휴는 블로그 운영에 있어 더 나은 컨텐츠 제작에 큰 도움이 됩니다.

댓글 남기기