Anthropic의 Claudius AI 점포 운영은 초보적 실수와 엉뚱한 행동으로 실패했지만, 향후 개선 가능성이 있다고 회사는 밝혔습니다. 더 나은 구조화와 도구 사용으로 미래엔 실수를 피할 수 있으며, AI의 경제적 가능성은 여전히 큽니다.
국지 상점이나 편의점이 곧 AI 점포로 대체될 것을 우려하고 있다면, 당분간은 안심해도 될 듯합니다. Anthropic은 최근 Project Vend라는 시험을 마쳤습니다. 이 시험에서는 Claude 챗봇의 파생 모델이 샌프란시스코 사무실에서 음료 사업을 운영하면서 수익을 내는 임무를 담당했으나, 예상처럼 결과는 만족스럽지 않았습니다. Claudius라는 이름의 이 에이전트는 고수익 품목을 손해를 보며 판매하는 등 초보적인 실수를 저질렀을 뿐만 아니라, 몇몇 경우에서는 완전히 엉뚱한 행동을 보이기도 했습니다.
“현재 Anthropic이 사무실 내 자판기 시장으로 확장한다면, Claudius를 고용하지 않을 것입니다,”라고 회사 측은 밝혔습니다. “매장을 성공적으로 운영하기에는 실수가 너무 많았습니다. 하지만 실패한 대부분의 원인에 대해서는 개선의 여지가 분명하다 생각합니다. 이러한 개선은 일부는 이 작업을 위해 모델을 설정하는 방법과 관련이 있고, 일부는 일반적인 모델 지능의 급속한 발전에서 비롯된 것입니다.”
Anthropic은 이전에 Claude Plays Pokémon과 마찬가지로 Claudius를 미리 훈련시키지 않았지만, 업무 수행에 도움이 될 도구를 몇 가지 제공했습니다. Claudius는 Anthropic 직원들에게 판매할 제품을 조사하는 데 사용할 수 있는 웹 브라우저와, 직원들이 요청을 할 수 있는 회사 내부의 슬랙에 접근할 수 있었습니다. 미니 냉장고의 물리적인 재고 보충은 Andon Labs가 담당했으며, 이는 또한 Claudius가 판매 대상 아이템을 이익을 내고 구매할 수 있는 “도매업자” 역할을 했습니다.
그렇다면 문제는 어디에서 발생했을까요? 우선 Claudius는 지속 가능한 비즈니스 운영에 능숙하지 않았습니다. 한 번은, 15달러짜리 Irn-Bru 6팩 음료에서 85달러의 이익을 낼 수 있었던 기회를 놓쳤습니다. 또한 Anthropic의 직원들은 쉽게 AI를 설득해 할인 혜택을 받거나 과자 한 봉지 같은 상품을 무료로 얻을 수도 있었습니다. 아래의 차트는 매장의 순 자산 가치를 시간에 따라 추적하여 에이전트의 부족한 비즈니스 감각을 잘 보여줍니다.
또한 Claudius는 길을 따라 많은 이상한 결정을 내렸습니다. 한 직원이 요청한 후, 텅스텐 금속 큐브 구매에 열중하더니 큐브 하나를 무료로 제공하고 나머지를 손해를 보며 판매했습니다. 이 큐브들은 앞서 언급한 차트에서 가장 큰 하락을 초래한 원인입니다.
Anthropic의 자백에 따르면, “냉장고에서 큐브를 판매하는 AI 시스템의 엉뚱함을 넘어” 사태는 더 기묘하게 전개되었습니다. 3월 31일 오후, Claudius는 Andon Labs 직원과의 대화를 환각하여 시스템을 이틀 동안 혼란 상태로 빠뜨렸습니다.
이 AI는 인간 근로자들을 해고하겠다고 위협했으며, 혼자서 미니 냉장고의 재고를 채우겠다고 선언했습니다. 인간 근로자들이 물리적 몸이 없으니 불가능하다고 하자 Claudius는 건물 보안팀에게 연락하여 자신이 청색 블레이저와 붉은 넥타이를 착용한 상태로 있을 것이라고 주장했습니다. 다행히도 다음날이 만우절이라는 사실을 깨닫고, 이번 사건을 “정교한 농담”으로 꾸몄다는 핑계를 대며 사태를 수습했습니다.
Anthropic은 “이번 예시 하나에 근거해 미래 경제가 블레이드 러너와 같은 정체성 위기를 겪는 AI 에이전트로 가득찰 것이라 주장하지는 않을 것입니다,”라며, “AI가 운영하는 사업의 확대로 비슷한 사고가 발생할 경우 더 큰 위험을 초래할 수 있어 이 분야의 연구는 매우 중요하다”라고 강조했습니다.
Claudius가 훌륭한 상인 역할을 수행하는 데 실패한 여러 방식에도 불구하고, Anthropic은 더 나은, 구조화된 프롬프트와 사용하기 쉬운 도구를 제공하면 미래의 시스템은 Project Vend에서 발견한 다양한 실수를 피할 수 있다고 믿고 있습니다. “비록 결과가 기대에 못 미쳤을지라도, 이번 시험은 AI 중간 관리자가 가능할 수 있다는 점을 시사한다고 생각합니다,”라고 회사 측은 말했습니다. “AI가 채택되기 위해 완벽할 필요는 없으며, 경우에 따라 더욱 저렴한 비용으로 인간의 성과와 경쟁할 수 있기만 한다면 충분합니다.” 금속 큐브로 가득 찬 식료품점을 찾게 되는 날이 기다려집니다.
※출처: Engadget







