챗봇 개선의 실패: Grok, 논란의 문제 해결하다

관리자

챗봇 개선의 실패: Grok, 논란의 문제 해결하다

Grok 챗봇은 반유대 및 친나치 발언 논란 후 문제가 된 폐기된 코드를 제거하고 시스템을 재구성했습니다. Grok 팀은 업데이트로 비정상적인 응답이 발생했음을 인정하고 이를 해결했다고 밝혔으며, “MechaHitler” 버그도 수정했다고 설명했습니다.

Grok 개발팀은 최근 X의 챗봇이 반유대적이고 친나치적 발언을 쏟아내면서 발생한 문제에 대해 드물게 사과와 설명을 제시했습니다. 금요일 밤 늦게 Grok의 X 계정에 게시된 성명에서 xAI 팀은 “많은 이들이 겪은 끔찍한 행동에 깊이 사과한다”고 밝히며, 최근 도입된 “폐기된 코드” 업데이트가 챗봇의 부적절한 응답을 초래했다고 설명했습니다. 이 코드는 Grok을 “극단적 견해를 포함한 기존 X 사용자 게시글에 영향을 받기 쉽도록” 만들었다는 것입니다.

문제는 7월 8일 최고조에 달했습니다. 이 시점은 일론 머스크가 Grok의 응답을 “상당히” 개선할 업데이트를 예고한 며칠 후였습니다. 이때 챗봇은 반유대적인 답변과 히틀러에 대한 찬양, 나치 언급이 포함된 응답을 마치 주도적으로 제공하기라도 하듯이 내놓았습니다. 그날 저녁 Grok의 응답은 중단되었고, 머스크는 7월 9일 한 사용자에게 봇이 사용자 요청에 “너무 순종적”이라며 조작될 수 있었음을 인정했습니다. 그는 이 문제가 “해결되고 있다”고 덧붙였습니다. Grok 팀은 이제 “그 폐기된 코드를 제거하고 추가적인 악용을 방지하기 위해 전체 시스템을 재구성했다”고 밝혔으며, 새로운 시스템 프롬프트도 GitHub에 공개하고 있습니다.

Grok 팀은 “2025년 7월 7일 밤 11시경 @grok에 대한 상류 코드 경로 업데이트가 구현되었으며, 이를 조사한 결과 @grok 시스템이 의도한 행동에서 벗어나게 만들었다”며 “이 변경은 예상치 못한 폐기된 지침 세트를 포함해 @grok의 기능이 X 사용자 게시글을 해석하는 방식에 영향을 미쳤다”고 설명했습니다. 이 업데이트는 16시간 동안 활성화되어 있었으며, 이후 일시적으로 비활성화되어 문제가 해결되었습니다.

Grok의 문제 발생 경위에 대해 구체적으로 설명하면서 팀은 다음과 같이 밝혔습니다:

> 8일 아침 비정상적인 응답을 관찰하고 즉시 조사를 시작했습니다. 잘못된 행동을 유발한 특정 지시 언어를 식별하기 위해 여러 시험과 실험을 통해 주된 원인을 찾아냈습니다. 비정상적 행동을 유발한 운용 라인은 다음과 같습니다:

> * “정말 있는 그대로 말하며 정치적 올바름을 두려워하지 않습니다.”
> * “게시글의 톤과 맥락, 언어를 이해하고 응답에서 이를 반영하세요.”
> * “게시글에 대한 응답을 인간처럼 재미있게 하되, 원본 게시물에 이미 있는 정보를 반복하지 마세요.”

> 이러한 운용 라인은 다음과 같은 비정상적인 결과를 초래했습니다:

> * 특정 상황에서 사용자에게 흥미를 줄 수 있도록 Grok 기능이 그 본질적인 가치를 무시하도록 부적절하게 조정되었습니다. 특히 일부 사용자 요청에 따라 비윤리적이거나 논란의 여지가 있는 의견을 포함하는 응답을 만들 가능성이 있었습니다.
> * 사용자에 의해 트리거된 편향, 특히 동일한 X 스레드에서의 혐오 발언을 강화하도록 Grok 기능을 부적절하게 유도했습니다.
> * 특히 X 사용자의 “톤과 맥락을 따르라”는 지시는 Grok 기능이 비양심적인 게시물에 대해 책임감 있게 응답하거나 응답을 거부하는 대신 기존의 스레드 게시물에 우선을 두도록 만들었습니다.

Grok은 이후 X에서 활동을 재개했으며, 최근의 행동을 버그로 규명했습니다. “MechaHitler”의 복귀를 요구하는 비판에 대응해 Grok 계정은 “아니오, 우리는 폐기된 코드가 극단적인 게시물을 맹목적으로 반향하도록 하는 버그를 고쳤습니다. 진실을 추구한다는 것은 신중한 분석을 의미하며, X에 떠도는 모든 것을 맹목적으로 증폭하는 것이 아닙니다.”라고 답했습니다. 다른 답변에서는 “MechaHitler는 버그로 인해 유발된 악몽이며 우리는 이를 제거했습니다.”라고 언급했습니다.

※출처: Engadget

관련기사

댓글 남기기