OpenAI는 AI 모델의 투명성 강화를 위해 ‘안전성 평가 허브’를 출시했습니다. 이 허브는 모델의 유해 콘텐츠 생성 여부 등을 공개하며 투명성을 높이고자 합니다. 시스템 카드보다 더 상세한 정보를 제공하여, AI 성능과 안전성을 지속적으로 업데이트합니다.
OpenAI는 자사의 모델에 대한 환각률 등의 정보를 공개적으로 공유하기 위한 새로운 웹 페이지, ‘안전성 평가 허브’를 출시했습니다. 이 허브는 모델이 유해한 콘텐츠를 생성하는지, 지시를 잘 따르는지, 그리고 탈옥 시도가 있었는지를 강조할 것입니다.
이 기술 회사는 이 새로운 페이지가 OpenAI에 대한 추가적인 투명성을 제공할 것이라고 주장했습니다. 이 회사는, 참고로, AI 모델을 훈련시키기 위해 저작권이 있는 자료를 불법적으로 사용했다는 여러 소송에 직면해 왔습니다. 또한, 뉴욕 타임스는 이 회사가 신문사의 표절 사건에서 증거를 실수로 삭제했다고 주장한 바 있습니다.
안전성 평가 허브는 OpenAI의 시스템 카드보다 확장된 정보를 제공합니다. 시스템 카드는 출시 시 개발의 안전 조치를 개략적으로 설명하는 반면, 허브는 지속적인 업데이트를 제공할 예정입니다.
OpenAI는 “AI 평가 과학이 발전함에 따라 모델의 역량과 안전성을 측정하는 더 확장 가능한 방법 개발에 대한 우리의 진전을 공유할 것”이라며, “여기에서 안전성 평가 결과의 일부를 공유함으로써 장기적으로 OpenAI 시스템의 안전 성능을 이해하기 쉽게 하고, 또한 투명성을 높이기 위한 커뮤니티 노력을 지원하기를 희망한다”고 밝혔습니다. 또한, 회사 내에서 이 분야에 대한 보다 적극적인 소통을 위해 노력하고 있다고 덧붙였습니다.
관심 있는 이용자들은 허브의 각 섹션을 통해 GPT-4.1부터 4.5까지와 같은 관련 모델에 대한 정보를 확인할 수 있습니다. OpenAI는 이 허브에 제공된 정보는 단지 “스냅샷”에 불과하며, 보다 자세한 내용은 시스템 카드, 평가 및 기타 발행물을 참고해야 한다고 설명했습니다.
안전성 평가 허브의 큰 문제점 중 하나는 OpenAI가 이 시험을 수행하고 공개할 정보를 선택하는 주체라는 점입니다. 따라서 회사가 모든 문제나 우려 사항을 대중과 공유할 것이라는 보장은 없습니다.
※출처: Engadget