공공 도메인 데이터로 AI 훈련, 가능할까?

관리자

공공 도메인 데이터로 AI 훈련, 가능할까?

공공 도메인과 공개 라이센스 자료로 AI를 훈련하는 것이 가능함이 입증되었습니다. 연구진은 8TB 데이터로 70억 매개변수 모델을 만들었으며, 이는 메타의 Llama 2-7B와 유사한 성능을 보였습니다. 그러나 데이터 선별 및 법적 검토가 어려운 과제가 되었고, 강력한 모델에 비해 효율성이 낮습니다. 연구는 AI 훈련에 저작권 자료가 필수라는 주장에 의문을 제기합니다.

AI 기업들은 자신들의 도구가 저작권이 있는 자료로 학습하지 않으면 존재할 수 없다고 주장해 왔습니다. 그러나 이는 가능하다는 것이 밝혀졌습니다. 다만 그 과정이 매우 어렵습니다. 이를 입증하기 위해, AI 연구자들은 덜 강력하지만 훨씬 더 윤리적인 새로운 모델을 훈련했습니다. 그 이유는 이 대형 언어 모델(LLM)의 데이터셋이 공공 도메인과 공개 라이센스 자료만을 사용했기 때문입니다.

워싱턴포스트를 통해 공개된 연구 논문은 14개의 다른 기관이 협력하여 작성했습니다. 저자들은 MIT, 카네기멜런대학, 토론토대학 등 다양한 대학과 벡터 연구소, AI를 위한 앨런 연구소 같은 비영리 단체 소속입니다.

연구 그룹은 8TB의 윤리적인 출처에서 얻은 데이터셋을 구축했습니다. 이 데이터에는 의회 도서관의 13만 권의 책이 포함되었습니다. 이 자료를 입력한 후, 연구진은 70억 개의 매개 변수를 가진 대형 언어 모델을 훈련시켰습니다. 결과는? 메타의 유사한 크기의 Llama 2-7B 모델과 비슷한 성능을 보였습니다. 연구진은 최신 모델과 성능을 비교하는 벤치마크를 공개하지 않았습니다.

2년 전 모델과 비슷한 성능이라는 점 외에도, 전체 작업 과정 자체가 매우 어렵다는 단점이 있었습니다. 데이터의 상당 부분이 기계에서 읽을 수 없었기 때문에 인간이 직접 선별해야 했습니다. “우리는 자동화된 도구를 사용하지만, 결국 모든 자료는 사람이 수동으로 주석을 달고 검토했습니다,”라고 공저자인 스텔라 비더먼은 워싱턴포스트에 말했습니다. “그건 정말 힘듭니다.” 또한 법적인 세부 사항을 파악하는 것 역시 어려운 작업이었습니다. 연구팀은 스캔한 각 웹사이트에 어떤 라이센스가 적용되는지를 결정해야 했습니다.

그렇다면 훈련하기 훨씬 더 어려운 덜 강력한 LLM으로 무엇을 할까요? 최소한 이 모델은 반대 논거로 사용할 수 있습니다.

2024년, 오픈AI는 영국 의회 위원회에서 그러한 모델은 본질적으로 존재할 수 없다고 말했습니다. 회사는 저작권이 있는 자료를 사용하지 않고서는 오늘날의 주요 AI 모델을 훈련시키는 것이 “불가능”하다고 주장했습니다. 지난해 앤스로픽의 전문가 증인은, “AI 기업들이 훈련 데이터셋에 포함된 작품에 대해 라이센스를 취득해야 한다면 LLM이 존재하지 않았을 것”이라고 덧붙였습니다.

물론, 이 연구는 AI 기업들의 방향을 바꾸지는 않을 것입니다. 결국, 더 많은 작업을 투입해 덜 강력한 도구를 만드는 것은 그들의 이익과 부합하지 않기 때문입니다. 하지만 적어도 이 연구는 업계의 일반적인 주장 중 하나에 의문을 제기합니다. 이 연구에 대한 이야기가 법정 사건과 규제 논의에서 다시 등장할 수도 있습니다.

※출처: Engadget

이 글에는 제휴 링크가 포함되어 있을 수 있으며 파트너스 활동을 통해 일정액의 수수료를 업체로 부터 받을 수 있습니다. 구매자분에게는 추가 비용이 발생하지 않습니다. 이 사이트의 정보는 정보 전달 목적으로만 제공되며 어떠한 보장도 제공하지 않습니다.
※ 파트너스 제휴는 블로그 운영에 있어 더 나은 컨텐츠 제작에 큰 도움이 됩니다.

관련기사

댓글 남기기