위키피디아는 AI 크롤러 문제 해결을 위해 Kaggle과 협력해 구조화된 데이터셋을 제공합니다. 이는 기계 학습에 활용되며, 데이터는 크리에이티브 커먼즈 라이선스를 따릅니다.
위키피디아는 현재 자사의 서버에 영향을 미치고 있는 AI 크롤러로 인한 문제로 어려움을 겪고 있습니다. 이러한 AI 크롤러는 백과사전에서 텍스트와 멀티미디어를 수집하여 생성적 인공지능 모델을 훈련하는 데 이용됩니다. 이로 인해 인건비 증가와 때때로 인간 사용자를 위한 더 느린 로드 시간과 같은 문제가 발생하고 있습니다. 이러한 봇이 대중에게 공개된 위키피디아 웹사이트를 지나치게 수집하고 대역폭을 소진하는 것을 막기 위해 위키미디어 재단(위키피디아의 데이터를 관리하는 기관)은 AI 개발자들에게 자유롭게 사용할 수 있는 데이터셋을 제공하고 있습니다.
위키미디어 재단은 Kaggle과 협력하여 데이터 사이언스 플랫폼을 통해 영어와 프랑스어로 된 구조화된 데이터셋의 베타 버전을 제공하기로 했습니다. Kaggle을 소유하고 있는 구글에 따르면, 이 데이터셋은 기계 학습을 위해 포맷되어 훈련, 개발 및 데이터 과학에 더 유용하게 활용될 수 있다고 합니다.
위키미디어 엔터프라이즈에 따르면, 이 데이터셋은 “요약문, 간단한 설명, 인포박스 스타일의 키-값 데이터, 이미지 링크 및 명확하게 구분된 기사 섹션”을 포함하고 있습니다. 참고문헌이나 비디오 클립과 같은 “비-서사적 요소”는 포함되어 있지 않습니다. 이러한 참고문헌의 부족은 데이터셋 내 정보의 출처 명시에 있어 일부 애매함을 초래할 수 있지만, 위키미디어 엔터프라이즈(위키미디어 재단의 일부분으로, API를 통해 위키피디아 데이터를 제공하려는 기관)는 데이터셋의 콘텐츠가 모두 위키피디아에서 온 것이기 때문에, 크리에이티브 커먼즈, 퍼블릭 도메인 등에서 자유롭게 라이선스가 허가된다고 설명하고 있습니다.
※출처: Engadget







