화요일, 구글은 질문에 답하기 전에 멈춰서 “생각”하는 새로운 AI 추론 모델 계열인 Gemini 2.5를 발표했습니다.
이 새로운 모델 계열의 시작을 알리기 위해, 구글은 현재까지 가장 지능적인 모델이라고 주장하는 다중 모달 추론 AI 모델인 Gemini 2.5 Pro Experimental를 출시합니다. 이 모델은 화요일부터 구글의 개발자 플랫폼인 Google AI Studio와 회사의 월 20달러 AI 요금제인 Gemini Advanced의 구독자들을 위한 Gemini 앱에서 이용할 수 있습니다.
앞으로, 구글은 모든 새로운 AI 모델에 추론 기능을 내장할 것이라고 밝혔습니다.
OpenAI가 2024년 9월에 최초의 AI 추론 모델인 o1을 출시한 이후, 기술 산업은 그 모델의 역량을 맞추거나 초과하려는 경주를 벌이고 있습니다. 오늘날 Anthropic, DeepSeek, 구글, 그리고 xAI 모두 문제가 해결되기 전 추가 컴퓨팅 능력과 시간을 사용해 사실 확인 및 추론을 수행하는 AI 추론 모델을 보유하고 있습니다.
추론 기술은 AI 모델이 수학 및 코딩 작업에서 새로운 높이에 도달할 수 있게 했습니다. 기술 세계에서 많은 이들은 추론 모델이 주로 인간의 개입 없이 작업을 수행할 수 있는 자율 시스템인 AI 에이전트의 핵심 구성 요소가 될 것으로 믿고 있습니다. 그러나 이러한 모델은 비용이 더 많이 듭니다.
구글은 이전에 AI 추론 모델을 실험한 적이 있으며, 12월에 “생각하는” 버전인 Gemini를 출시했었습니다. 그러나 Gemini 2.5는 OpenAI의 o 시리즈 모델들을 능가하려는 회사의 가장 진지한 시도로 간주됩니다.
구글은 Gemini 2.5 Pro가 이전의 최첨단 AI 모델과 몇 가지 주요 경쟁 AI 모델을 여러 벤치마크에서 능가한다고 주장합니다. 특히, 구글은 Gemini 2.5를 시각적으로 매력적인 웹 앱과 에이전트 코딩 애플리케이션을 만들기 위해 설계했다고 말합니다.
코드 편집을 측정하는 평가인 Aider Polyglot에서, 구글은 Gemini 2.5 Pro가 68.6%를 기록하며 OpenAI, Anthropic, 중국 AI 연구소 DeepSeek의 최상위 AI 모델들을 능가한다고 말합니다.
그러나 소프트웨어 개발 능력을 측정하는 또 다른 시험인 SWE-bench Verified에서는 Gemini 2.5 Pro가 63.8%를 기록하며 OpenAI의 o3-mini와 DeepSeek의 R1을 능가했지만, Anthropic의 Claude 3.7 Sonnet이 기록한 70.3%에는 미치지 못했습니다.
수학, 인문학, 자연 과학과 관련된 수천 개의 대중 질문으로 구성된 다중 모달 시험인 Humanity’s Last Exam에서, 구글은 Gemini 2.5 Pro가 18.8%를 기록하며 대부분의 경쟁 주력 모델보다 뛰어난 성능을 보인다고 말합니다.
시작으로, 구글은 Gemini 2.5 Pro가 1백만 토큰의 컨텍스트 창과 함께 제공된다고 말합니다. 이는 AI 모델이 한 번에 약 750,000개의 단어를 처리할 수 있음을 의미합니다. 이는 “반지의 제왕” 책 시리즈 전체보다 긴 분량입니다. 곧, Gemini 2.5 Pro는 입력 길이의 두 배(2백만 토큰)를 지원할 예정입니다.
구글은 Gemini 2.5 Pro의 API 가격을 발표하지 않았으며, 몇 주 후에 더 많은 정보를 공유할 것이라고 밝혔습니다.
※출처: https://techcrunch.com/2025/03/25/google-unveils-a-next-gen-ai-reasoning-model/