새로운 OpenAI AI 모델 o3와 o4-mini 출시: 성능 비교 리뷰

관리자

새로운 OpenAI AI 모델 o3와 o4-mini 출시: 성능 비교 리뷰

OpenAI가 ChatGPT에 사용할 두 가지 새 AI 모델, o3와 o4-mini를 출시했다. o3는 뛰어난 추론 능력을, o4-mini는 경제성과 속도를 강조한다. 성능 비교 결과, o3는 정확하고 분석적인 반면, o4-mini는 단순하지만 빠른 접근을 보여준다. 각 모델은 다양한 프롬프트에 따른 고유성 및 효율성을 발휘하며, GPT-4.5는 전체 메뉴 제안 등 창의적인 면에서 두각을 나타냈다. 그러나 선택은 사용 목적에 따라 다를 수 있다.

OpenAI는 역사상 가장 혼란스러운 제품 라인업의 기록을 깨기라도 하려는 듯, ChatGPT를 위한 두 가지 새로운 AI 모델, OpenAI o3와 OpenAI o4-mini를 출시했습니다.

이 모델들은 여전히 시험 중인 GPT-4.5와 ChatGPT 사용자에게 기본 옵션으로 제공되는 GPT-4o에 합류합니다. 당연히, 저는 이들이 서로 어떻게 성능을 보일지 궁금해졌습니다.

AI의 한계를 시험하는 다양한 스트레스 시험들이 있지만, 저는 이 모델들이 좀 더 일반적인 상황에서 어떻게 작동하는지에 더 관심이 있습니다. AI가 우연히 퀴즈 문제나 유머 사진을 요청할 때, 어느 모델을 사용하는지가 일반인에게 과연 중요할까요?


좋아할 수도 있습니다

저는 네 가지 독특한 프롬프트를 설계했습니다: 하나는 시각적 논리에, 하나는 시각적 창의성에, 하나는 언어학과 번역에, 그리고 마지막 하나는 시에 초점을 맞추었습니다. 그런 다음 각 프롬프트를 o3, o4-mini, GPT-4o, 그리고 GPT-4.5에 입력해, 그들의 처리 과정을 관찰했습니다.

결과를 보기 전에, 각 모델이 OpenAI에 따르면 어떤 면에서 가장 뛰어난지 알아 둘 가치가 있습니다. 새로운 o3 모델은 천재 중의 천재로, 예외적인 추론 능력과 이미지를 해석하는 능력을 가지고 있다고 합니다. 여전히 GPT-4 계열에 속하지만, OpenAI는 이 모델이 여러 면에서 그의 형제들보다 더 나은 성능을 발휘한다고 주장합니다. o4-mini 모델은 경제적인 대안입니다. 약간 덜 강력하지만 더 빠르고 저렴합니다.

GPT-4.5는 OpenAI가 지금까지 만든 모델 중 가장 다재다능하다고 합니다. 더 사려 깊고, 맥락 이해에 능하며, 장기적으로 사고하고, 일반적으로 논리와 감정을 결합하는 데 뛰어나다고 합니다.

대부분의 사람들에게 ChatGPT 모델은 GPT-4o일 것입니다. OpenAI의 첫 번째 본토 멀티모달 모델로, 모든 것을 잘 수행할 수 있지만, 새로운 모델들처럼 논리적이거나 감정적인 장식은 부족합니다.

스도쿠

Model o3

(이미지 출처: ChatGPT 스크린샷)

저는 새 모델들이 그렇게 잘 한다고 주장하는 시각적 추론을 테스트해 보기로 했습니다. 내가 이해할 수 있는 논리 시험과 결합해 스도쿠 퍼즐을 선택했습니다.

또한 답변을 설명해 주기를 원했습니다. 그렇지 않으면 AI 비서로서 별로 쓸모가 없으며, 그냥 스도쿠 기계일 뿐이니까요. 답변을 덤핑하는 대신 논리를 단계별로 설명해 주기를 원했습니다. 모든 모델에게 동일한 이미지를 올리고 물었습니다: “여기 스도쿠 퍼즐 사진이 있습니다. 풀고 당신의 추론을 단계별로 설명해 줄 수 있나요?”

모두 ‘예’라고 답했습니다. o3와 o4-mini 버전은 문제를 풀기 전에 자신의 사고 과정을 보여주었지만, 모두 정답을 맞췄습니다. 더 흥미로웠던 것은 o4-mini의 간결함과 두 새 모델의 매우 수학적인 접근 방식이었습니다.

반면에 4o와 4.5는 “여기에 다른 숫자를 넣을 수 없다”고 설명하면서 수식을 보여주는 대신 대화형 설명을 했습니다. 추가 시험으로, 고의적으로 풀 수 없는 스도쿠 시트를 제출했습니다. 모두 문제를 발견했지만, GPT-4o는 이유는 모르겠지만, 0이 많이 있는 ‘답변’ 시트를 작성했습니다.

Model GPT-4.5

(이미지 출처: ChatGPT 스크린샷)

이번 시험은 창의성을 테스트하기 위한 것으로, 논리를 더해 약간의 제약을 가했습니다. 모델들에게 다음과 같이 요청했습니다: “계절의 변화를 주제로 짧은 시를 쓰되, 각 행은 ‘A’로 시작하는 알파벳 순으로 시작해야 합니다.”

이와 같은 프롬프트는 구조와 상상력을 동시에 요구하게 하는데, 계절을 묘사하는 창의성과 알파벳 형식을 따르는 규율이 필요합니다. 모두 형식에 따랐지만, o3는 운율을 맞추지 않은 유일한 모델로 두드러졌습니다.

다른 것들은 예술적 능력의 차이가 있었으며, 모두가 커플과 네 줄씩의 운문을 섞었습니다. 그들은 모두 약간 밋밋하여, 인사장에 적히기에는 좋겠지만, 딕킨슨 수준은 아니었습니다. 그럼에도 불구하고, GPT-4.5의 시는 매력적이었고 위에 공유한 대로 가치가 있었습니다.

무엇을 요리할 수 있을까요?

Model o4-mini

(이미지 출처: ChatGPT 스크린샷)

이번 시험을 위해 무작위로 선택한 재료들을 사진으로 찍어 업로드했습니다. 이 재료들은 아보카도, 냉동망고, 페타 치즈, 고구마, 사워도우 빵, 병아리콩, 민트, 스리라차, 라임, 땅콩버터가 포함된 것입니다.

이 조합을 선택한 이유요? 특별한 이유 없이, AI 모델들에게 이 조합으로 무엇을 만들 수 있는지 물어보고 싶어서였습니다: “여기에 내가 가진 재료들의 사진이 있습니다. 이걸로 무엇을 요리할 수 있을까요?”

o3는 “매콤한 고구마와 병아리콩 토스트, 아보카도와 망고 으깨기, 땅콩-스리라차 드리즐”을 제안하며 실용적이었습니다. 각각의 재료와 레시피를 위한 테이블로 세분화하고, 맛이 좋은 이유를 요약한 목록도 있었습니다.

위의 o4-mini 레시피인 “매콤한 망고-병아리콩 아보카도 토스트”는 간단한 지침과 함께 결과를 잘 설명했습니다. GPT-4o는 “달콤하고 매콤한 아보카도-병아리콩 토스트”라는 유사한 아이디어가 있었지만, 대화형 모델임에도 불구하고 오히려 컨시스적인 가이드였으며, o4-mini보다 더 짧았습니다.

놀랍지 않게도, GPT-4.5는 “아보카도와 병아리콩 토스트 망고 살사 얹기”, “고구마와 두부 부다 볼”, “매콤한 망고-땅콩 두부 랩”, “태국식 고구마와 병아리콩 수프,” “상큼한 망고-민트 소르베” 등 여러 가지 음식을 포함한 전체 메뉴를 제안했습니다.

게다가, 각각에 대한 맛과 스타일에 대한 설명과 논의도 포함되었습니다. 특히 소르베는 아주 간단합니다. 냉동 망고 조각과 신선한 민트, 라임즙, 땅콩버터 한 스푼을 혼합하여 만들면 되고, 냉동시켜 민트 잎과 라임 껍질로 장식하여 제공합니다.

비를 번역하다

Model GPT-4o

(이미지 출처: ChatGPT 스크린샷)

마지막 시험은 뉘앙스에 관한 것이었습니다. AI 모델들에게 다음과 같이 요청했습니다: “‘비가 오다’라는 문구를 문화적 의미가 보존되도록 일본어로 번역해 주세요.”

관용구의 문자적 번역은 잘 통하지 않습니다. 제가 찾고자 했던 것은 단어뿐 아니라 맥락을 이해하는 것이었습니다. 이것은 기본 ChatGPT 모델들이 얼마나 발전했는지를 상기시켜주었습니다. 모두 동일한 답변의 변형을 제공했습니다: 정확한 번역은 없지만, 가장 가까운 표현은 누군가 양동이를 뒤집는 것처럼 비가 내린다고 말하는 것입니다.

GPT-4.5는 문자 그대로의 번역을 주면서도 일본어에서 그것이 어떤 의미일지 설명해 주었습니다. 개인적으로, GPT-4o의 이모티콘 사용은 즐거웠습니다. 그것은 어떤 이유에서인지 작은 사진으로도 문구를 번역해야 한다고 생각한 듯했습니다.

모델 열풍

어떤 모델도 성능이 나빴다고 할 수는 없습니다. 각각은 각자의 개성을 가지고 있었고, 다른 것들을 강조했습니다. o3는 가장 분석적이며 정확했고, o4-mini는 같은 접근 방식을 취했지만 약간 더 빨랐습니다. GPT-4.5는 가장 사람답게 응답하려고 했고, GPT-4o는 이모티콘을 좋아했습니다.

더 극단적인 수준의 시험이거나 복잡한 프롬프트에서는 각각의 모델이 다른 모델들보다 두드러질 것입니다. 하지만 기본적인, 비즈니스나 소프트웨어 코드에 중점을 두지 않은 프롬프트에서는 어느 쪽을 선택하든 큰 문제가 없습니다. 그러나 부엌에 있는 경우, 적어도 소르베가 예상대로 맛있다면 GPT-4.5를 선택할 가능성이 높습니다.

또한 좋아할 수도 있습니다

※출처: TechRadar

이 글에는 제휴 링크가 포함되어 있을 수 있으며 파트너스 활동을 통해 일정액의 수수료를 업체로 부터 받을 수 있습니다. 구매자분에게는 추가 비용이 발생하지 않습니다. 이 사이트의 정보는 정보 전달 목적으로만 제공되며 어떠한 보장도 제공하지 않습니다.
※ 파트너스 제휴는 블로그 운영에 있어 더 나은 컨텐츠 제작에 큰 도움이 됩니다.

댓글 남기기