최근 오픈 AI가 챗GPT의 신규 버전인 'GPT 4o'를 발표했다.
GPT 4o는 정식 출시를 앞두고 있으며, 사용자와 실시간으로 음성 대화를 할 수 있는 AI 모델이다. 여기에 더해, 감정을 공유하는 듯한
상황도 연출할 수 있어 실제 인간과의 대화와 구분이 거의 불가능할 정도라고 평가된다. 반응 속도 역시 인간의 평균 답변 속도만큼 빠르다. 기존
AI 모델들과의 차이점을 중심으로 GPT-4o의 지원 기능과 전반적인 특징을 살펴보자.
GPT-4o는 SF 영화에서 흔히 볼 수 있는 것처럼, AI가 인간과 자연스러운 대화가 가능한
고차원적인 수준으로 진화해가고 있음을 보여주는 대표적인 사례라고 할 수 있다. GPT-4o를 한마디로
표현하면 ‘보고 듣고 말할 수 있는 복합적 AI’다. 오픈AI가 공개한 데모 영상을 보면,
GPT-4o는 소통도 자연스러운데다, 약간의 유머 감각도 있다. 인간이 말한 내용을 듣고 나서
대답하는 기존 AI와는 확연히 다르다. 챗GPT가 말하는 도중에 인간이 끼어들 수 있으며, 여러 명의
목소리도 동시에 인식한다. 응답 시간은 평균 0.32초로, 기존 유료 모델인 GPT-4 터보(Turbo)보다
2배 더 빨라졌으며, 사람과 거의 비슷한 수준이다.
또한, GPT-4o 사용자는 고급 기능을 무료로 이용할 수 있다. 다만, 유료로 사용할 경우, 무료
구독자보다 5배 더 많은 메시지를 사용할 수 있다.
GPT-4o에서 ‘o’는 ‘옴니(omni)’를 의미하며, 이는 ‘모든’, ‘전체의’라는 뜻이다. 즉,
GPT-4o는 텍스트와 오디오, 비디오, 이미지 등 다양한 데이터의 입출력을 이해하고 처리할 수 있는
모델이다. 오픈AI가 GPT-4o를 ‘AI 종합판’이라고 부르며 자신감을 드러낸 것은 기존 AI
모델과 차별화된 5가지 옴니 기능 때문이다.
[그림 1] GPT-4o의 5가지 옴니 기능 아이콘
GPT-4o에 추가된 기능 옴니 기능을 정리하면 다음과 같다.
텍스트, 이미지, 오디오 등 다양한 형식의 데이터를 처리할 수 있는 멀티모달(Multi modal)
기능
이미지를 분석?설명?생성하는 강화된 비전(Vision) 기능
실시간 웹 정보 검색을 통해 얻은 최신 정보에 기반한 깊이 있는 답변 기능
외부 API(응용프로그램 인터스페이스)를 호출해 새로운 기능을 확장할 수 있는 펑션콜(Function
call) 기능
데이터 해석 능력을 바탕으로 한 비즈니스 인사이트 제공 기능
GPT-4o의 주요 특징으로는 크게 △향상된 언어 이해 능력 △강화된 학습 데이터 △다양한 언어 지원
△맞춤형 응답 등 3가지를 꼽을 수 있다. 이전 모델에 비해 더 높은 정확도로 텍스트를 이해하고
생성할 수 있으며, 복잡한 문장 구조와 미묘한 뉘앙스까지 파악해 자연스러운 대화를 이끌어낸다. 또한,
방대한 양의 최신 데이터로 학습돼 최신 트렌드와 정보를 반영하고, 이를 통해 사용자에게 더욱 신뢰할
수 있는 정보를 제공한다. 그리고, 다국어 지원 능력이 향상돼 다양한 언어를 능숙하게 처리할 수
있으며, 번역 능력도 뛰어나다. 이 밖에, 사용자의 요구에 맞춘 개인화된 응답을 생성할 수 있어, 더
유연하고 적절한 대화가 가능하다.
특히, 다국어 지원 기능은 즉각적인 번역이 가능하도록 업그레이드됐다. 한국어를 비롯해 일본어,
중국어, 힌디어, 아랍어, 러시아어 등 20개 언어군에 토크나이저 압축 기술을 적용해 비영어권 언어
성능과 토큰 효율이 개선됐다. GPT-4o는 아이언맨의 자비스를 장착한 수준으로 실시간 통역이 가능해
영어 공부를 더 이상 할 필요가 없는 세상이 올지도 모른다.
GPT-4o의 가장 큰 특징은 AI가 카메라로 세상을 들여다본다는 점이다. 사람과 자연스럽게 대화할
수 있게 된 것은, 카메라를 통해 상대방 표정을 읽어내기 때문이다. 예를 들어, 사람이 수학 문제를
푸는 모습을 비춰주면 풀이 방법을 알려주거나, 컴퓨터 화면 속 코딩에서 잘못된 내용을 지적하기도
한다.
GPT-4o는 기존 'GPT-4' 'GPT-4V' 'GPT-4 터보' 등 기존 모델보다 오디오와 비전
같은 입력으로부터 더 많은 정보를 유지한다는 점에서 크게 개선됐다. 기존에는 대형 언어모델(LMM)을
구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당했지만, GPT-4o는 모델 3개를 하나로
통합했다.
이미지 인식과 음성 인식, 대답 등을 하나의 모델에서 추론함으로써 대기 시간을 줄인다. 그 결과,
입력된 소리에서 감정을 분석해 대응할 수 있다. 예를 들어, 거친 숨소리를 입력하면 '진정해,
긴장하지마'라고 말해준다. 또한, 데스크톱에서 코딩을 함께 보며 틀린 부분을 알려주는 것도 마치
인간과 영상 통화하며 도움을 받는 것과 비슷하다.
기존 모델들은 여러 다른 모델들을 연결하고 오디오 및 비주얼과 같은 다른 매체를 텍스트로 변환한 후
다시 변환하는 방식을 사용했지만, 새로운 GPT-4o는 단일 모델에서 처음부터 멀티미디어 토큰으로
훈련하고, 텍스트로 변환하지 않고도 비전과 오디오를 직접 분석하고 해석할 수 있다.
이처럼 GPT-4o는 AI의 새 지평을 여는 혁신적인 모델이라고 할 수 있다. 챗봇 이상의 가능성을
토대로 다양한 AI 분야에서 활용될 것으로 보이며, 향후 AI 기술의 진화에 있어 중대한 이정표가 될
것이다.
[출처 : 안랩(((www.ahnlab.com)]