그동안 오픈 AI는 글로벌 AI 시장에서 압도적인 우위를 자랑해 왔다. 그러나 최근 게임 체인저로 떠오른 새로운 강자가 등장했다. 그 주인공은
바로 중국의 인공지능(AI) 스타트업 딥시크(DeepSeek)의 AI이다. 이는 세계 최고 수준의 우주 기술력을 자부하던 미국이 1957년
소련의 스푸트니크 1호 발사를 계기로 자존심을 구긴 사건을 연상케 한다. 값비싼 엔비디아 GPU도 구하기 어려운 상황에서, 딥시크는 기존
기업들이 AI 개발에 사용하는 비용의 30분의 1에 해당하는 가격으로 챗GPT와 맞먹는 성능을 구현하는 것으로 알려졌다. 이로 인해 엔비디아(NVIDIA)의
주가가 17% 폭락하기도 했다. 이번 글에서는 이 딥시크의 이모저모를 살펴본다.

글로벌 AI 기술을 미국이 주도하고 있다는 것은 명백한 사실이다. 오픈
AI의 챗GPT를 비롯한 구글 제미나이(Gemini), 마이크로소프트 빙(Bing)과 같은 유명 소프트웨어 업체의 AI 모델과 이를 지원하는
엔비디아와 브로드컴(Broadcom), 마이크론(Micron) 등 주요 하드웨어 업체는 모두 미국을 기반으로 하고 있다.
그런데 딥시크의 출현으로 이 구도가 하루 아침에 뒤흔들렸다. 딥시크는 2023년 5월 중국 공학분야 명문대인 저장대 출신 량원펑이 설립한
회사이다. 딥시크가 놀라운 이유 중 하나는 중국이 미국의 규제로 고성능 하드웨어를 사용할 수 없었음에도 불구하고, 적은 비용으로 고성능 AI를
개발했다는 사실이다. 원래는 5억 달러를 들여 만들 수 있는 AI를 500만 달러에 구현해낸 것인데, 이는 AI는 곧 ‘규모의 경쟁’이라는
기존의 룰을 깨뜨린 혁신적인 사례라고 할 수 있다.
AI 개발에 천문학적인 돈이 들어가는 이유는 대량의 GPU, 즉 값비싼 엔비디아의 GPU가 대량으로 필요하기 때문이다. 이보다 더 중요한 것은
이렇게 구축한 하드웨어가 아니라, AI를 학습시켜 제대로 된 AI로 만드는 데 더 많은 비용과 시간이 투입된다는 점이다.
딥시크에 따르면, 비용 효율적인 학습을 위해 설계된 아키텍처를 활용해 GPU가 AI 연산에 필요한 LLM을 학습하는 데 278만 시간이
소요된다. 이는 페이스북의 메타 AI(Meta AI)가 자체 모델을 훈련하는데 3,080만 개 GPU가 필요한 것과 비교하면 10분의 1도 채
되지 않는다. 컴퓨팅 파워 역시 미국 빅테크들은 그동안 고성능의 GPU를 최소 16,000개를 사용해 AI 모델을 구현한 반면, 딥시크는 단
2,024개 GPU만으로 동일한 성과를 거두었다.
딥시크가 출시한 딥시크 R1(DeepSeek R1)은 챗GPT와 유사한 AI 모델이다. 성능은 챗GPT와 비슷하며, 6,710억 개의 매개변수가
있다. 딥시크 R1은 약 2개월 만에 558만 달러, 한화로 약 80억 원의 비용으로 학습이 완료됐다.
딥시크는 미국의 규제를 피해, 이른바 ‘보급형 AI GPU’인 H800 2,024개를 묶어 만들었다. 애초부터 하드웨어, 자금, 인력 등 모든
면에서 미국과 상대가 되지 않았는데, 저성능과 저예산으로 챗GPT에 버금가는 AI를 선보인 것이다.
딥시크의 핵심 기술은 만인에 공개된 오픈소스이다. 따라서 누구나 이 소스를 활용해 새로운 AI를 생성할 수 있다. 일반적인 대형 언어모델(LLM)
기반 AI는 ‘지도학습(Supervised Fine-Tuning, SFT)’과 피드백 기반 강화학습(Reinforcement learning
by Human Feedback)’ 기법으로 훈련시키는데, 딥시크는 인간의 개입 없이 ‘강화학습’으로 성능을 끌어올렸다. 굳이 비교하자면
어린아이가 수없이 넘어지면서 자전거를 배우는 것처럼 행동(액션)을 시도하고 그에 따른 결과(보상)를 얻는 과정을 반복하며 최적의 패턴을 찾는
방식이다.
1단계는 추론 기반 강화학습이다. 논리 추론과 문제 해결 능력을 키운 뒤 데이터에서 패턴을 발견하고 추론의 법칙을 끌어낸다. 2단계는 시나리오
기반 강화학습이다. 예측 불가능한 다양한 상황에서 어떤 행동을 해야 최적의 결과를 얻을 수 있을지 결정하는 전략을 설계한다.
하지만 딥시크가 이제 갓 선보인 AI이다 보니 반론도 만만치 않다. 현재까지도 고성능 AI 훈련에는 엔비디아의 고사양 칩인 H100/A100
GPU가 필수적이며, 중국의 대체 기술이 전면적으로 경쟁력을 확보하기에는 시간이 필요하다는 것이 반론의 요지이다. 딥시크가 H100을 사용해
학습한 것을 숨겼을 것이라는 의혹과 함께, 딥시크가 챗 GPT의 데이터를 무단으로 사용했다는 주장도 제기되고 있다. 또한, 딥시크의 오픈소스
전략의 한계에 대한 지적도 나오고 있다. 딥시크는 오픈소스로 기술을 공개했지만, 글로벌 생태계의 주도권은 여전히 미국이 쥐고 있어, 결코 쉽지
않을 것이라는 전망이다.
무엇보다 딥시크의 서비스 이용 과정에서 개인정보 유출에 대한 우려가 발목을 잡고 있다. 이용자의 개인정보가 중국 내 서버에 저장되기 때문이다.
딥시크는 사용자가 계정을 설정할 때 제공하는 정보와 서비스를 사용하는 과정에서 입력하는 콘텐츠를 수집하고 있다. 이런 우려로 인해, 외신에
따르면 이탈리아는 딥시크 애플리케이션 신규 다운로드를 차단했으며, 프랑스와 아일랜드도 사생활 침해 리스크 여부를 파악하고 있다.
한편, 중국 빅테크 기업 알리바바는 자사의 AI 모델이 딥시크를 능가한다고 주장했다. 알리바바 클라우드는 1월 29일 소셜미디어 공식 계정을
통해 새로운 AI 모델 '큐원(Qwen) 2.5-맥스'를 출시했다고 발표했다. 큐원 2.5-맥스 모델의 사전 훈련 데이터는 20조 개의 토큰을
넘으며, 오픈 AI의 GPT-4o, 딥시크-V3, 메타의 라마(LLaMA)-3.1-405B 등을 거의 모든 비교 영역에서 능가한다고 알리바바
클라우드는 주장하고 있다. 이로 인해 AI 시장에 대격변이 일어날 것으로 예상된다.
[출처 : 안랩(www.ahnlab.com)]