2025년 설 연휴, 딥시크(DeepSeek)라는 이름이 폭풍처럼 몰아쳤다. 처음에는 SNS 타임라인이 딥시크 이야기로 넘쳐나더니, 순식간에 포털 뉴스 메인까지 점령해 버렸다.
딥시크가 뭐길래 난리였을까.
딥시크는 중국의 인공지능 연구 기업 이름이자 그 회사에서 개발한 오픈 웨이트(Open-Weights) 언어 모델 제품군이다. 어찌 보면 흔한 AI 언어모델(LLM) 출시일 뿐이지만, 이렇게 난리 난 이유는 이 사건이 AI 산업계를 넘어 국제 관계에까지 영향을 미치는 굉장히 중요한 사건이기 때문이다.
딥시크의 창업자 량원펑
출처-<블록미디어>
2년도 안 된 스타트업이 새로운 접근법으로 가성비 높은 모델을 만들어, 오픈 소스로 공개하면서 데이터센터까지 직접 구축했다. 게다가 미국의 수출 통제를 받는 와중에 순수 중국기업이 이걸 해냈다고 한다.
“미국의 수출 통제에도 불구하고 중국의 AI 역량을 입증한 스푸트니크 모멘트!”
(스푸트니크 모멘트 : 기술 우위를 확신하고 안주하던 국가가 후발 주자의 압도적인 기술에 충격을 받는 상황)
“전례 없는 수준의 효율성 달성!!”
등등 수없이 많은 이야기가 떠돌다 발표 초기에 흥분된 반응이 조금 가라앉고 있다. 초기의 충격은 좀 가라앉았지만, 워낙 충격적이었던 사건이라 아직도 딥시크에 관한 수많은 이야기가 떠돌고 있다.
본 기사에서는 그중 무엇이 진실이고, 거짓인지 팩트체크 해보며 ‘딥시크’를 디벼보려 한다.
딥시크로 GPU 사용이 줄어들 것인가
딥시크가 발표되자마자 엔비디아 주가가 무려 17%나 하락하는 사건이 벌어졌다. GPT-4 수준의 성능을 27배 낮은 비용으로 달성 가능하다고 소문이 나니, 이제 GPU를 덜 사용해도 되지 않을까 기대가 생긴 것이다.
결론부터 말하자면, 딥시크가 훈련비용을 최소화 한 건 사실이지만, GPU 사용이 크게 줄어든다는 것은 설 연휴에 다이어트한다는 말처럼 현실성이 없다. 오히려 중장기적으로 GPU 사용은 크게 증가할 가능성이 높다.
왜냐.
이를 설명하려면, 우선 한 가지 배경 설명이 필요하다. AI 업계에서는 절대 법칙이 있다.
‘스케일링 법칙(Scaling Law)’
규모의 법칙이라고도 하는 ‘스케일링 법칙’은 AI 모델의 성능은 모델의 크기(파라미터의 수, 데이터양 등)에 비례해서 증가한다는 개념이다. 스케일이 커질수록 모델의 성능은 확실히 개선된다. 그리고 GPU가 많을수록 훈련 시간은 단축된다.
즉, GPU를 많이 투입할수록 그만큼 많은 시간을 들여서 훈련한 셈이 되는 것이다. 그러니 똑똑한 모델을 더욱 빨리 만들 수 있었다. 빅테크 기업들이 끝없이 GPU 사재기를 한 이유가 이것이다.
그런데 AI 산업이 커지고 발전하면서 한 가지 변화가 생겼다. GPU를 때려 박을수록 AI 성능이 향상되는 정도가 AI 초창기 때에 비해 점점 줄어들고 있었다. 천문학적인 투자에 비해서 성능 개선은 점점 줄어드는 셈. ‘스케일링 법칙’이 둔화하고 있던 것이다.
이때, 딥시크가 등장했다. 딥시크는 효율적인 알고리즘을 통해 더 적은 자원으로 비슷한 성능을 얻을 가능성을 보여줬다. 이 광경을 보며, 빅테크 기업들은 어떻게 생각할까.
“GPU를 적게 때려 넣어도 비슷한 성능을 낼 수 있구나. 그럼 GPU 사용을 줄여서 비용을 줄여야겠다!”
이렇게 생각할까? 아니다. 빅테크 기업들은 이렇게 생각한다.
“오~ 그러면 GPU를 많이 때려 박으면서 저 효율적인 알고리즘을 쓰면 성능이 팍팍 좋아지겠구만!”
OpenAI 대표 샘 알트만
출처-<한국경제>
비용 효율적인 방법이 가능함을 일깨워 주었으니 ‘스케일링 법칙’에 탄력이 다시 붙은 셈이다.
빅테크 기업들이 딥시크의 방식을 도입해서 자신들의 막대한 자원과 결합하면 기술 격차는 더욱 벌어질 가능성도 있다. 마치 프랜차이즈가 맛집 레시피를 도입하는 것처럼, 빅테크들이 이 기술을 흡수하면 독자적인 기술력과 자본을 바탕으로 경쟁력을 강화할 수 있는 것이다.
중국이 미국과의 격차를 거의 따라잡았다?
기존 모델과 비슷한 수준의 성능을 훨씬 낮은 비용으로 달성했으니 이제 중국의 AI 기술력은 미국을 능가하게 되는 걸까?
OpenAI에서 퇴사한 인물들이 설립한 회사 중 앤스로픽이 있다. 클로드를 개발한 바로 그곳이다. 앤스로픽의 CEO 다리오 아모데이(Dario Amodei)는 그의 블로그에 딥시크에 대한 글(링크)을 남기며, 차분한 설명을 했다.
다리오 아모데이
출처-<세계경제포럼>
그는 타 모델들도 알고리즘 개선으로 인한 효율성 향상이 연간 약 4배에 달할 것으로 추정했다. 딥시크가 비교적 최근에 훈련되었기 때문에 효율적으로 보이지만, 다른 모델들도 최근 훈련되는 것들은 효율성이 훨씬 증가했다는 것이다. 즉, 딥시크가 인상적이긴 하지만, 혁신적인 도약이라기보다 일반적인 발전 곡선상에 있는 것으로 해석 가능하다는 것이다. 이 말은 곧 "중국이 더 효율적인 알고리즘으로 미국을 곧 능가한다"는 식의 우려는 아직 이르다고 해석할 수 있다.
딥시크의 성공은 미국의 '스케일 업' 전략(더 많은 자원을 사용해 모델을 강화)과 대비되는, 효율적인 알고리즘 혁신을 통해 이루어졌다고 볼 수 있다. MoE(Mixture of Experts, 전문가 조합) 아키텍처와 같은 방법을 통해 GPU 자원을 적게 사용하면서도 높은 성능을 유지하는 등 여러 가지 혁신이 있다. 예를 들어, 기존의 AI는 어떤 작업을 하든 전체 AI 신경망을 활성화하는 방식이었다면, 딥시크가 사용한 MoE 아키텍처는 어떤 작업을 수행하기 위해 활성화되어야 하는 특정 AI 신경망만 활성화한다. 때문에 더 효율적인 알고리즘을 쓴다고 할 수 있다.
하지만, 그렇다고 해서
'실리콘밸리의 스케일 업 전략 vs 딥시크의 알고리즘 혁신 전략’
이라는 이분법적인 시각으로 AI를 바라보면, 현실을 지나치게 단순화한 것이다.
아모데이가 설명한 AI 개발의 세 가지 역학(스케일링 법칙, 알고리즘 효율성 향상, 패러다임 전환)은 다른 업체들도 이미 알고 실천하고 있다. 빅테크들도 알고리즘 혁신에 게을렀던 것이 전혀 아니다. 그들도 알고리즘 최적화와 모델 경량화에 꾸준히 투자하고 있고, 하드웨어·소프트웨어의 복합적 발전을 추구하고 있었다. 즉, 실리콘밸리든 딥시크든 각기 다른 방식만을 쓰며 AI를 개발하는 게 아니라 위 세 가지 역학 요소를 다 섞어서 개발하고 있다는 말이다. 하여, 이분법적인 시각으로 바라볼 이슈가 아니다.
또한 AI 역량 격차가 크게 줄어들기는 했지만, 딥시크가 현재 최신 프론티어 모델보다 종합적으로 뛰어난 성능을 보인다고 보기는 어렵다. 혁신의 폭이 컸던 것은 후발주자(second mover)의 이점일 뿐이며, 개척자(선두 주자)가 되었을 경우 이런 혁신을 유지하는 것은 다른 차원의 문제다.
딥시크는 오픈 소스다?
딥시크는 오픈 웨이트(Open-Weight) 모델로 가중치를 공개했지만, 엄밀히 말해 오픈 소스 모델은 아니다. 연구자와 개발자들이 충분히 활용 가능하지만, 훈련에 사용된 데이터나 소스 코드 전체를 공개하지 않았기 때문이다(이를 전문용어로 ‘MIT 라이선스’라고 한다). 따라서, 엄밀하게 딥시크를 오픈 소스라고 부르는 것은 정확하지 않다. 하지만 데이터나 소스 코드는 물론이고 가중치도 공개하지 않은 OpenAI보다는 훨씬 많은 걸 공개한다. 넓게 본다면, 오픈 소스 생태계의 일부로 봐도 될 듯하다.
출처-<로이터>
DeepSeek라고 부르는 것에는 두 가지 의미가 있다.
하나는 앱이자 서비스인 DeepSeek이고, 다른 하나는 오픈 소스 라이브러리를 얘기한다. ChatGPT는 앱이자 서비스로서 클라우드로만 이용할 수 있다. 하지만 딥시크는 매번 앱으로 접속하지 않고도, 다운로드해서 자신의 컴퓨터에 설치해 자신의 로컬 컴퓨터로 돌리는 게 가능하다. 오픈 소스계가 들썩이는 건 이것 때문이다.
DeepSeek-R1이 공개되자마자 온갖 실험적 시도가 쏟아지고 있다. DeepSeek-R1이 공개된 지 일주일도 안 되어서 소규모 AI팀이 모델 경량화 기법을 사용하여 약 80% 용량 감소를 했다고 한다. 성능은 거의 그대로 유지하면서 크기를 대폭 줄이는 데 성공한 것이다.
이건 겨우 시작일 뿐이다. IT산업의 근간이 되는 소프트웨어들은 오픈 소스가 절대적인 위력을 보이고 있다. (OpenAI의 ChatGPT같이) 폐쇄된 기업용 제품에 맞서는 오픈 소스 제품이 일단 나오면, 그 뒤에는 오픈 소스가 시장을 점령하게 된다. 비용은 말할 필요도 없고, 커스터마이징(맞춤 제작)이 가능하고, 벤더(AI서비스를 제공하는 기업)에 종속될 필요가 없기 때문이다. 게다가 오픈 소소를 기반으로 세계 각국의 사용자들이 AI 소프트웨어를 개선해 나간다면, 일개 기업의 힘만으로는 그 혁신 속도를 따라잡기 힘들다. 즉, 오픈 소스 AI와 폐쇄용 AI는 집단 지성과 일개 기업의 싸움이 되는 것이다. 이런 사례는 Linux, Visual Studio Code, Android 등등 끝이 없다.
오픈 소스 생태계에서 (OpenAI 같은 폐쇄적 기업이 상상할 수 없는) 기발한 혁신이 쏟아져 나오게 되는 건 정해진 순서이다. 술의 원액을 증류해 도수를 높이듯, 대형 모델을 경량화하는 과정을 통해서 이미 고성능 랩톱이나 데스크톱에서도 구동이 가능하다. 곧 고성능 스마트폰에서도 구동되는 경량화된 모델이 나올 것이다. 클라우드가 아닌 기기 자체에서 정보를 처리하는 온디바이스(On-Device) AI가 딥시크를 중심으로 확산될 것이다.
그렇다. AI 업계는 이제 환상의 로얄 럼블이 펼쳐지며 생태계가 더욱 다양해지게 될 것이다. 주로 클라우드에 갇혀 있던 AI 추론이 디바이스로 이동함에 따라, 컴퓨팅 구조가 탈중앙화될 수 있다. 그리고 이는 PC와 스마트폰의 대규모 업그레이드를 촉발할 것이다.
미·중 디지털 패권 경쟁
엔비디아 주가가 폭락하고, 덩달아 하이닉스 등 연관기업들 주가도 폭락했다. 각국의 정치인들도 뭔가 대비한다고 야단이다. 확실히 엄청난 충격을 던져준 건 사실이다.
전술했듯, 딥시크는 기술적으로 눈에 띄는 여러 성과가 있다. MoE(Mixture of Experts) 아키텍처와 MLA(Multi-head Latent Attention) 등의 혁신적 기술을 도입해서, 저비용으로 고성능 모델을 구현했다. 데이터 기반의 강화학습만으로 훈련했으며, 저비용 GPU와(H800) 추론 특화 NPU(화웨이)로 운영비를 획기적으로 개선했다.
어느 실리콘밸리 스타트업이 딥시크와 똑같은 성취를 보였더라면 이렇게까지 큰 충격을 받았을까? 중국이 미국이 제재를 뚫고 이런 성과를 보여준 것이 아니었다면, 이렇게까지 큰 주목을 받았을까?
초거대 모델 개발 역량은 국가의 R&D 기술력을 상징한다. AI는 단순히 R&D 기술력의 문제에서 그치지 않고 군사·산업적으로도 의미가 크다. 미·중이 AI를 중심으로 패권 경쟁을 벌이고 있는 와중이기 때문에 딥시크의 돌출이 이토록 임팩트가 큰 것이다.
AI 개발이 미국 빅테크들의 리그로 굳어져 가고 있던 차에 딥시크가 경종을 울린 점은 큰 의미가 있다. 개당 수천만 원에 달하는 엔비디아 GPU를 최대한 많이 사들여 컴퓨팅 파워를 늘리고, 데이터를 쓸어 담고 보자는 식의 경쟁이 세상의 끝을 향해 달리고 있었다.
출처-<엔비디아>
제대로 된 파운데이션 모델을 개발하려면, 최소 대왕고래 시추 비용의 몇 배나 필요했기 때문에 진입 장벽이 너무 높았다. 그런데 딥시크는 2KSD(1곽상도=50억, 즉 백억 원) 미만으로 이걸 성공했다고 한다. 게다가 자세한 내용도 공개해서 따라 하면, 다른 국가/기업들도 충분히 구현할 수도 있다고 한다.
물론 딥시크의 훈련 비용은 연구 개발 비용, 반복 훈련 비용은 포함하지 않은 1회 훈련(1 epoch) 비용일 뿐이고, 그들은 이미 관련 전문가들 및 고성능 GPU도 최소 수만 장 이상 확보하고 있었던 게 확실하기 때문에 딥시크가 처음에 공개됐을 때의 임팩트는 과장된 것이 맞다. 그러나 진입 자체가 불가능할 정도로 높게 느껴졌던 AI 장벽이 딥시크로 인해 많이 낮아진 것은 사실이다.
전술했듯, 딥시크가 현재 최신 프론티어 모델보다 종합적으로 뛰어난 성능을 보인다고 보기는 어렵다. 딥시크를 AI계의 알리나 테무로 비유하기도 하는데, 적절한 비유다. 하지만 모든 사람이 최고 품질을 필요로 하는 게 아니듯, 모든 국가와 기업이 최신 프론티어 모델의 강력한 성능을 필요로 하는 건 아니다. 개발도상국의 경우는 비슷한 성능에 훨씬 저렴한 가격을 선택할 가능성이 높다.
딥시크는 화웨이 칩을 기반으로 서비스하고 있는데, 개발도상국 데이터 센터는 대량의 엔비디아의 GPU를 감당할 여력이 없다. 따라서 개발도상국 중심으로 화웨이 칩이 시장을 넓혀갈 가능성도 있다.
출처-<디지털타임스>
특히 디지털 실크로드(Digital Silk Road)와 관련 있는 아프리카, 동남아시아, 중동을 중심으로 영향력 확대는 불가피할 것이다. 물론 미국은 이러한 중국을 견제하기 위해 노력하겠지만, 이런 흐름으로 계속 간다면 세계의 디지털 생태계가 미국과 중국으로 양분될 가능성이 있다.
미국의 대중국 수출 통제는 실패인가
확실히 딥시크의 성과는 AI 기술 경쟁에서 중국의 부상을 보여주지만, 미국의 대중국 수출 통제가 실패했다는 의미는 아니다.
딥시크 개발에는 수출 통제가 되지 않는 칩(H20), 금지되기 전에 선적된 칩(H800), 밀수된 것으로 보이는 칩(H100)을 사용된 것으로 보인다. 즉, 딥시크는 완전하게 저사양 칩만을 사용해 개발한 것이 아니다. 딥시크에도 고성능 칩은 필요하다.
그리고 미국의 대중국 수출 통제 목적은 중국이 수만 개의 고성능 칩을 얻는 것을 막기 위한 것이 아니다. 수백만 개의 고성능 칩을 얻는 것을 막는 것이다. 중국이 계속 AI 개발을 그만두지 않는 한 고성능 칩은 계속 필요하다. 때문에 벌써 미국의 대중국 수출 통제 성공 여부를 판단하는 건 이르다.
그렇다면, 딥시크의 출시와 동시에 엔비디아 주가는 왜 급락했냐. 반도체 수출 규제가 강화될 우려 때문이다. 미국은 프론티어 AI모델의 개발을 냉전 시대 핵무기 개발 기술과 비슷한 레벨로 보고 있다. 이번 스푸트니크급의 충격으로 미국은 수출 통제를 더욱 강화할 것이 분명하다.
출처-<시사저널e>
이에 맞서 중국은 AI 모델 오픈소스 생태계와 화웨이 등을 통한 AI칩 공급망을 형성하여 독자적인 생태계 구축을 시도하며 반격할 것이다. 그러면 미국은 더 수출 통제를 강화할 것이다. 이런 불안이 시장에 반영되어 엔비디아의 주가가 급락했었다.
그러나 전술했듯 GPU는 계속 필요할 수밖에 없다. 치킨집은 망해도 닭을 공급하는 업체는 망하기 어려운 것처럼, GPU 시장 전체는 계속 활기를 띨 것이다. 다만, 미중 경쟁 과정에서 엔비디아의 잠재적 시장은 축소될 가능성이 있다.
딥시크, AI 발전에 가속도를 붙이다
AI는 단순한 기술 혁신이 아니다. 이는 21세기 패권을 좌우할 핵심 열쇠다. 다리오 아모데이는 AI를 ‘데이터 센터에 있는 천재들의 나라’라고 비유한다. AI 기술을 확보하는 건 천재를 길러내는 것과 같다는 것이다. 천만 명의 천재들로 구성된 나라를 한번 상상해 보라. 어떤 힘을 가지게 될까?
생산성 향상은 물론이고 연구개발 속도가 폭발한다. 인간이 풀기 어려웠던 다양한 과학 분야의 난제들에 돌파구가 생긴다. 정보 분석 능력의 향상으로 군사적 능력이 업그레이드된다. AI 개발을 통해 경제적, 군사적 가치가 비약적으로 상승한다. 그렇기에 AI 개발을 계속할 수밖에 없는 상황이다. 나아가서 미국과 같이 민주주의 국가가 AI 경쟁에서 우위를 가져야 한다고 대놓고 주장하는 테크 리더들도 있다. AI 경쟁이 민주주의와 권위주의 체제 간의 이념적 경쟁으로 까지 격상된 것이다. 미국이 중국의 AI 칩 수출을 필사적으로 막는 이유가 여기에 있다.
출처-<OpenAI>
얼마 전 등장한 OpenAI Deep Research는 사람이 며칠 걸릴 리서치를 10분 내로 처리 가능하다. Deep Research가 쓴 논문이 수정 없이 저널에 등재되는 일까지 생길 정도로 퀄리티가 준수하다. 모든 면에서 인간 지능을 능가하는 AGI(인공 일반 지능)까지는 모르겠지만, 특정 작업에서 인간 이상의 성능을 보이는 에이전틱 AI는 이미 현실이다.
현재 AI는 일주일 분의 인간 작업 지능에 근접했다고 볼 수 있다. 인간이 일주일간 엄청나게 집중하고 머리를 싸매야지만 할 수 있는 일을 순식간에 해치울 수 있다는 말이다. GPT-3.5가 등장한지 불과 2년여 만에 벌어진 일이다. 1분짜리 지능(텍스트 이해와 답변, 상식적 추론) 내지 1시간짜리 지능(시험문제 풀이, 글쓰기, 프로그래밍)이 2년 만에 일주일짜리 지능에 도달했다.
2년 후 AI는 어떻게 될까? 1개월짜리 지능(복잡한 프로젝트 자율적 관리) 도달은 이미 임박했다. 1년짜리 지능(인간 수준의 프로젝트 자율적 관리 가능) 도달은 시간문제일 뿐이다. 또한 초기 AI가 한 번에 한 가지 기능만 수행할 수 있었다면, 지금의 AI는 여러 가지 작업을 동시에 수행하고 결과물을 검토하는 일까지 가능하다.
의식을 가진 지능, AGI까지는 모르겠지만, 복잡한 프로젝트를 수행하기 위해 필요한 여러 가지 작업을 스스로 설정하고 필요한 기능을 호출해서 수행하고, 결과물을 스스로 검토해서 준수하게 마무리하는 일 또한 곧 가능해진다.
데미스 하사비스
출처-<Axios>
구글 딥마인드의 수장 하사비스(Demis Hassabis)는 AI가 단기적으로는 과대평가 되었지만, 중장기적으로는 과소평가 되었다고 항상 얘기한다. 그는 5-10년 내로 AGI에 도달할 것이라고 전망하는데, 자금 좀 땡겨보겠다는 사기꾼들의 헛소리가 아니다. 많은 테크 리더들이 동의하는 지점이다.
아모데이의 세 가지 역학(스케일링 법칙, 알고리즘 효율성 향상, 패러다임 전환)을 다시 떠올려 보자.
스케일링 법칙은 여전히 유효하고 빅테크들은 GPU 투자를 멈출 생각이 없다. 딥시크의 등장으로 알고리즘 효율성 향상은 더욱 가속화되었다. 거기에 미·중 패권 경쟁까지 본격화하면서 양국은 AI를 둘러싸고 영적 전쟁을 치르고 있다. AI 오픈소스 생태계도 활성화되면서 이 모든 게 시너지를 일으키며 혁신 속도는 더욱 빨라질 수밖에 없는 상황이다. 딥시크가 던진 돌멩이가 꽤 큰 파문을 만들었고, 그 여파는 이제 겨우 시작했다.
검색어 제한 안내
입력하신 검색어에 대한 검색결과는 제공하지 않고 있습니다.
딴지 내 게시판은 아래 법령 및 내부 규정에 따라 검색기능을 제한하고 있어 양해 부탁드립니다.
1. 전기통신사업법 제 22조의 5제1항에따라 불법촬영물 등을 기재(유통)시 삭제, 접속차단 등 유통 방지에 필요한 조치가 취해집니다.
2. 성폭력처벌법 제14조, 청소년성처벌법 제11조에 따라 불법촬영물 등을 기재(유통)시 형사 처벌을 받을 수 있습니다.
3. 『아동·청소년의 성보호에 관한 법률』 제11조에 따라 아동·청소년이용 음란물을 제작·배포 소지한 자는 법적인 처벌을 받으실 수 있습니다.
4. 정보통신망 이용촉진 및 정보보호 등에 관한 법률 및 시행령에 따라 청소년 보호 조치를 취합니다.
5. 저작권법 제103조에 따라 권리주장자의 요구가 있을 시 복제·전송의 중단 조치가 취해집니다.
6. 내부 규정에 따라 제한 조치를 취합니다.