최신 기사 추천 기사 연재 기사 마빡 리스트

 

2025년, 챗봇에서 에이전트로

 

갓 태어난 아기가 무슨 쓸모가 있겠는가. 모든 혁신 기술은 탄생 시에는 매우 보잘것없었다. 증기기관이 그러했고 전기 기술이 그랬다. 하지만 LLM(대형 언어 모델)은 태어나자마자 코딩과 글쓰기에서 엄청나게 유용하다는 것을 입증했다. 2025년은 그 아기의 폭발적인 성장을 확인한 해이다. ChatGPT를 직접 써봤지만, 별거 없다고 생각하는가. LLM은 확률적 앵무새에 불과하며 한계가 뻔하다고 생각하는가. 아직도 그렇게 생각한다면 2026년부터는 정말로 그 생각을 바꿔야 할 것이다.

 

지난 기사에서는 AI를 단순한 도구가 아닌 인류의 사고방식 자체를 바꿀 혁명이라고 정의한 바 있다. 먼 옛날 문자가 발명되었을 때 기억력 퇴화를 우려했지만, 오히려 문자는 복잡한 논리를 가능케 하여 인간의 지능을 확장한 것과 비슷하다. AI는 인류의 인지적 한계를 새로운 차원으로 넓혀주는 도구가 되고 있다.

 

2025년은 수십 년간 이어져 온 IT 혁명, 정보혁명이 사고 혁명으로 바뀐 원년이었다. 이는 LLM이란 아기가 쑥쑥 자랐기 때문이다. 그렇다면 폭발적 성장의 배경은 무엇일까. 발전의 패러다임이 추론(Reasoning)과 에이전트(Agent)로, 본격적으로 바뀌었기 때문이다. 과거의 LLM이 단답성 질문에 답하는 챗봇에 가까웠다면, 현재는 문제를 해결할 전략을 짜고 직접 실행하는 에이전트로 진화했다.

 

 

추론 혁명과 새로운 하드웨어 전쟁

 

 과거에는 모델 크기를 키워야만 추론 성능이 올랐다. 하지만 이제는 이미 학습된 모델이 효과적인 추론 방식을 알려주고, 시간을 더 주는 것만으로도 성능이 향상된다. 이미 훈련을 마친 모델의 성능을 향상시킨다는 점에서 사전 학습(pre-training, 프리 트레이닝) 스케일링 법칙과 대비해 이를 ‘포스트 트레이닝(post-training) 스케일링 법칙’이라고 부르기도 한다. 이제 AI(LLM)는 사전 학습을 넘어 새로운 차원의 발전 축으로 나아가고 있다. 

 

문제는 AI 에이전트가 연산량, 즉 토큰을 엄청나게 많이 소모한다는 점이다. 과거에는 주로 훈련 과정에 자원이 투입됐지만, 이제는 추론 단계에서도 상당한 연산과 메모리가 필요해졌다. 훈련 비용은 여전히 비싼데 에이전트 기반 서비스 확산으로 추론 수요까지 폭발적으로 증가하고 있는 것이다. 특히 에이전트는 처리해야 할 콘텍스트가 길고 여러 단계를 거치기 때문에, 추론 과정에서의 메모리 부담이 훨씬 크다. 이로 인해 AI 산업의 하드웨어 구성과 비용 구조, 나아가 서비스 모델 자체가 근본적으로 재편되고 있다. 

 

83d6ea1de5d157504b59a6c43bc38340.png

 

그렇다. 에이전틱 AI 시대가 시작되면서 삼성전자, SK하이닉스 같은 HBM 메모리를 만들 수 있는 반도체 기업의 미래는 당분간 매우 밝다. (주가는 모른다) 엔비디아 GPU는 학습과 추론을 모두 잘할 수 있도록 설계된 범용 칩이라 비싸다. 추론의 비중이 커짐에 따라 대역폭이 크고 빠른 메모리를 엄청나게 많이 달아놓은 추론 전용 칩(NPU)이 부상할 가능성도 크다.

 

 

효율의 시대, 오케스트레이션 기술

 

올해부터는 메모리를 적게 쓰면서도 성능을 유지하는 기술을 가진 기업의 가치가 오를 수 있다. 단순히 성능 좋은 모델이 아니라, 에이전트가 낭비 없이 효율적으로 사고하도록 제어(Orchestration)하는 기술을 확보하는 것이 중요해진다. AI 에이전트가 적절한 계획을 세우고, 적절한 워크플로우를 설계하고, 적절한 도구를 호출하고, 적절한 프롬프트로 조화롭게 아우르도록 제어하는 것이 매우 중요한 기술이다.

 

모델 자체의 벤치마크 성능은 구글 제미나이나 OpenAI ChatGPT 보다 약간 떨어지기도 하는데 클로드(Anthropic)는 왜 개발자에게 절대적인 지지를 받고 있을까. 에이전트가 효율적인 사고를 하도록 제어하는 기술이 뛰어나기 때문이라고 생각한다. 그렇다. 앤트로픽은 바로 이런 기술을 가지고 있다. 비록 구글과 OpenAI, xAI라는 거인들 사이에 끼어 있지만 앤트로픽의 미래는 당분간 매우 밝다고 생각한다.

 

7356a3fede61562296bb1fc2fee5a2a6.jpg

 

 

손발이 묶인 천재에서 주방을 운영하는 셰프로

 

개발자가 아니더라도 작년부터 에이전트, 에이전틱 AI란 말을 많이 들어봤을 것이다.  여기서 잠깐 개념을 정리하고 넘어가자. 이를 요리사와 주방에 비유해 보자면, 먼저 LLM은 수없이 많은 레시피를 알고, 맛에 대한 평가가 정확한 천재 셰프에 비유할 수 있다. 요리를 떠먹여 주고 맛을 물어보거나 레시피를 말하게 할 수는 있지만, 손발이 묶여 있어서 직접 칼질을 하거나 불을 사용할 수는 없다. 

 

 

도구 호출(Tool Calling)이란?

 

얼마 전 이 천재 미식가에게 주방 도구 사용을 허락했다. 이것이 바로 도구 호출(Tool Calling)이다. 과거에는 Function Calling이라고도 불렸다. AI가 텍스트 생성을 넘어, 파이선 코드를 돌리겠다, 파일을 열겠다고 호출하면 시스템이 해당 도구를 실행하고 그 결과를 다시 AI에게 돌려주는 방식이다. 요리사가 드디어 칼을 잡고, 불을 때고, 냄비를 올릴 수 있게 된 것이다.

 

하지만 도구만 사용할 줄 알면 뭐 하겠는가. 중요한 건 어떤 식재료와 도구를 골라서 무슨 요리를 만들 것인지 계획하는 능력이다. 예를 들어 육수는 시간이 오래 걸리니까 먼저 냄비에 물을 올려놓고, 그 사이에 칼로 재료를 손질하고, 어느 타이밍에 어떻게 조리할지 판단하는 것. 언제나 핵심은 이 계획 능력이다.

 

 

에이전트, 스스로 판단하는 AI

 

에이전트는 단순히 레시피대로 움직이는 요리사가 아니라, 손님의 요청을 듣고 스스로 메뉴를 구성하여 주방 전체를 운영하는 헤드 셰프에 비유할 수 있다.

 

영어에서 에이전트란 기본적으로 “행동하는 자"를 의미한다. 대리인 또는 부동산 중개인, 정보원 등 누구를 대신해 행동할 권한을 가진 사람이라는 뉘앙스가 강하다. 따라서 “에이전틱 AI”는 AI가 자율성을 가지고 행동한다는 의미에서 “에이전트”와 대체로 일치한다. 하지만 사람마다 자율성의 범위에 대해서는 서로 조금씩 다른 의미로 해석해 혼란이 있다.

 

클로드 코드를 개발한 앤트로픽의 설명에 따르면, 동적으로 도구 호출을 하고 이를 통해 필요한 작업을 수행해야만 LLM 시스템이라고 할 수 있다. 즉 정해진 레시피대로만 조리하는 셰프가 아니라, 대략적인 목표만 주어지면 상황에 맞게 스스로 판단하고 필요한 식재료와 도구를 동원할 줄 알아야 한다. 

 

스크린샷 2026-01-06 오전 10.25.58.png

Building effective agents(링크)

 

인간 직원을 LLM으로 완전히 대체한다는 발상은 아직 공상의 영역이다. 무엇이든 말만 하면 들어주는 컴퓨터 비서도 어림없다. 그러나 특정 영역의 작업을 수행할 수 있는 LLM 시스템(에이전틱 AI)은 이미 존재하며 매우 유용하다는 것 역시 입증되었다. 

 

 

한 달간 코드 한 줄도 안 쓴 개발자

 

6f61ce1bbaae8443fdda66818b913c91.png

 

2025년, 업계에 가장 큰 영향을 미친 사건은 2월에 조용히 출시된 클로드 코드였다. 채팅창에서 질문에 답하는 AI가 아니라, 직접 파일을 읽고, 코드를 수정하고, 테스트를 실행하는 에이전틱 AI라는 개념이 실제 생산성 도구로 넘어간 분기점이었다고 생각한다. 

 

클로드 코드(Claude Code)의 개발자 보리스 체르니(Boris Cherny)는 2025년 12월 26일 자신의 경험을, 트위터를 통해 공개했다. 한 달간 수만 줄의 코드를 만들고 수정했지만, 전체 과정은 클로드 코드로 진행되었다는 내용이었다. 불과 1년 전만 해도, 클로드는 기본적인 명령 실행에도 헤매면서 기껏해야 분 단위로 작동했다. 하지만 최신 모델(Opus 4.5)의 경우 이제는 며칠 동안 인간의 개입 없이 스스로 작동할 수 있다. 

 

생각해 보면 우리가 하는 대부분의 지적 작업도 결국 비슷한 구조로 되어 있다. 코드를 실행하면 에러가 나오고 그 에러를 보고 수정하듯이, 문서를 작성하면 필수적인 사항에 대한 누락이 발견되고, 그걸 보완한다. 데이터를 분석하면 오류가 드러나고, 다시 검증한다. 결국 시도 → 피드백 → 수정이라는 루프는 거의 모든 지적 작업에 존재한다. 에이전틱 AI가 수많은 지적 작업 중 코딩 분야에서 눈에 띌 만한 성과를 낸 이유는, 이 피드백이 가장 즉각적이고 명확했기 때문일 뿐이다. 코딩 영역에서 일어난 1년간의 발전 속도를 보라. 이러한 도약이 다른 분야로 번지는 것은 시간문제이다. 

 

 

먼저 온 미래

 

개발자들은 AI 시대가 맞이할 미래를 먼저 경험하고 있다. 그들이 겪고 있는 변화는 곧 대부분의 지식 노동자들도 비슷하게 겪게 될 가능성이 높다. 보리스 체르니가 한 달 동안 코드를 한 줄도 직접 쓰지 않았다는 건, 그가 일을 안 했다는 뜻이 아니다. 그의 역할이 코드 작성자에서 방향 제시자이자 검토자로 바뀌었다는 뜻이다. 이것이 변호사에게, 연구원에게, 분석가에게, 작가에게 결국 일어나지 않을 이유가 있을까.

 

현재 AI는 며칠분의 인간 지능에 근접했다고 볼 수 있다. GPT-3.5가 등장한 지 불과 3년 만에 벌어진 일이다. ‘텍스트 이해와 답변’과 같은 상식적 추론의 1분짜리 지능이 ‘시험문제 풀이, 글쓰기, 프로그래밍’ 같은 몇 시간짜리 지능을 거쳐, ‘소규모 코딩과 프로젝트 관리’라는 며칠 짜리 지능에 불과 3년 만에 도달했다. 3년 후 AI는 어떻게 될까? 지금의 발전 속도로 ‘복잡한 프로젝트의 자율적 관리’와 같은 1개월짜리 지능 수준에 도달하지 못한다면 아마 큰 이변일 것이다.  

 

 

AI의 들쭉날쭉한 능력

 

AI는 특정 영역에서 엄청난 능력을 발휘하지만, 동시에 간단한 산수나 논리에서 말도 안 되게 멍청하기도 하다. 이 들쭉날쭉한 능력 때문에, 어떤 이에게는 쓸모없는 장난감으로, 다른 이에게는 거의 전능한 존재로 평가가 극단적으로 갈린다. 최근 발표되는 모델들은 과거에 불가능했던 영역을 한 달이 멀다 하게 넓히고 있다. AI가 지금 못하는 것을 앞으로도 못할 것이라 단정 지어서는 안 된다. 영원히 불가능한 영역이 있을지도 모르지만, 그 면적은 급속도로 줄어들고 있다.

 

e7a4fb605919f50e24a2e4f742e0eebb.jpg

We are here

(The Shape of AI: Jaggedness, Bottlenecks and Salients, 링크)

 

2025년은 LLM이 예상보다 훨씬 똑똑하면서도 동시에 예상보다 훨씬 멍청하다는 것을 깨닫게 해준 해였다. 그럼에도 인공지능을 단순한 도구가 아니라 생각하는 동료로 보아야 한다. 잠재력 일부를 펼쳐 보이기 시작했으니, 이제 겨우 시작이다.

 

 

화요 스님.jpg

 

편집: 이현화

마빡 디자인: 꾸물

기사: 히야신스

 

제보 및 연재 문의

ddanzi.master@gmail.com