제4장. Scaling Law의 끝과 추론의 시대 · 키비타스 아겐티아 1권

*이 장을 다 읽고 나면 알게 될 것: AI 발전의 패러다임이 어떻게 바뀌었는지, 그 변화가 왜 인간과 AI의 관계를 근본적으로 재설정하는지*

도입: 무어의 법칙이 끝났을 때

1965년, 인텔의 공동창업자 고든 무어는 반도체 집적도가 2년마다 두 배로 늘어난다고 예측했다. 이 예측은 반세기 동안 맞았다. 컴퓨터는 매년 더 빨라졌고, 더 작아졌고, 더 저렴해졌다. 그 법칙 위에 디지털 문명 전체가 세워졌다.

그런데 2010년대 중반부터 그 법칙이 흔들리기 시작했다. 트랜지스터를 더 작게 만드는 데 물리적 한계가 보이기 시작한 것이다. 원자 몇 개 수준까지 줄어든 회로에서는 양자 효과가 나타나고, 열이 빠져나가지 못하고, 전류가 새어 나간다.

업계는 대응했다. 더 작게 만드는 대신, 다르게 만들기 시작했다. 3차원으로 쌓고, 특수 목적 칩을 만들고, 새로운 재료를 도입했다. 법칙은 끝났지만 발전은 계속되었다. 다만 방식이 바뀌었다.

AI에서도 지금 비슷한 일이 일어나고 있다. 그리고 그 변화는 무어의 법칙 종말보다 더 깊은 의미를 가진다.

4.1 Scaling Law — 더 크면 더 똑똑하다

2020년, OpenAI의 연구진은 한 편의 논문을 발표했다. 제목은 「Scaling Laws for Neural Language Models」. 핵심 발견은 단순했다. 모델 크기, 데이터 양, 컴퓨팅 자원을 늘리면, 성능은 예측 가능한 멱법칙을 따라 올라간다.

이것이 Scaling Law다. 그리고 이 법칙은 AI 업계에 명확한 전략을 제시했다. 돈을 더 쓰면 된다. 더 큰 모델을 만들면 된다. 더 많은 데이터를 먹이면 된다. 더 많은 GPU를 돌리면 된다.

빅테크는 이 전략을 전력으로 따랐다. 마이크로소프트는 OpenAI에 130억 달러를 투자했다. 구글은 TPU 클러스터를 확장했다. 메타는 NVIDIA H100을 수십만 개 사들였다. 아마존, 오라클, 모든 클라우드 기업이 데이터센터를 지었다. 2024년 한 해에만 AI 인프라에 투입된 자본은 수천억 달러로 추정된다.

GPT-2에서 GPT-3로, GPT-3에서 GPT-4로 이어진 도약이 이 투자를 정당화했다. GPT-2는 간단한 문장을 쓸 수 있었다. GPT-3는 에세이를 쓸 수 있었다. GPT-4는 변호사 시험을 통과했다. 규모를 키우면 새로운 능력이 등장하는 것처럼 보였다.

그러나 모든 법칙에는 끝이 있다.

잠시 멈추고 생각해보자
"돈을 더 쓰면 AI가 더 좋아진다"는 논리가 영원히 성립할 수 있을까? 인간의 교육에서 비슷한 논리가 성립하는가? 좋은 학교에 더 많은 돈을 쓴다고 학생이 무한히 똑똑해지는가?

4.2 왜 Scaling이 벽에 부딪혔는가

2024년 후반, 불안한 신호가 나오기 시작했다. 정확한 내부 데이터는 공개되지 않았지만, 여러 경로로 비슷한 소식이 흘러나왔다.

OpenAI의 차세대 모델이 기대만큼의 도약을 보이지 못한다는 보도. 구글의 제미나이 울트라 후속작이 벤치마크에서 전작 대비 개선이 미미하다는 이야기. 앤트로픽의 차기 클로드도 일정이 늦춰졌다는 소문.

그리고 2024년 12월, NeurIPS 학회에서 일리야 수츠케버가 발표했다. OpenAI의 공동창업자이자 GPT 시리즈의 핵심 설계자였던 인물이다. 그의 메시지는 명확했다.

"사전학습의 데이터는 화석연료와 같다. 유한하다. 인터넷에 존재하는 텍스트는 이미 상당 부분 소진되었다. 합성 데이터로 보충할 수 있지만, 그것으로 같은 속도의 성장을 유지할 수는 없다."

여기에 더해 경제적 한계도 보이기 시작했다. GPT-4 학습에 약 1억 달러가 들었다고 추정된다. GPT-5급 모델의 학습에는 수억 달러에서 10억 달러 이상이 필요할 것으로 보인다. 이 비용을 정당화하려면 그만큼의 성능 도약이 있어야 한다. 그런데 그 도약이 보이지 않는다면?

물리적 한계도 있다. 미국 전력망이 AI 데이터센터의 수요를 감당하지 못하기 시작했다. 2025년 기준으로 미국 전력 수요의 약 6퍼센트가 데이터센터에서 나온다. 이 비율은 매년 빠르게 올라가고 있다. 마이크로소프트가 스리마일 아일랜드 원전의 재가동을 추진하고, 아마존이 핵발전소 부지 옆에 데이터센터를 짓는 것은 이 때문이다.

Scaling Law는 끝나지 않았다. 그러나 수확체감이 시작되었다.

같은 비용을 투입해도 과거와 같은 도약을 얻지 못한다. 이것은 법칙의 종말이라기보다 새로운 국면의 시작이다.

4.3 DeepSeek R1 — 효율의 충격과 지정학적 의미

AI 업계는 다른 길을 찾았다. 모델을 키우는 대신, 모델이 답하는 방식을 바꿨다.

핵심 아이디어는 이것이다. 학생이 시험 볼 때를 생각해보자. 똑같은 학생이라도 문제를 보고 바로 답을 쓰는 것과, 연습장에 풀이과정을 적으면서 천천히 푸는 것은 결과가 다르다. 어려운 문제일수록 그 차이가 크다.

AI에도 같은 논리를 적용할 수 있다. 모델이 답을 바로 내뱉는 대신, 내부적으로 여러 단계의 사고를 거치게 하자. 가설을 세우고, 검증하고, 수정하고, 다시 검증하는 과정을 거치게 하자.

2024년 9월, OpenAI가 o1을 발표했다. 이것이 추론 모델의 시작이었다. o1은 수학, 과학, 코딩 문제에서 GPT-4를 큰 폭으로 앞질렀다. 국제수학올림피아드 문제를 풀고, 박사 수준의 물리 문제에 답하고, 복잡한 코딩 과제를 해결했다.

그 뒤를 이어 여러 추론 모델이 등장했다. OpenAI의 o3. 앤트로픽 클로드의 확장된 사고 모드. 구글 제미나이의 딥 씽킹. 그리고 2025년 1월, 중국 딥시크의 R1이 등장했다.

딥시크 R1은 특별했다. 미국 빅테크 대비 훨씬 적은 비용으로 비슷한 추론 성능을 보였기 때문이다. 딥시크는 NVIDIA의 최신 칩이 아닌 이전 세대 칩으로, 그리고 미국의 수출 규제 때문에 제한된 자원으로 이것을 해냈다. 세계는 충격받았다. 엔비디아 주가가 하루 만에 17퍼센트 빠졌다. 시가총액 6000억 달러가 사라졌다.

이 충격의 본질은 무엇이었나. "돈을 많이 써야 좋은 AI를 만든다"는 믿음이 흔들린 것이다. 더 정확히 말하면, 돈의 방향이 바뀌어야 한다는 것이 드러난 것이다.

잠시 멈추고 생각해보자
학습에 많은 비용을 쓰는 것과 추론에 많은 비용을 쓰는 것의 차이를 교육에 비유해보자. 좋은 대학에 입학하는 것(사전학습)과 매일 깊이 생각하며 일하는 것(추론), 어느 쪽이 장기적으로 더 가치 있는가?

4.4 추론 시간 컴퓨팅 — 느리게 생각하는 기계

추론 모델의 작동 방식을 간단히 보자.

기존 모델은 질문을 받으면 곧바로 답을 생성한다. "한국의 GDP는?" → "약 1.7조 달러이다." 한 단계. 빠르다.

추론 모델은 다르다. 어려운 문제를 받으면 내부적으로 긴 사고 체인을 생성한다.

"이 문제를 풀려면 먼저 무엇을 알아야 할까."

"이 가정이 맞다면 다음 단계는 무엇인가."

"잠깐, 여기서 실수한 것 같다. 다시 해보자."

"이 결론은 앞의 조건과 모순된다. 수정하자."

이 과정이 수백에서 수천 토큰에 걸쳐 일어난다. 사용자에게는 "생각 중입니다"라는 표시가 나온다. 몇 초에서 몇 분이 걸린다. 어려운 문제에서는 더 오래 걸린다.

이것이 의미하는 바는 크다.

첫째, 비용 구조가 바뀌었다. 기존에는 모델을 학습시키는 데 대부분의 비용이 들었다. 추론, 즉 질문에 답하는 것은 상대적으로 저렴했다. 이제는 반대다. 학습은 한 번이지만, 추론은 매번 일어난다. 그리고 추론이 깊어질수록 비용이 올라간다.

둘째, 시간과 정확도의 트레이드오프가 생겼다. 빠른 답이 필요하면 얕은 추론을 쓰면 된다. 정확한 답이 필요하면 깊은 추론을 쓰면 된다. 문제의 어려움에 따라 AI가 투입하는 계산량을 조절할 수 있게 되었다.

셋째, "AI는 즉답한다"는 통념이 깨졌다. 이제 좋은 AI는 빠른 AI가 아니다. 적절히 오래 생각하는 AI다. 이것은 인간과 비슷해진 것이다. 인간도 쉬운 문제는 즉답하고, 어려운 문제는 오래 생각한다.

4.5 추론 비용 vs 학습 비용 — 경제학의 전환

추론 시대가 바꾼 것 중 가장 실용적인 변화는 비용 구조다. 구체적 숫자를 보자.

GPT-4 수준의 모델을 학습시키는 데는 약 1억 달러가 든다고 알려져 있다. 한 번 투입하면 끝이다. 그러나 추론 비용은 매 질문마다 발생한다. 단순한 질문에 대한 추론 비용은 0.01달러 미만이다. 그러나 o3 수준의 깊은 추론을 사용하면, 한 문제에 수십 달러가 들 수 있다. ARC-AGI 벤치마크에서 o3가 고성능 설정으로 답을 낼 때, 한 문제당 비용이 수천 달러에 달했다는 보고도 있다.

이것은 무엇을 의미하는가. "AI에게 물어보는 것은 거의 공짜"라는 통념이 깨지고 있다. 쉬운 질문은 여전히 싸다. 그러나 정말로 어렵고 정확한 답이 필요한 문제 — 기업의 전략적 판단, 의료 진단, 법률 분석 — 에서 AI를 깊이 사용하면 비용이 급증한다.

Hyperscaler들의 설비투자가 2026년 6,950억 달러에 달하는 이유가 여기 있다. 이 돈의 상당 부분은 추론 인프라에 들어간다. 학습은 한 번이지만, 추론은 끝없이 반복되기 때문이다.

딥시크 R1이 충격적이었던 이유도 여기에 있다. 같은 수준의 추론을 훨씬 적은 비용으로 해냈다. 이것은 단순한 기술 경쟁이 아니다. 비용 구조의 혁신이다. 그리고 비용 구조가 바뀌면 시장 구도가 바뀐다.

잠시 멈추고 생각해보자
AI에게 "깊이 생각해줘"라고 요청하는 것이 비용을 발생시킨다면, 어떤 질문에 그 비용을 쓸 것인가? 인간의 시간과 AI의 추론 비용 중 어느 것이 더 비싼가? 그 답은 직업에 따라 어떻게 달라지는가?

4.6 이것은 진짜 추론인가 — 카네만 시스템 2와의 비교

여기서 1장의 질문으로 돌아가야 한다. 추론 모델이 "생각하는" 것처럼 보인다. 내부적으로 가설을 세우고, 검증하고, 수정하는 과정을 거친다. 그것은 우리가 생각이라고 부르는 것과 매우 비슷해 보인다.

그렇다면 이것은 진짜 생각인가?

나는 아직 아니라고 본다. 이유는 간단하다. 추론 모델의 사고 과정은 학습된 사고 패턴의 재생산이다. 인간의 문제 풀이 과정을 학습 데이터로 보고, 그 패턴을 재현하는 것이다. "잠깐, 여기서 실수한 것 같다"라는 자기 교정도, 그것이 진짜 자기 인식에서 나온 것이 아니라 "이런 상황에서 인간은 이렇게 교정한다"는 패턴을 따르는 것이다.

그러나 솔직히 말하겠다. 이 구분은 점점 어려워지고 있다.

만약 AI가 학습된 패턴을 따라 "생각하는 척"을 하는데, 그 결과가 진짜 생각한 것과 구분이 안 된다면, 그 차이가 실용적으로 무슨 의미가 있는가? 이것은 철학의 영역이다. 5장에서 더 깊이 다룰 것이다.

실용적인 차원에서 중요한 것은 이것이다. 추론 모델은 기존 모델보다 훨씬 강력하다. 그러나 여전히 오류를 범한다. 그리고 그 오류는 기존 모델의 오류보다 발견하기 어렵다. 왜냐하면 사고 과정이 그럴듯해 보이기 때문이다.

기존 모델이 "2+2=5"라고 하면 즉시 알아차린다. 그러나 추론 모델이 긴 논리적 과정을 거쳐 잘못된 결론에 도달하면, 그 과정의 어디서 잘못되었는지 찾기가 훨씬 어렵다. 논리가 그럴듯하기 때문이다. 각 단계는 합리적으로 보이는데 최종 결론이 틀린 경우.

추론의 시대에는 AI의 오류를 잡아내는 인간의 역할이 더 중요해진다.

잠시 멈추고 생각해보자
추론 모델이 보여주는 "사고 과정"을 당신은 얼마나 검증할 수 있는가? 10단계의 논리적 추론에서 3단계째에 미묘한 오류가 있다면, 당신은 그것을 발견할 수 있는가?

4.7 패러다임 전환이 의미하는 것

Scaling Law의 시대에 AI는 "더 많이 아는" 방향으로 발전했다. 추론의 시대에 AI는 "더 깊이 생각하는" 방향으로 발전하고 있다.

이 변화가 인간에게 묻는 것은 분명하다.

AI가 깊이 생각할 수 있게 되면, 인간에게 남는 것은 무엇인가?

단순 지식은 이미 AI에게 넘어갔다. 패턴 인식도 넘어갔다. 이제 논리적 추론까지 넘어가고 있다. 그렇다면 인간은?

나는 이렇게 본다. 인간에게 남는 것은 두 가지다.

첫째, 무엇을 물을 것인가를 정하는 능력. AI는 주어진 문제를 잘 푼다. 그러나 어떤 문제가 풀 만한 가치가 있는지를 정하는 것은 인간의 몫이다. 좋은 질문을 던지는 능력. 이것은 8장에서 더 깊이 다룬다.

둘째, 결과에 대해 책임지는 능력. AI가 아무리 좋은 답을 내도, 그 답을 채택하고 실행하는 결정의 책임은 인간에게 있다. 이것은 11장에서 다룬다.

추론의 시대는 역설적으로 인간의 고유성을 더 분명하게 만든다. AI가 생각까지 할 수 있게 되면서, 비로소 "인간만이 할 수 있는 것"이 무엇인지가 선명해지기 시작한다.

이 책의 2부 "인간만이 가진 것"은 바로 그 물음에 대한 탐구다.

핵심 정리

Scaling Law는 2020년부터 2023년까지 AI 발전을 지배한 법칙이다. 모델을 키우면 성능이 올라간다. 이 법칙에 따라 수천억 달러가 투자되었다.

2024년 후반부터 수확체감이 시작되었다. 데이터의 유한성, 비용의 폭증, 전력의 한계가 원인이다. Scaling Law는 끝나지 않았지만 같은 속도의 성장을 보장하지 못하게 되었다.

AI 업계는 추론 시간 컴퓨팅으로 방향을 전환했다. 모델을 키우는 대신, 모델이 답하기 전에 더 깊이 생각하게 만든다. o1, o3, 딥시크 R1이 이 전환의 대표적 사례다.

추론 모델은 강력하지만, 그 오류는 발견하기 더 어렵다. 사고 과정이 그럴듯해 보이기 때문이다. 따라서 인간의 검증 역할은 더 중요해진다.

추론의 시대는 역설적으로 인간의 고유성을 더 분명하게 만든다. AI가 생각까지 하게 되면서, 무엇을 물을 것인가와 결과에 대한 책임이 인간의 영역으로 남는다.

반드시 답해봐야 할 질문 5가지

질문 1. Scaling Law의 수확체감은 AI 발전의 정체를 의미하는가, 아니면 다른 방향으로의 전환을 의미하는가? 역사에서 비슷한 전환의 사례를 찾을 수 있는가?

질문 2. 딥시크 R1이 적은 비용으로 높은 성능을 낸 사실은 무엇을 의미하는가? "돈을 많이 쓰면 이긴다"는 논리가 틀렸다면, AI 경쟁의 승패는 무엇으로 결정되는가?

질문 3. 추론 모델이 "생각하는 시간"을 갖게 되면서, "빠른 답"과 "좋은 답" 사이에 트레이드오프가 생겼다. 당신의 업무에서 이 트레이드오프를 어떻게 활용할 수 있을까?

질문 4. 추론 모델의 긴 사고 과정에서 미묘한 오류를 발견하려면 어떤 능력이 필요한가? 당신은 그 능력을 갖추고 있는가?

질문 5. AI가 논리적 추론까지 할 수 있게 되면, 인간에게 남는 것은 무엇인가? "좋은 질문을 던지는 능력"과 "결과에 대한 책임" 외에 다른 것이 있다면 무엇인가?

더 깊이 탐구하기

「Scaling Laws for Neural Language Models」 (Kaplan et al., 2020). Scaling Law의 원전. AI 업계의 투자 방향을 결정한 논문.

일리야 수츠케버의 NeurIPS 2024 발표. 사전학습의 한계에 대한 가장 권위 있는 진단.

딥시크 R1 기술 보고서 (2025년 1월). 추론 모델의 비용 효율성을 증명한 사례.

「AI Index Report 2025」 (Stanford HAI). AI 발전의 현재 좌표를 가장 포괄적으로 정리한 연례 보고서.

무어의 법칙 종말과 이후의 반도체 발전사. Scaling Law의 종말과 구조적으로 유사한 역사적 선례.

여기까지가 1부다. AI의 본질을 봤고, 인간의 한계를 봤고, 둘의 협력을 봤고, AI 발전의 최전선을 봤다. 이제 2부에서는 더 깊은 질문으로 간다. AI가 이렇게 강력해진 시대에, 인간만이 가진 것은 무엇인가. 기계는 경험하지 않는다. 거기서부터 시작한다.