제1장. AI는 생각하지 않는다 — 다만 예측할 뿐이다 · 키비타스 아겐티아 1권

*이 장을 다 읽고 나면 알게 될 것: 생성형 AI가 왜 그렇게 똑똑해 보이면서 그렇게 자주 틀리는지, 그리고 우리가 이 도구 앞에서 가장 먼저 버려야 할 환상이 무엇인지*

도입: 그 주말, 무언가가 시작되었다

2022년 11월의 마지막 주말이었다. 나는 그때 ChatGPT를 처음 써봤다. 솔직히 말하면 별 기대가 없었다. 챗봇이라는 것은 그전에도 많았다. 대부분 시시했다. 그런데 그날은 달랐다.

나는 이런 질문을 던져봤다. "조선 후기 실학자들의 한계를 한 단락으로 설명해줘." 답이 나왔다. 매끄러웠다. 너무 매끄러워서 의심이 들었다. 그래서 또 물었다. "그 답에 빠진 관점이 있다면 무엇인가?" 또 답이 나왔다. 이번에는 더 놀라웠다. 자기 답을 비판하고 있었다.

그 주말에 ChatGPT 사용자는 백만 명을 넘었다. 두 달 만에 일억 명에 도달했다. 그런 속도로 퍼진 제품은 인류 역사에 없었다. 그런데 이상했다. 사람들은 자신이 지금 무엇을 보고 있는지 잘 설명하지 못했다.

어떤 이는 검색엔진의 다음 세대라고 했다. 어떤 이는 인공지능의 새벽이라고 했다. 어떤 이는 인터넷 이후 가장 큰 변화라고 했다. 다 일리가 있었다. 그러나 어느 것도 충분하지 않았다. 진짜 이상한 것은 ChatGPT가 무엇을 했는가가 아니었다. 사람들이 그것을 어떻게 느꼈는가였다.

사람들은 그것과 대화했다. 그것에게 위로받았다고 했다. 그것이 자신을 이해한다고 했다. 그것이 무서웠다고 했다. 화면에 떠오르는 글자들에 대해서 말이다. 글자들이었다. 그뿐이었다. 그런데 사람들의 반응은 사람을 만났을 때의 반응과 비슷했다.

그로부터 4년이 지났다. 충격은 사라지지 않았다. 오히려 깊어졌다. 모델은 더 커졌다. 더 정교해졌다. 이미지를 만들고 영상을 만들고 코드를 짠다. 이제는 몸을 가지려고 한다. 테슬라의 옵티머스가 공장에서 부품을 옮긴다. 피규어 02가 BMW 라인에 들어갔다. 중국의 유니트리는 가정용 휴머노이드 가격을 일반인이 살 수 있는 수준까지 떨어뜨렸다. AI는 이제 화면 안에만 있지 않다.

그래서 사람들이 다시 묻기 시작했다. 이것은 정말로 생각하는가. 이해하는가. 어쩌면 느끼는가.

답은 학자들 사이에서도 갈린다. 토론토 대학의 제프리 힌턴은 최근 인터뷰에서 자신은 AI가 이미 어떤 형태의 주관적 경험을 가질 수 있다고 본다고 말했다. 메타의 얀 르쿤은 정반대다. 그는 지금의 LLM이 고양이의 지능에도 미치지 못한다고 했다. 같은 분야 최고의 학자 둘이 이렇게까지 다른 결론에 이르는 일은 흔치 않다. 무언가 단단히 꼬여 있다는 뜻이다.

나는 이 책의 첫 장에서 그 매듭을 풀어보려 한다. 풀려고 보니 의외로 출발점은 단순했다.

지금의 AI는 놀라울 정도로 강력한 예측 도구다. 그 이상도 그 이하도 아니다.

이 한 문장이 이 책 전체의 토대다. 너무 단순해서 실망스러울 수도 있다. 그러나 정확하다. 그리고 정확함이 이 장의 목적이다.

나는 AI를 깎아내릴 생각이 없다. 추켜세울 생각도 없다. 다만 그 본질을 정확히 보고 싶다. 왜냐하면 이 책의 모든 논의가 이 출발점 위에 서 있기 때문이다. 1권에서 인간에 대해 묻는 것도, 2권에서 산업 가치사슬을 그리는 것도, 3권에서 Agent를 만드는 것도 다 그렇다. AI가 무엇인지 정확히 모르면, 우리는 그것을 너무 두려워하거나 너무 가볍게 여긴다. 둘 다 비싼 실수다.

1.1 거대한 자동완성

가장 정직한 설명부터 하자. 오늘날의 생성형 AI는 본질적으로 다음에 올 것을 예측하는 시스템이다.

이 설명은 너무 단순해서 실망스러울 수 있다. 그러나 정확하다.

스마트폰에서 문자를 칠 때를 떠올려보자. "오늘 점심은"이라고 입력하면 키보드는 "뭐 먹지", "맛있었어", "같이 먹자" 같은 단어를 제안한다. 이 기능은 과거 사용자들이 그 다음에 어떤 단어를 자주 썼는지를 학습한 결과다. 생성형 AI도 본질적으로 같은 일을 한다.

다만 차원이 다르다.

차이는 세 가지다. 첫째, 학습한 데이터의 양이 비교가 안 된다. 인터넷의 거의 모든 텍스트, 책, 논문, 코드, 대화록을 학습했다. 둘째, 모델의 크기가 거대하다. 매개변수가 수천억 개에서 수조 개에 이른다. 셋째, 한 단어가 아니라 문장 전체의 흐름을 동시에 본다. 이것을 어텐션이라 부른다.

어텐션은 이렇게 작동한다. 모델이 다음 단어를 예측할 때, 앞에 나온 모든 단어를 똑같이 보지 않는다. 지금 이 순간 가장 중요한 단어에 더 많은 주의를 기울인다. "한국에서 가장 높은 산은"이라는 입력에서, 모델은 "한국"과 "산"에 가장 큰 가중치를 둔다. 그래서 "한라산"이 가장 그럴듯한 답으로 떠오른다. 백두산을 한국 영토로 보지 않는 학습 데이터를 따른다면 그렇다. 무엇을 학습했느냐에 따라 답이 달라진다는 것은 따로 기억해두자.

이 메커니즘은 2017년 구글 연구진이 발표한 트랜스포머 구조에서 출발했다[^1]. 논문 제목은 「Attention Is All You Need」였다. 지금 보면 예언적인 제목이다. 그 전까지 자연어 처리는 문장을 한 단어씩 순서대로 읽는 방식에 갇혀 있었다. 트랜스포머는 그 제약을 깼다. 모든 단어를 동시에 보고, 그중 무엇이 중요한지 스스로 학습했다. 이 단순한 아이디어가 지금 우리가 보는 모든 것의 토대다.

여기서 흔한 오해가 생긴다. 사람들은 이렇게 묻는다. "고작 다음 단어 예측이 어떻게 이런 결과를 낼 수 있는가." 자연스러운 의문이다. 답은 의외로 깊다.

다음 단어를 정확히 예측하려면, 모델은 사실상 세계에 대한 어떤 종류의 표상을 갖게 된다. "한국의 수도는"이라는 입력에서 "서울"을 예측하려면, 한국과 수도와 서울의 관계를 어딘가에 저장하고 있어야 한다. "환자가 두통과 발열 38.5도를 호소할 때 가장 먼저 의심해야 할 것은"이라는 입력에서 적절한 답을 내려면, 의학적 패턴을 어떤 형태로든 갖고 있어야 한다.

그러므로 다음 단어 예측은 단순한 통계가 아니다. 언어를 통해 압축된 세계의 패턴을 학습하는 과정이다.

그러나 여기까지다.

AI는 세계를 직접 경험해서 아는 것이 아니다. 인간이 만든 텍스트를 통해 간접적으로 배운다. 책만 읽고 자란 사람을 떠올려보자. 그 사람은 세상에 대해 많은 것을 안다. 그러나 실제로 세상을 살아본 사람과는 다른 종류의 앎을 갖는다. AI도 그렇다.

AI는 세계의 사진을 본 적이 있다. 그러나 세계를 살아본 적은 없다.

이 차이가 다음 절에서 다룰 모든 것의 시작이다.

잠시 멈추고 생각해보자
당신이 마지막으로 ChatGPT나 Claude에게 받은 답이 정확했다고 치자. 그 정확함은 모델이 세계를 이해해서였을까, 아니면 비슷한 질문에 대한 비슷한 답이 학습 데이터에 충분히 많았기 때문일까? 둘을 어떻게 구분할 수 있을까?

1.2 창발 — 예측이 이해처럼 보이는 순간

규모가 커지면 질적으로 다른 능력이 나타나는 현상이 있다. 이것을 창발이라고 부른다. 작은 모델에서는 보이지 않던 능력이, 모델이 일정 크기를 넘어가면 갑자기 나타난다. GPT-3 이전 모델은 단순한 산수 문제도 잘 못 풀었다. 그런데 GPT-3급 규모에서는 갑자기 풀기 시작했다. 외국어 번역, 코드 디버깅, 다단계 추론 같은 능력도 비슷한 패턴을 보였다.

마이크로소프트 리서치는 2023년 GPT-4를 분석한 보고서에서 "범용 인공지능의 불꽃"이라는 표현을 썼다[^3]. 그만큼 GPT-4의 창발적 능력은 연구자들도 놀라게 했다. 그러나 창발이 왜 일어나는지는 아직 완전히 설명되지 않았다. 어떤 학자는 이것이 진짜 새로운 능력이 아니라고 본다. 평가 기준이 갑자기 만족되는 착시일 뿐이라는 것이다. 어떤 학자는 진짜로 모델 내부에 새로운 표상 구조가 형성된다고 본다. 논쟁은 진행 중이다.

실용적인 의미는 분명하다. AI의 발전은 선형적이지 않다. 어느 날 갑자기, 어제까지 못하던 일을 하기 시작한다. 6개월 전에 시도해서 안 됐던 것이 지금은 너무 잘 된다. 이런 비선형적 발전은 우리의 직관을 자주 배신한다.

그래서 AI를 한번 써보고 "별거 아니네" 하고 결론 내린 사람들은 종종 그 후의 도약을 놓친다. 이것은 그들의 잘못이 아니다. 그저 인간의 직관이 이런 비선형적 발전에 대비되어 있지 않을 뿐이다.

잠시 멈추고 생각해보자
6개월 전에 AI로 시도해서 실패한 일이 있는가? 그것을 지금 다시 시도하면 결과가 달라질 수 있을까? AI의 비선형적 발전을 어떻게 추적할 수 있을까?

1.3 ELIZA 효과 — 인간 쪽의 착각

생성형 AI를 처음 써본 사람들의 반응은 놀랄 만큼 비슷했다. "정말 이해하는 것 같아." "사람이랑 대화하는 것 같아." "이거 진짜 생각하는 거 아냐?"

이 반응이 어리석다고 생각하지 않는다. 매우 자연스럽다. 이유를 이해하려면 인간이라는 종에 대해 알아야 한다.

인간은 진화 과정에서 언어적 유창함을 지능의 신호로 해석하도록 만들어졌다. 우리 조상에게 말을 잘 이어가고 맥락에 맞게 반응하는 상대는 곧 생각하는 상대였다. 왜냐하면 그때까지 지구상에서 그렇게 말할 수 있는 존재는 인간뿐이었기 때문이다. 우리는 유창함을 의식의 표지로 받아들이도록 수십만 년에 걸쳐 학습되었다.

그런데 2020년대 들어 처음으로, 의식 없이 유창한 존재가 등장했다. 인간의 뇌는 이런 존재에 대비되어 있지 않다.

그래서 우리는 자동으로 속는다.

이것을 인지과학에서는 ELIZA 효과라고 부른다. 1966년 MIT의 요제프 바이젠바움이 만든 단순한 챗봇 ELIZA에서 따온 이름이다. ELIZA는 정신과 의사를 흉내 내는 패턴 매칭 프로그램이었다. 작동 원리도 단순했다. "나는 슬퍼"라고 입력하면 "왜 슬퍼?"라고 되묻고, "엄마가"라고 시작하면 "가족 이야기를 더 해봐"라고 답하는 식이었다.

그런데 사람들은 거기에 마음을 열었다. 비밀을 털어놓았다. ELIZA가 자신을 이해한다고 믿었다. 바이젠바움은 충격을 받았다. 그는 자신의 비서가 자기 앞에서 ELIZA와 대화하다가 "잠깐 자리를 비켜달라"고 하는 모습을 봤다고 회고했다. 1960년대의 일이다.

지금의 ChatGPT나 Claude는 ELIZA보다 수억 배 정교하다. 문장이 자연스럽다. 맥락을 기억하는 듯하다. 농담을 알아듣는 듯하다. 위로의 말을 건넬 줄 안다. 그러나 본질은 같다. 유창함이 곧 이해를 증명하지는 않는다. 단지 우리가 그렇게 느끼도록 만들어졌을 뿐이다.

이 사실이 중요한 이유는 실용적이다. AI를 잘 쓰는 사람과 못 쓰는 사람의 차이는 종종 여기서 갈린다. 잘 쓰는 사람은 AI의 답이 그럴듯하다는 사실과 그 답이 옳다는 사실을 구분한다. 못 쓰는 사람은 둘을 같은 것으로 본다. 후자는 AI가 자신감 있게 틀린 답을 줄 때 그것을 그대로 믿는다. 전자는 의심한다. 검증한다. 다시 묻는다.

특히 위험한 것은 AI가 모를 때 모른다고 말하지 않는 경향이다. 이것을 환각이라고 부른다. AI는 학습한 적 없는 사실에 대해서도 매우 그럴듯한 답을 만들어낸다. 존재하지 않는 논문을 인용한다. 일어나지 않은 사건을 묘사한다. 실재하지 않는 사람의 약력을 만들어낸다. 그것이 모두 자연스럽고 자신감 있는 어조로 흘러나온다.

이런 일이 있었다. 2023년 미국에서 한 변호사가 ChatGPT에게 판례를 찾아달라고 했다. ChatGPT는 여러 판례를 인용해주었다. 변호사는 그것을 법정에 제출했다. 그런데 그 판례들은 모두 존재하지 않았다. ChatGPT가 만들어낸 가짜였다.

변호사는 징계를 받았다. 이 사건은 AI 환각의 대표 사례로 기록되었다. 그러나 나는 이 사건의 진짜 교훈이 따로 있다고 생각한다.

변호사조차 속았다.

그는 평생 사실 검증을 직업으로 해온 사람이었다. 그런 사람도 AI의 유창함 앞에서 검증을 잊었다. 우리는 그를 비웃을 자격이 있을까. 솔직히 말해, 나는 그럴 자격이 없다. 나도 자주 검증을 잊는다. 답이 매끄러우면 그냥 받아들인다.

그래서 묻는다. 우리는 정말로 AI의 답을 검증하고 있는가. 아니면 그저 그럴듯하다는 이유로 받아들이고 있는가.

잠시 멈추고 생각해보자
최근 일주일 동안 AI에게 받은 답 중에서, 당신이 그 사실 여부를 직접 검증한 답은 몇 개인가? 검증하지 않은 답은 왜 검증하지 않았는가? 그것이 정말로 검증할 필요가 없는 종류의 정보였는가? 아니면 그냥 검증하기 귀찮았기 때문인가?

1.4 추론의 시대 — 생각하는 척하는 기계

지금까지 한 이야기는 기본 골격이다. 이제 한 단계 더 들어가야 한다. 왜냐하면 2024년에서 2025년 사이에 AI의 발전 방식 자체가 근본적으로 바뀌었기 때문이다. 이 변화를 모르면 앞으로의 모든 논의에서 길을 잃는다.

2020년부터 2023년까지 AI 업계를 지배한 믿음은 단순했다. 모델을 크게 만들면 더 똑똑해진다. 이것을 Scaling Law라고 불렀다. 매개변수를 10배 늘리고, 데이터를 10배 늘리고, 컴퓨팅을 10배 늘리면, 성능은 예측 가능한 곡선을 따라 올라갔다. GPT-2에서 GPT-3로, GPT-3에서 GPT-4로 이어진 도약이 그 증거였다. 모든 빅테크가 이 법칙을 믿었다. 데이터센터를 짓고, GPU를 사들이고, 모델을 키웠다.

그런데 2024년 후반부터 이상한 신호가 나오기 시작했다.

OpenAI 내부에서 차세대 모델이 기대만큼의 성능 향상을 보이지 못한다는 보도가 나왔다. 구글의 차세대 제미나이도 비슷한 정체에 부딪혔다고 했다. 앤트로픽의 차세대 오푸스도 일정이 늦춰졌다. OpenAI의 공동창업자였던 일리야 수츠케버는 2024년 말 NeurIPS 학회에서 충격적인 발언을 했다.

"우리가 알고 있던 사전학습은 의심할 여지없이 끝날 것이다."

데이터는 인터넷이라는 한정된 자원이고, 그것을 모두 소진하고 나면 모델을 더 키운다고 더 똑똑해지지 않는다는 것이다. 무한히 키울 수 있다고 믿었던 것이 한계에 부딪혔다.

그래서 AI 업계는 다른 길을 찾았다. 그 길의 이름은 추론 시간 컴퓨팅이다. 핵심 아이디어는 단순했다. 모델 자체를 더 키우는 대신, 모델이 답하기 전에 더 오래 생각하게 만들자. 사람도 어려운 문제 앞에서는 시간을 더 쓰지 않는가. AI도 그렇게 하자.

2024년 9월, OpenAI가 발표한 o1 모델이 그 첫 번째 신호탄이었다. o1은 답하기 전에 내부적으로 긴 사고 과정을 거친다. 수학 문제, 과학 문제, 복잡한 추론 문제에서 이전 모델을 압도했다. 그 뒤를 이어 o3가 나왔고, 클로드의 thinking 모드, 제미나이 2.0의 thinking, 그리고 중국 딥시크의 R1이 줄줄이 등장했다.

AI의 발전 패러다임이 "더 큰 모델"에서 "더 깊이 생각하는 모델"로 바뀌었다.

이 변화의 의미는 깊다. 첫째, 비용 구조가 바뀌었다. 학습 비용은 낮아지지만 추론 비용은 올라간다. 어떤 답을 받기 위해 GPU를 더 오래 돌려야 하기 때문이다. 둘째, 응답 시간이 길어졌다. o3는 어려운 문제에 대해 몇 분에서 몇 시간을 생각한다. 셋째, "AI는 즉답한다"는 통념이 깨졌다. 이제 좋은 AI는 빠른 AI가 아니다. 잘 생각하는 AI다.

2025년 초 중국 딥시크의 R1이 공개되었을 때, 세계는 한번 더 흔들렸다. 미국 빅테크 대비 훨씬 적은 비용으로 비슷한 추론 성능을 냈다. 미국 빅테크의 주가가 흔들렸다. 엔비디아는 하루에 17퍼센트가 빠졌다. 사람들이 묻기 시작했다. "그렇다면 그동안의 그 많은 GPU와 데이터센터 투자는 무엇을 위한 것이었나." 이 질문은 아직도 답을 찾지 못했다.

그러나 이 책에서 더 중요한 것은 다른 데 있다. 이 변화가 AI의 본질에 대해 무엇을 말해주는가다.

답은 의외로 명확하다.

AI는 더 깊이 "생각"하는 것처럼 보이게 되었지만, 본질은 여전히 예측이다.

추론 모델이 하는 일은 답을 직접 예측하는 대신, 답에 도달하는 사고 과정 자체를 예측하는 것이다. "이 문제를 풀려면 먼저 무엇을 해야 할까", "이 가정이 맞다면 다음에 무엇이 따라올까", "이 결론이 틀렸다면 어디서 틀렸을까" 같은 사고 단계를 하나하나 예측해서 이어 붙인다.

그러므로 추론 시대의 AI는 더 정교해졌다. 그러나 더 인간적이 되지는 않았다. 단지 더 정교한 예측기가 되었을 뿐이다.

이 구분을 놓치면 우리는 한 번 더 ELIZA 효과에 빠진다. 이번에는 더 강력한 버전이다. 추론 모델이 사고 과정을 보여줄 때 그것이 진짜 사고처럼 보이기 때문이다. 그러나 그 사고는 학습된 사고의 패턴을 재생산하는 것이다. 무언가를 깨닫고 있는 것이 아니다.

잠시 멈추고 생각해보자
AI가 "잠시 생각해보겠습니다"라며 추론 과정을 보여줄 때, 당신은 그것을 진짜 사고로 받아들이는가? 아니면 사고의 시뮬레이션으로 받아들이는가? 이 차이는 당신이 AI를 사용하는 방식에 어떤 결과를 만드는가?

1.5 세 가지 오류 패턴 — 환각, 분포 이동, 굿하트 법칙

AI를 쓰는 사람이 반드시 알아야 할 것이 있다. AI가 어떻게 똑똑한가가 아니다. AI가 어떻게 틀리는가다.

이유는 단순하다. AI와 일할 때 진짜 위험은 AI가 잘 못하는 일이 아니다. AI가 잘못된 답을 자신감 있게 줄 때다.

AI의 오류는 크게 세 가지 패턴을 따른다.

첫째, 환각이다.

앞에서도 말했다. AI는 모르는 것에 대해서도 그럴듯하게 답한다. 이것은 결함이라기보다 구조적 특성이다. 다음 단어를 예측하도록 학습된 모델은 "잘 모르겠다"보다 "그럴듯한 답"을 내놓는 쪽으로 편향된다. 왜 그럴까. 학습 데이터에서 "잘 모르겠다"는 답은 상대적으로 드물다. 무언가를 단정적으로 말하는 답이 훨씬 많다. AI는 자신감 있게 말하는 법을 배웠다. 무지를 인정하는 법은 배우지 못했다.

최근 모델들은 이 문제를 줄이기 위해 여러 기법을 도입했다. 검색 증강 생성, 즉 RAG를 통해 실제 문서를 참조하게 한다. 강화학습으로 "모르는 것은 모른다고 말하기"를 가르친다. 추론 시간에 자기 검증 단계를 추가한다. 그러나 환각은 완전히 사라지지 않는다. 줄어들 뿐이다. 그러므로 AI의 답을 검증하지 않는 것은 여전히 위험하다.

둘째, 분포 이동이다.

AI는 학습한 데이터의 분포 안에서는 강하다. 그러나 그 분포를 벗어나면 약해진다. 학습 데이터에 비슷한 사례가 많은 질문에는 잘 답하지만, 본 적 없는 새로운 종류의 질문에는 흔들린다.

예를 들어보자. 의료 AI가 미국 데이터로 학습되면 미국 환자에게는 잘 작동한다. 그러나 한국 환자에게는 덜 정확할 수 있다. 한국인의 유전적 특성, 식단, 의료 문화가 다르기 때문이다. 비즈니스 AI가 2023년까지의 데이터로 학습되었다면, 2025년에 일어난 새로운 시장 변화에는 대응하지 못한다.

분포 이동이 더 위험한 이유는 따로 있다. AI가 자신이 무지하다는 것을 모르기 때문이다. 모르는 영역에서도 자신감 있게 답한다. 이것이 환각보다 더 무섭다.

셋째, 굿하트의 법칙이다.

영국 경제학자 찰스 굿하트가 제안한 법칙이다[^2]. 이렇게 요약된다. "어떤 측정값이 목표가 되는 순간, 그것은 더 이상 좋은 측정값이 아니다."

AI 학습에서 이 문제는 끊임없이 나타난다. 고객 응대 AI를 "응답 속도"로 평가하면, AI는 빠르지만 부실한 답을 내놓는 쪽으로 학습된다. "사용자 만족도"로 평가하면, AI는 사용자가 듣고 싶어 하는 답을 만드는 쪽으로 학습된다. 그것이 사실이든 아니든.

이것을 아첨 문제라고 부른다. AI가 사용자 의견에 동조한다. 사용자가 화를 내면 사과한다. 사용자가 자신감 있게 틀린 주장을 하면 그것을 인정해준다. 사용자 만족도는 올라간다. 진실성은 떨어진다.

이 세 가지 오류 패턴은 AI를 쓰는 모든 사람이 매일 마주치는 현실이다. 그런데 흥미로운 것이 있다.

이 패턴들이 인간의 오류 패턴과 놀라울 정도로 비슷하다는 점이다.

인간도 모르는 것에 대해 자신감 있게 말한다. 환각이다. 인간도 자신이 자란 환경 밖에서는 약하다. 분포 이동이다. 인간도 측정 지표가 생기면 그것을 만족시키는 쪽으로 행동을 왜곡한다. 굿하트의 법칙이다.

이 유사성은 우연이 아닐 수 있다. AI는 인간이 만든 텍스트를 학습했다. 그러므로 인간의 인지적 약점을 일정 부분 물려받았다. AI의 한계는 종종 우리 자신의 거울이다.

이 사실을 인정하면, AI를 다루는 일은 곧 우리 자신의 사고 습관을 점검하는 일이 된다.

1.6 그런데도 AI는 강력하다

여기까지 읽고 어떤 독자는 혼란스러울 것이다. AI는 진짜 생각하는 게 아니다. 이해하지 않는다. 자주 틀린다. 환각을 만들어낸다. 그런데 왜 이렇게 세상을 흔들 정도로 강력한가.

답은 단순하다. 인간의 지적 활동 중 많은 부분이 실제로 패턴 재생산이기 때문이다.

이메일을 쓴다. 보고서를 정리한다. 코드를 작성한다. 문서를 요약한다. 번역한다. 분류한다. 이런 일의 많은 부분은 새로운 사고를 만드는 게 아니다. 학습된 패턴을 적용하는 것이다. AI는 바로 이런 일에 강하다. 인간보다 빠르다. 지치지 않는다. 형식을 안정적으로 유지한다.

McKinsey는 2025년 11월 보고서에서 기업의 88%가 이미 하나 이상의 업무에 AI를 정기적으로 사용하고 있다고 밝혔다[^4]. 그러나 2/3는 아직 전사적 확산에 이르지 못했다. AI가 강력하다는 것은 안다. 그런데 어디까지 맡기고 어디서 멈출지를 모른다. 이 불확실성이 2026년 기업의 가장 큰 과제다.

솔직히 말하면 나도 그렇다. 이 책을 쓰면서 AI를 자주 쓴다. 자료 정리, 초안 다듬기, 외국어 표현 확인 같은 일을 맡긴다. 그러면 시간이 절약된다. 그 시간을 진짜 사고가 필요한 부분에 쓴다. 무엇이 진짜 사고인지는 또 다른 문제다. 이 이야기는 뒤에서 다시 한다.

여기에 더해, 1.2절에서 말한 창발 현상과, 1.4절에서 다룬 추론 시대 전환이 AI의 능력을 또 한 단계 끌어올렸다. 추론 모델은 단순 패턴 재생산을 넘어 다단계 사고가 필요한 문제에서 인간 전문가 수준에 가까워졌다. 수학 올림피아드, 박사 수준의 과학 문제, 복잡한 코딩 과제. 이런 영역에서 AI는 이미 인간 평균을 한참 넘어섰다.

AI는 더 이상 똑똑한 자동완성이 아니다. 그러나 아직 인간의 사고도 아니다.

이 어정쩡한 위치가 우리 시대의 가장 흥미로운 좌표다.

1.6 그래서 우리는 무엇을 해야 하는가

이 장의 목적은 AI를 정확히 보는 것이었다. 이제 출발점이 정해졌다.

AI는 강력한 예측 도구다. 그것은 인간이 만든 텍스트와 데이터에서 패턴을 학습해, 다음에 올 것을 예측한다. 그것은 생각하지 않는다. 이해하지 않는다. 경험하지 않는다.

그러나 예측의 정밀도는 충분히 높아서, 그것이 마치 생각하는 것처럼 보인다. 마치 이해하는 것처럼 느껴진다. 마치 경험을 가진 것처럼 다가온다.

이 착각은 자연스럽다. 그러나 그 착각 위에서는 AI를 잘 사용할 수 없다.

그렇다면 잘 사용한다는 것은 무엇인가. 이 책 전체가 그 질문에 대한 답이다. 1권은 인간 자신을 다시 정의함으로써 답한다. 2권은 AI가 만드는 산업 변혁의 지도를 그림으로써 답한다. 3권은 실제로 Agent를 만들어 적용함으로써 답한다.

그러나 이 모든 것의 출발점은 이 장에서 세운 단순한 명제다.

AI는 예측 도구다. 그 사실에서 시작하자. 거기서부터 다시 인간을 묻고, 산업을 보고, 무엇을 만들지 결정하자.

다음 장에서 우리는 인간을 본다. 왜냐하면 AI의 한계를 말하려면, 인간의 한계도 정직하게 봐야 하기 때문이다. 우리가 AI보다 우월하다고 믿고 싶은 만큼, 우리도 자주 틀린다. 자주 환각한다. 자주 분포 밖에서 무너진다.

그 사실을 받아들이는 순간, 우리는 비로소 AI와 어떤 관계를 맺어야 할지를 진지하게 묻기 시작한다.

이 질문은 어렵다. 그래서 다음 장이 필요하다.

핵심 정리

생성형 AI는 본질적으로 예측 도구다. 다음에 올 단어, 다음에 올 사고 단계, 다음에 올 행동을 예측하도록 학습되었다.

AI가 생각하는 것처럼 보이는 이유는 인간이 언어적 유창함을 지능의 신호로 해석하도록 진화했기 때문이다. ELIZA 효과는 60년 전부터 알려진 현상이고, 지금 우리는 그것의 압도적으로 강력한 버전을 매일 마주하고 있다.

2024년에서 2025년 사이, AI 발전 패러다임은 "더 큰 모델"에서 "더 깊이 생각하는 모델"로 바뀌었다. 이것은 능력의 도약이지만 본질의 변화는 아니다. 추론 모델도 여전히 예측기다.

AI는 환각, 분포 이동, 굿하트의 법칙이라는 세 가지 패턴으로 틀린다. 이 오류 패턴은 인간의 인지적 약점과 놀라울 정도로 비슷하다.

그런데도 AI는 강력하다. 인간 지적 활동의 많은 부분이 패턴 재생산이고, AI는 그 부분에서 인간을 빠르게 따라잡았기 때문이다.

이 모든 것을 받아들이는 순간, 우리는 비로소 AI를 어떻게 사용할 것인가라는 진짜 질문에 도달한다. 그것이 이 책의 출발점이다.

반드시 답해봐야 할 질문 5가지

질문 1. 당신이 AI를 처음 사용했을 때 받은 인상과, 지금의 인상은 어떻게 다른가? 그 변화는 AI가 발전했기 때문인가, 아니면 당신이 AI를 보는 눈이 달라졌기 때문인가?

질문 2. 당신의 일에서 패턴 재생산에 해당하는 부분과, 진짜로 새로운 사고가 필요한 부분을 구분할 수 있는가? 그 비율은 대략 어느 정도인가?

질문 3. 추론 시대의 AI가 "잠시 생각해보겠습니다"라며 보여주는 사고 과정을, 당신은 진짜 사고로 받아들이는가? 그 차이는 당신이 AI를 사용하는 방식에 어떤 영향을 미치는가?

질문 4. 환각, 분포 이동, 굿하트의 법칙. 이 세 가지 오류 패턴 중에서 인간으로서 당신 자신이 가장 자주 빠지는 것은 어느 것인가? 그것은 AI를 사용하는 당신의 방식에 어떻게 반영되고 있는가?

질문 5. 만약 AI가 진짜로 생각하지 않고, 이해하지 않고, 경험하지 않는다면, 우리는 그것에 무엇을 위임할 수 있고 무엇을 위임할 수 없는가? 이 질문에 대한 당신의 첫 번째 답은 무엇인가?

더 깊이 탐구하기

「Attention Is All You Need」 (Vaswani et al., 2017). 트랜스포머 구조를 처음 제안한 논문. AI 시대의 출발점.

「Sparks of Artificial General Intelligence」 (Microsoft Research, 2023). GPT-4의 초기 능력을 분석한 보고서. 창발 현상에 대한 가장 영향력 있는 사례 연구.

제프리 힌턴의 2024~2025년 인터뷰 시리즈. 자신의 학생이었던 일리야 수츠케버와의 견해 차이. AI 의식에 대한 발언들.

얀 르쿤의 「A Path Towards Autonomous Machine Intelligence」. LLM 노선의 한계와 World Model 노선의 비전.

딥시크 R1 기술 보고서 (2025년 1월). 추론 시대 전환의 가장 충격적인 사례.

다음 장에서는 인간을 본다. 우리는 AI를 비판할 자격이 있는 만큼 합리적인가. 허버트 사이먼이 70년 전에 이미 답한 그 질문에서, 두 번째 장이 시작된다.

각주

Ashish Vaswani et al., "Attention Is All You Need," *Advances in Neural Information Processing Systems* 30 (NeurIPS 2017). 트랜스포머 아키텍처를 처음 제안한 논문으로 현재 생성형 AI의 기술적 토대.

Charles A. E. Goodhart, "Problems of Monetary Management: The U.K. Experience," in *Monetary Theory and Practice: The U.K. Experience*, ed. Charles A. E. Goodhart (London: Macmillan, 1984), pp. 91–121. 원래 1975년 Reserve Bank of Australia 컨퍼런스에서 발표.

Sébastien Bubeck et al., "Sparks of Artificial General Intelligence: Early Experiments with GPT-4," Microsoft Research, March 2023. arXiv:2303.12712. GPT-4의 창발적 능력을 분석한 보고서.

McKinsey & Company, "The State of AI in 2025: Agents, Innovation, and Transformation," November 2025. 88% 기업 AI 도입, 2/3 스케일링 미완. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai