제3장. AI가 인간의 불완전함을 보완하는 방식 · 키비타스 아겐티아 1권

*이 장을 다 읽고 나면 알게 될 것: AI와 인간이 각각 어디서 강하고 어디서 약한지, 그리고 좋은 협력이란 구체적으로 어떤 구조인지*

도입: 파일럿과 자동항법장치

비행기 조종석에는 두 가지 지능이 있다. 인간 파일럿과 자동항법장치. 이 둘의 관계는 AI 시대의 협력을 이해하는 가장 좋은 비유다.

자동항법장치는 고도를 유지하고, 경로를 따르고, 연료를 계산하는 데 인간보다 정확하다. 12시간 동안 집중력이 떨어지지 않는다. 난기류 속에서도 흔들리지 않는다. 반복적이고 정밀한 일에서 기계는 인간을 압도한다.

그러나 엔진 하나가 고장 나고, 근처 공항이 안개에 덮여 있고, 연료가 빠듯하고, 승객 중 환자가 있을 때, 결정은 파일럿이 한다. 자동항법장치는 이런 상황을 "계산"할 수 없다. 왜냐하면 이 상황에는 정답이 없기 때문이다. 트레이드오프만 있다. 무엇을 포기하고 무엇을 취할 것인가. 그 결정에는 경험과 판단과 책임이 필요하다.

2009년 1월 15일, US에어웨이즈 1549편이 이륙 직후 새 떼와 충돌해 양쪽 엔진을 모두 잃었다. 기장 설렌버거는 3분 안에 결정해야 했다. 관제탑은 근처 공항으로 돌아가라고 했다. 컴퓨터도 그것이 가능하다고 계산했을 것이다. 그러나 설렌버거는 달랐다. 그는 허드슨 강에 착수하기로 했다. 155명 전원이 살았다.

나중에 시뮬레이션을 돌려보니, 공항으로 돌아갔다면 도심에 추락했을 가능성이 높았다. 컴퓨터의 계산은 틀렸을 것이다. 파일럿의 직관이 맞았다.

이 이야기를 단순화하면 안 된다. "결국 인간이 낫다"라는 결론을 내려서는 곤란하다. 설렌버거가 그 결정을 할 수 있었던 것은 수천 시간의 비행 경험이 있었기 때문이다. 그리고 그 수천 시간 동안 자동항법장치가 반복적인 일을 맡아줬기 때문에 그는 판단력을 기를 여유가 있었다.

좋은 협력이란 이런 것이다. 각자가 잘하는 일을 맡고, 그것이 상대방을 더 잘하게 만드는 구조.

3.1 인간이 약한 곳, AI가 강한 곳

구체적으로 보자. 인간의 인지적 약점과 AI의 강점이 상당 부분 대칭된다. 이 대칭이 우연일까, 구조적 이유가 있을까? 하나씩 들여다보면 답이 보인다.

첫째, 일관성의 문제.

인간은 같은 정보를 보고도 날에 따라, 기분에 따라, 순서에 따라 다른 판단을 내린다. 이것을 노이즈라고 부른다. 카네만은 2021년에 「Noise」라는 책을 따로 써서 이 문제를 다뤘다[^1]. 같은 범죄에 대해 판사마다 형량이 달라지는 것. 같은 보험 청구에 대해 심사원마다 금액이 달라지는 것. 같은 이력서를 보고 면접관마다 평가가 달라지는 것.

AI에게 노이즈는 없다. 같은 입력에 같은 조건이면 같은 출력을 낸다. 물론 생성형 AI는 매번 약간 다른 답을 주기도 한다. 그러나 그 변동 폭은 인간의 판단 변동보다 훨씬 작다. 정합성이 중요한 영역에서 AI는 인간을 보완한다.

둘째, 규모의 문제.

의사가 하루에 볼 수 있는 환자는 한정되어 있다. 법무 담당자가 하루에 검토할 수 있는 계약서도 한정되어 있다. 인간의 주의력은 유한한 자원이다. 집중력은 시간이 지나면 떨어진다. 하루 8시간 중 실제로 깊은 사고가 가능한 시간은 4시간이 채 안 된다는 연구 결과도 있다.

AI는 피로하지 않는다. 24시간 작동한다. 만 건의 문서를 검토해도 마지막 문서에 대한 집중력이 떨어지지 않는다. 규모가 큰 반복적 판단에서 AI의 장점은 압도적이다.

셋째, 기억의 문제.

인간의 기억은 불완전하다. 중요한 것을 잊고, 사소한 것을 기억하고, 없었던 것을 있었다고 믿는다. 회의에서 합의한 내용을 다음 주에 다르게 기억하는 일은 모든 조직에서 매일 일어난다.

AI는 기록된 것을 정확히 기억한다. 3년 전 회의록의 세 번째 단락을 찾는 일은 AI에게 0.1초짜리 작업이다. 인간에게는 30분을 찾아도 못 찾을 수 있는 일이다.

잠시 멈추고 생각해보자
당신의 일에서 일관성, 규모, 기억 중 어느 것이 가장 큰 병목인가? 그것을 AI가 보완한다면 당신의 업무는 어떻게 달라질 것인가?

3.2 AI가 약한 곳, 인간이 강한 곳

반대도 본다. AI가 구조적으로 약하고 인간이 강한 영역이 있다.

첫째, 맥락의 문제.

삼성전자가 반도체 감산을 결정할 때, 그 결정에는 숫자로 표현되지 않는 것들이 개입한다. 경쟁사의 동향, 정부의 비공식 신호, 노동조합의 분위기, 고객사 CEO의 발언 뉘앙스. 이런 것들은 데이터베이스에 없다. 엑셀에 넣을 수 없다. 그러나 결정에 결정적 영향을 미친다.

인간은 이런 암묵적 맥락을 읽는다. 회의실의 공기를 읽는다. 상대방의 말투에서 진의를 파악한다. "그 사람이 그렇게 말할 때는 이런 뜻이다"는 것을 안다. AI는 이것을 못한다. 텍스트에 명시되지 않은 것은 처리할 수 없다.

둘째, 가치 판단의 문제.

자율주행차가 사고를 피할 수 없는 상황에서 보행자를 칠 것인가 승객을 위험에 빠뜨릴 것인가. 이것은 계산의 문제가 아니다. 윤리의 문제다. 사회가 합의해야 할 가치의 문제다. AI는 이런 판단을 할 수 없다. 할 수 있는 것처럼 보이게 할 수는 있지만, 그것은 학습 데이터에 반영된 사회적 편향을 재생산하는 것에 불과하다.

셋째, 새로운 프레임을 만드는 문제.

AI는 기존 패턴 안에서 강하다. 그러나 기존 프레임을 완전히 깨고 새로운 방식으로 문제를 정의하는 일은 약하다. 아인슈타인이 시간과 공간이 하나라고 생각한 것. 스티브 잡스가 휴대폰과 컴퓨터가 하나라고 생각한 것. 이런 패러다임 전환은 기존 데이터의 패턴 안에서 나오지 않는다.

물론 AI도 때때로 새로운 조합을 만들어내서 놀라게 한다. 그러나 그것은 기존 패턴의 새로운 조합이지, 패턴 자체의 전복이 아니다. 적어도 아직은 그렇다.

잠시 멈추고 생각해보자
당신의 직업에서 AI가 대체할 수 없는 부분은 무엇인가? 그것이 정말로 대체 불가능한 것인가, 아니면 아직 AI가 못하는 것일 뿐인가? 이 두 가지를 어떻게 구분할 수 있는가?

3.3 의료 사례 — AI 판독과 의사의 협진

이론을 실제로 확인해보자. 세 가지 산업에서 각각 어떤 구조로 협력이 이루어지는지 본다.

의료 분야. 구글 딥마인드의 알파폴드는 단백질 구조를 예측해 생물학의 50년 난제를 풀었다. 그러나 그것이 어떤 질병의 치료제로 이어질지를 판단하는 것은 의사와 연구자의 몫이다. AI는 구조를 예측했다. 인간은 그 예측의 의미를 해석하고, 우선순위를 정하고, 임상시험을 설계한다.

서울아산병원은 AI를 활용해 흉부 X레이에서 이상을 감지한다. AI가 "여기 이상이 있을 수 있다"고 표시하면 방사선과 전문의가 최종 판독한다. AI 혼자서는 오탐이 많다. 의사 혼자서는 피로와 시간 제약이 있다. 둘이 함께하면 정확도가 올라가고 속도도 빨라진다.

3.4 법률 사례 — 리걸테크 디스커버리 자동화

법률 분야. 미국의 로펌들은 AI를 활용해 수만 건의 문서를 검토한다. 소송에서 관련 문서를 찾는 디스커버리 작업은 과거에 수십 명의 주니어 변호사가 몇 달간 하는 일이었다. 이제 AI가 며칠 만에 한다. 그러나 그 문서를 읽고, 전략을 세우고, 법정에서 주장을 펼치는 것은 여전히 인간 변호사의 일이다.

한국의 법률 AI 스타트업들도 비슷한 구조를 따른다. 리걸테크 기업들은 판례 검색과 문서 초안을 AI에게 맡기고, 최종 검토와 전략적 판단은 변호사에게 남긴다.

3.5 금융 사례 — 하이브리드AI (Rule + LLM + 그래프 추론)

금융 분야. 퀀트 펀드는 AI로 수천 개의 종목을 스크리닝한다. 패턴을 찾고, 이상 신호를 감지하고, 리스크를 계산한다. 그러나 "이 시장이 버블인가"라는 판단, "이 정책 변화가 산업의 판도를 바꿀 것인가"라는 판단은 인간 펀드매니저의 몫이다.

이 모든 사례에서 공통 구조가 보인다. AI는 탐색과 정리를 맡고, 인간은 판단과 결정을 맡는다. AI는 넓게 보고, 인간은 깊게 본다. AI는 빠르게 걸러내고, 인간은 천천히 선택한다.

3.6 좋은 협력의 조건

그렇다면 AI와 인간의 협력이 잘 작동하려면 무엇이 필요한가.

첫째, 역할이 명확해야 한다.

AI에게 무엇을 맡기고 인간이 무엇을 할지가 사전에 정의되어 있어야 한다. 이것이 모호하면 두 가지 실패가 생긴다. 하나는 과잉 의존. AI의 답을 검증 없이 받아들이는 것. 다른 하나는 과잉 불신. AI의 출력을 무시하고 모든 것을 인간이 하려는 것. 둘 다 비효율적이다.

좋은 설계는 이렇다. AI가 초안을 만들고 인간이 검토한다. AI가 이상 징후를 알리고 인간이 판단한다. AI가 선택지를 제시하고 인간이 결정한다. 각 단계에서 누가 무엇을 하는지가 분명하다.

둘째, 인간이 AI의 한계를 알아야 한다.

1장에서 말한 세 가지 오류 패턴을 기억하자. 환각, 분포 이동, 굿하트 법칙. 이것을 모르면 AI의 실수를 잡아낼 수 없다. "AI가 했으니까 맞겠지"라는 태도는 위험하다. "AI가 이것을 틀릴 수 있는 조건은 무엇인가"를 아는 사람만이 AI를 안전하게 쓸 수 있다.

셋째, 피드백 루프가 있어야 한다.

AI가 틀렸을 때 그것을 교정하는 메커니즘이 있어야 한다. 인간이 AI의 출력을 검토하고, 오류를 발견하고, 그것을 다시 AI에게 알려주는 순환. 이것이 없으면 같은 실수가 반복된다.

현재 가장 발전된 형태의 피드백 루프는 RLHF, 즉 인간 피드백에 의한 강화학습이다. 인간이 AI의 출력을 평가하고, 그 평가를 학습에 반영한다. ChatGPT가 초기 GPT-3보다 훨씬 유용해진 이유 중 하나가 이것이다.

잠시 멈추고 생각해보자
당신의 업무에서 AI와의 협력을 설계한다면, 역할 분담을 어떻게 할 것인가? AI에게 무엇을 맡기고, 당신은 무엇을 맡을 것인가? 그 경계를 어디에 둘 것인가?

3.7 센토르 모델 — 인간과 AI의 결합체

체스에서 흥미로운 실험이 있었다.

1997년 IBM의 딥블루가 세계 챔피언 가리 카스파로프를 이겼다. 그 이후 사람들은 "체스에서 인간은 끝났다"고 생각했다. 실제로 순수 AI는 인간을 압도하게 되었다.

그런데 카스파로프는 다른 질문을 던졌다. "인간과 AI가 팀이 되면 어떨까?" 그는 이것을 센토르 체스라고 불렀다. 그리스 신화의 반인반마에서 따온 이름이다.

결과는 놀라웠다. 인간+AI 팀은 순수 AI보다 더 강했다. 적어도 한동안은 그랬다. 왜냐하면 인간이 AI가 놓치는 전략적 판단을 보완했기 때문이다. AI는 수십 수 앞의 계산에서 강하지만, 게임 전체의 전략적 방향을 잡는 데서는 인간의 직관이 가치를 가졌다.

물론 시간이 지나면서 AI가 워낙 강해져서 인간의 개입이 오히려 방해가 되는 수준에 이르렀다. 체스에서는 그렇게 되었다. 그러나 현실 세계의 대부분의 문제는 체스보다 훨씬 복잡하다. 규칙이 명확하지 않고, 정보가 불완전하고, 목표 자체가 모호하다. 이런 영역에서 센토르 모델은 여전히 유효하다.

나는 지금 내 일에서 이 모델을 쓴다. 글을 쓸 때 AI에게 자료 정리를 맡기고, 분석 보고서를 쓸 때 AI에게 초안을 시킨다. 그러나 최종 판단은 내가 한다. 무엇을 말할 것인가, 어떤 순서로 말할 것인가, 무엇을 빼고 무엇을 남길 것인가. 이것은 AI가 아직 대신할 수 없는 영역이다. 오랜 현장 경험이 만든 판단의 뼈대가 여기서 작동한다.

이 구조가 효과적이려면 한 가지 조건이 있다. 인간 쪽이 충분히 강해야 한다는 것이다. AI의 출력을 평가하고, 수정하고, 방향을 잡을 수 있을 만큼의 전문성이 있어야 한다. 그렇지 않으면 센토르가 아니라 그냥 AI에 끌려가는 꼭두각시가 된다.

3.8 현실 점검 — McKinsey "88% 도입, 2/3 스케일링 미완"

이론과 사례는 아름답다. 그러나 현실은 어떤가.

McKinsey의 2025년 11월 보고서에 따르면, 전 세계 기업의 88%가 최소 하나의 업무에 AI를 정기적으로 사용하고 있다[^2]. 1년 전의 78%에서 10%포인트 올랐다. 그러나 이 숫자의 이면을 봐야 한다. 거의 2/3의 기업이 AI를 전사적으로 확산하는 데 아직 시작도 하지 못했다.

왜 그런가. 보안과 리스크에 대한 우려가 가장 큰 장벽이다. AI의 부정확성과 사이버보안이 가장 자주 언급되는 리스크다. 좋은 협력의 세 가지 조건 — 역할 분담, 한계 이해, 피드백 루프 — 중 어느 것도 제대로 갖추지 못한 기업이 대부분이라는 뜻이다.

가트너는 더 날카롭다. 2026년 말까지 기업 앱의 40%에 AI Agent가 탑재될 것이라고 예측하면서, 동시에 2027년까지 Agentic AI 프로젝트의 40% 이상이 취소될 것이라고 경고한다[^3]. 도입은 빠르지만 실패도 빠르다.

이 모순은 결국 이 장의 핵심으로 돌아온다. 기술의 문제가 아니라 협력의 설계 문제다. AI를 도입하는 것은 쉽다. AI와 인간이 각자의 강점을 살리는 구조를 만드는 것은 어렵다. 쉬운 일만 하고 어려운 일을 건너뛰면, Pilot Purgatory — 파일럿은 성공하는데 실제 운영으로 넘어가지 못하는 연옥 — 에 빠진다.

이 장에서 본 것을 정리하자.

AI와 인간은 다르게 강하고 다르게 약하다. 이 차이는 경쟁의 근거가 아니라 협력의 근거다. 잘 설계된 협력에서 AI는 일관성, 규모, 기억에서 인간을 보완하고, 인간은 맥락 해석, 가치 판단, 프레임 전환에서 AI를 보완한다.

이 협력이 잘 작동하려면 세 가지가 필요하다. 명확한 역할 분담, AI 한계에 대한 이해, 피드백 루프.

그리고 한 가지 더. 이 협력의 질은 인간 쪽의 역량에 달려 있다. AI는 점점 강해진다. 그것은 확실하다. 그렇다면 인간 쪽도 강해져야 한다. 어떻게? 그것이 이 책의 나머지 부분이 다루는 질문이다.

다음 장에서는 시야를 기술로 돌려, AI 발전의 현재 좌표를 정확히 찍는다. Scaling Law의 시대가 끝나고 추론의 시대가 열리면서, AI와 인간의 관계는 또 한 번 바뀌고 있다.

핵심 정리

AI와 인간의 강점은 상호보완적이다. AI는 일관성, 규모, 기억에서 강하고, 인간은 맥락 해석, 가치 판단, 새로운 프레임 창조에서 강하다.

좋은 협력의 구조는 각자가 잘하는 일을 맡는 것이다. AI는 탐색과 정리를 맡고, 인간은 판단과 결정을 맡는다. 이 구조는 의료, 법률, 금융 등 다양한 분야에서 이미 작동하고 있다.

카스파로프의 센토르 모델은 인간+AI 팀이 각각보다 강할 수 있음을 보여준다. 단, 인간 쪽이 AI의 출력을 평가할 수 있을 만큼 충분히 강해야 한다.

좋은 협력을 위해서는 명확한 역할 분담, AI 한계에 대한 이해, 피드백 루프가 필요하다.

궁극적으로 이 협력의 질은 인간 쪽의 역량에 달려 있다. AI가 강해질수록 인간도 자기 영역에서 더 강해져야 한다.

반드시 답해봐야 할 질문 5가지

질문 1. 당신의 업무에서 AI에게 맡길 수 있는 부분과 인간이 해야 하는 부분을 구체적으로 나눠보자. 그 경계는 어디인가?

질문 2. 현재 당신은 AI의 출력을 얼마나 검증하고 있는가? 검증하지 않는다면 그 이유는 무엇인가? 시간이 부족해서인가, 검증 능력이 부족해서인가, 아니면 AI를 너무 신뢰해서인가?

질문 3. 센토르 모델을 당신의 직업에 적용한다면, 당신은 어떤 종류의 센토르가 될 수 있는가? AI와의 팀에서 당신의 고유한 기여는 무엇인가?

질문 4. AI가 계속 발전해서 맥락 해석이나 가치 판단까지 할 수 있게 된다면, 인간에게 남는 것은 무엇인가? 이 질문에 대한 당신의 첫 번째 답은?

질문 5. "AI와의 협력의 질은 인간 쪽의 역량에 달려 있다"는 명제에 동의하는가? 그렇다면 당신은 어떤 역량을 키워야 하는가?

더 깊이 탐구하기

대니얼 카네만·올리비에 시보니·캐스 선스타인, 「Noise」 (2021). 인간 판단의 일관성 문제를 체계적으로 분석한 책. 같은 정보를 보고도 사람마다 다른 결론에 이르는 노이즈 현상.

가리 카스파로프, 「Deep Thinking」 (2017). 딥블루에 진 당사자가 AI와 인간의 협력을 논한 책. 센토르 체스의 발상과 의미.

에릭 브린욜프슨·앤드루 맥아피, 「제2의 기계 시대」 (2014). AI 시대의 인간 역할 변화에 대한 초기 분석. 보완적 기술의 가치.

서울아산병원 AI 의료영상 분석 사례. 인간 의사와 AI의 협진이 단독보다 정확한 결과를 내는 실제 데이터.

스탠퍼드 HAI(Human-Centered AI) 연구소 보고서 시리즈. 인간 중심 AI 설계의 원칙과 사례 연구.

다음 장에서는 AI 발전의 최전선으로 간다. Scaling Law가 끝나고 추론의 시대가 열리면서, AI의 능력은 어떻게 바뀌고 있는가. 그리고 이 변화가 우리에게 무엇을 의미하는가.

각주

Daniel Kahneman, Olivier Sibony & Cass R. Sunstein, *Noise: A Flaw in Human Judgment* (New York: Little, Brown Spark, 2021). 인간 판단의 비일관성(노이즈)을 체계적으로 분석한 책.

McKinsey & Company, "The State of AI in 2025: Agents, Innovation, and Transformation," November 2025. 88% 기업 AI 정기 사용, 2/3 스케일링 미완. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

Gartner, "Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027," June 25, 2025. https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027