LLM / RAG란?

지난 월례조회에서 진행된 AI 기술 강의에서 LLM과 RAG라는 용어를 처음 접했다. 강의를 듣는 동안 이 기술들이 우리가 일상에서 사용하는 ChatGPT나 Claude 같은 AI 서비스의 핵심이라는 점이 흥미로웠다. 특히 최근 화제가 되고 있는 MCP 기술까지 알게 되면서, 이 세 기술이 어떻게 연결되어 있는지 더 자세히 알아보고 싶어 이 글을 작성한다.

LLM: 대규모 언어 모델의 이해

정의와 특징

LLM(Large Language Model)은 수십억에서 수조 개의 매개변수를 가진 인공신경망 모델이다. 이 모델들은 인터넷상의 텍스트 데이터, 도서, 논문 등 방대한 양의 언어 자료를 학습하여 인간 수준의 언어 이해와 생성 능력을 보유한다.

핵심 능력

LLM은 다음과 같은 작업을 수행할 수 있다:

자연어 번역 및 해석
문서 요약 및 분석
질문 답변 및 대화
창작 및 코드 생성
복잡한 추론과 논리적 사고

주요 모델들

현재 상용화된 주요 LLM으로는 OpenAI의 GPT 시리즈, Anthropic의 Claude, Google의 Gemini, Meta의 LLaMA 등이 있다. 각 모델마다 학습 데이터와 구조가 다르기 때문에 고유한 특성을 보인다.

RAG: 검색 증강 생성 기술

도입 배경

LLM은 강력한 능력을 가지고 있지만 몇 가지 근본적인 한계가 존재한다. 첫째, 훈련 시점 이후의 최신 정보를 알지 못한다. 둘째, 특정 도메인의 전문적이고 세부적인 지식에 한계가 있다. 셋째, 때로는 사실이 아닌 내용을 생성하는 환각(Hallucination) 현상이 발생한다.

작동 메커니즘

RAG(Retrieval-Augmented Generation)는 이러한 문제를 해결하기 위한 기술이다. 작동 과정은 다음과 같다:

검색 단계: 사용자의 질문과 관련된 정보를 외부 데이터베이스나 문서 저장소에서 검색
컨텍스트 구성: 검색된 관련 정보를 LLM의 입력 맥락에 포함
생성 단계: 검색된 정보를 바탕으로 정확하고 근거 있는 답변 생성

RAG의 장점

실시간 정보 활용이 가능하다
특정 도메인의 전문 지식을 효과적으로 활용할 수 있다
근거 자료를 바탕으로 한 답변으로 신뢰성이 향상된다
전체 모델을 재훈련하지 않고도 새로운 지식을 추가할 수 있어 비용 효율적이다

MCP: 모델 컨텍스트 프로토콜

기술 개념

MCP(Model Context Protocol)는 Anthropic에서 개발한 표준화된 프로토콜이다. 이 기술은 AI 모델이 다양한 외부 데이터 소스와 도구에 일관되고 안전하게 접근할 수 있도록 하는 인터페이스를 제공한다.

해결하는 문제

기존에는 AI 모델이 외부 시스템과 연동할 때마다 각기 다른 API와 데이터 형식을 사용해야 했다. 이는 마치 각 가전제품마다 다른 플러그를 사용하는 것과 같았다. MCP는 이러한 복잡성을 해결하는 표준화된 '만능 어댑터' 역할을 한다.

주요 특징

다양한 데이터 소스와 표준화된 방식으로 연결
강화된 보안 및 권한 관리 시스템
새로운 도구나 데이터 소스의 쉬운 추가
다른 AI 시스템과의 상호 운용성 보장

세 기술의 상호보완적 관계

기능적 역할 분담

이 세 기술은 현대 AI 시스템에서 각각 다른 계층을 담당한다:

LLM은 핵심 언어 처리 엔진 역할
RAG는 LLM의 지식 한계를 극복하는 아키텍처
MCP는 외부 시스템과의 연결을 표준화하는 프로토콜

통합 활용 사례

기업용 AI 어시스턴트: MCP를 통해 회사의 CRM, ERP 등 다양한 시스템과 연결하고, RAG를 활용해 최신 문서와 정책을 반영한 답변을 제공한다. LLM은 이 모든 정보를 자연스러운 언어로 처리한다.

의료 지원 시스템: MCP로 의료 기록 시스템에 안전하게 접근하고, RAG를 통해 최신 의학 연구와 치료 가이드라인을 활용한다. LLM은 복잡한 의료 정보를 의료진이 이해하기 쉽게 정리한다.

법무 지원 도구: MCP가 법령 데이터베이스와 연결되고, RAG가 관련 판례와 최신 법령 정보를 검색한다. LLM은 어려운 법률 용어를 일반인도 이해할 수 있게 설명한다.

기술 발전 전망

예상되는 발전 방향

세 기술이 완전히 통합된 올인원 AI 플랫폼의 등장
실시간으로 외부 데이터를 학습하여 지속적으로 성능이 향상되는 시스템
텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 형태의 데이터를 처리하는 멀티모달 AI

해결해야 할 과제

현재 몇 가지 중요한 과제가 남아있다. RAG에서 사용하는 외부 데이터의 정확성과 신뢰성을 어떻게 보장할 것인가? MCP를 통한 외부 시스템 연동 시 민감한 정보를 어떻게 안전하게 처리할 것인가? 대규모 LLM 운영과 실시간 데이터 검색에 따른 높은 비용을 어떻게 최적화할 것인가? 그리고 MCP 같은 새로운 프로토콜이 업계 표준으로 자리잡을 수 있을 것인가?

마무리

월례조회에서 우연히 접한 LLM과 RAG 개념이 이렇게 깊이 있는 기술 생태계로 연결될 줄 몰랐다. MCP라는 새로운 기술까지 알게 되면서, AI 기술이 단순히 하나의 모델이 아니라 여러 기술이 유기적으로 결합된 시스템이라는 점을 깨달았다.

이 기술들은 각각 강력하지만, 함께 사용될 때 더욱 큰 시너지를 만들어낸다. 앞으로 우리 조직에서도 이런 기술들을 어떻게 활용할 수 있을지 지속적으로 연구하고 준비해야 할 때다.

'CS(ComputerScience)' 카테고리의 다른 글

MCP(Model Context Protocol)란? (2)	2025.09.02
클로저(Closure)란 무엇일까? – 함수가 기억하는 환경 (0)	2025.09.01