이번 글에서는 자연어처리 기술이 생성형 AI와 대규모 언어 모델(LLM)로 발전하게 된 배경과
그 작동 원리의 핵심 개념, 그리고 한계까지를 정리해보겠습니다.
생성형 AI(Generative AI)란?
기존 데이터를 학습하여 새로운 텍스트, 이미지, 음성, 코드 등을 생성하는 인공지능 기술
입력을 받아 정답을 분류하거나 값을 예측하는데 그치지 않고,
이전에 존재하지 않았던 결과물을 만들어냅니다.
- 문장을 이어서 완성하기
- 질문에 대한 자연스러운 답변 생성
- 긴 글을 요약하거나 새로운 문장으로 바꾸기
이러한 작업은 모두 생성형 AI의 범주에 속합니다.
대규모 언어 모델(Large Language Model)이란?
방대한 양의 텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 확률 기반 언어 모델
LLM은 문장을 단순히 외우는 것이 아니라,
단어와 문장 사이의 확률적 관계를 학습합니다.
수많은 글을 읽고 <이 상황에서는 보통 이런 말이 나온다>를 배운 모델입니다.
- “감기에 걸리면 보통…” 다음에
→ “휴식을 취하고 증상을 관찰합니다” 같은 문장이 자연스럽게 이어짐
이러한 문장 생성은 확률적으로 가장 그럴듯한 다음 단어를 선택한 결과입니다.
LLM의 핵심 작동 방식
LLM은 입력된 문맥을 바탕으로
다음에 등장할 단어(토큰)의 확률 분포를 예측합니다.
이 과정을 반복하면서 문장을 생성합니다.
즉, LLM의 기본 동작은 “다음에 올 단어는 무엇일 가능성이 높은가”를 계속 묻는 과정입니다.
입력: “이 약은 하루에 두 번”
출력: “복용하는 것이 좋습니다.”
모델은 문법과 의미상 가장 자연스러운 다음 표현을 선택합니다.
LLM의 배경 기술과 발전 과정
LLM은 단번에 등장한 기술이 아니라,
여러 자연어처리 기술의 누적된 발전 결과입니다.
대략적인 흐름은 다음과 같습니다.
- 규칙 기반 언어 처리
- 통계 기반 언어 모델
- 신경망 기반 언어 모델
- 임베딩 기반 표현 학습
- 대규모 사전 학습 언어 모델
사람이 직접 규칙을 쓰던 단계에서,
데이터로 언어 패턴을 배우는 단계로 점점 이동해 왔습니다.
초기 모델은 “주어 + 동사” 같은 규칙을 따졌지만,
LLM은 실제 문장에서 사용되는 다양한 표현을 그대로 학습합니다.
임베딩과 LLM의 관계
LLM 내부에서도 임베딩은 핵심 요소입니다.
토큰, 단어, 문장은 모두 임베딩 벡터로 변환되어 처리됩니다.
LLM은 이 임베딩을 기반으로
문맥을 이해하고 다음 출력을 생성합니다.
LLM도 결국 숫자로 바뀐 단어들을 가지고 계산하는 모델입니다.
사람이 글을 쓸 때 머릿속에 의미 지도를 그리고 생각하듯,
LLM도 의미 공간 위에서 계산을 수행합니다.
“의사”와 “환자”가 의미적으로 가까운 임베딩을 가지면,
의료 관련 문맥에서 자연스러운 문장이 생성됩니다.
LLM이 잘하는 것
LLM은 다양한 자연어 처리 작업을
하나의 모델로 유연하게 수행할 수 있습니다.
- 질의응답
- 문서 요약
- 번역
- 문장 생성
- 대화형 응답
이러한 작업들은 모두
언어 패턴 학습의 결과로 수행됩니다.
LLM의 한계
LLM은 근본적인 한계를 가지고 있습니다.
- 사실과 다른 내용을 그럴듯하게 생성할 수 있습니다.
- 내부 추론 과정이 명확하게 드러나지 않습니다.
- 최신 정보나 외부 지식을 자동으로 반영하지 못합니다.
- 학습 데이터의 편향이 결과에 영향을 줄 수 있습니다.
말은 잘하지만, 항상 맞는 말을 하는 것은 아닙니다. 🙁
존재하지 않는 논문이나 사실을
실제 있는 것처럼 설명하는 경우가 발생할 수 있습니다.

토큰(Token)과 토큰화(Tokenization)
LLM은 텍스트를 토큰 단위로 처리합니다.
토큰은 모델이 인식하는 최소 처리 단위입니다.
토큰화 방식은 모델 성능과 입력 길이에 직접적인 영향을 미칩니다.
문장을 그대로 읽는 것이 아니라,
잘게 쪼개서 이해합니다.
“자연어처리” →
- 하나의 토큰
- 또는 여러 서브 토큰
토큰화 방식에 따라 처리 결과가 달라질 수 있습니다.
🔑 3-2 요약
- 생성형 AI는 새로운 콘텐츠를 만들어내는 AI
- LLM은 생성형 AI의 핵심 기술
- LLM은 다음 단어를 예측하는 방식으로 문장을 생성
- 임베딩은 LLM 내부 동작의 기반
- LLM은 강력하지만 한계를 함께 고려해야 함
- 토큰화는 LLM 입력 처리의 핵심 단계
'[오즈코딩스쿨] AI 헬스케어 > 🔠 자연어 처리 (NLP)' 카테고리의 다른 글
| [자연어처리] 마무리 개념 확인용 (1) | 2026.01.10 |
|---|---|
| [NLP 3일차-1] – SentenceBERT, Word2Vec, 감성분석 (0) | 2025.12.17 |
| [NLP 1일차] 텍스트마이닝 기초 이론 정리 (TF, TF-IDF, N-gram, CONCOR) (1) | 2025.12.15 |