[자연어처리] 마무리 개념 확인용

텍스트 마이닝의 개념과 활용 목적

텍스트 마이닝은 자연어처리 기술을 기반으로 비정형 텍스트 데이터를 정제·가공하여 특정 목적에 부합하는 유의미한 정보와 패턴을 추출하는 분석 기법이다. 텍스트 데이터를 수치화하고 구조화하여 빈도, 관계, 주제, 의미를 분석한다. 텍스트의 표면적 의미뿐 아니라 반복 구조와 잠재된 주제를 파악하는 것이 목적이다.
연구 동향 분석, 정책 분석, 여론 분석, 설문 질적 자료 분석, 뉴스 기사 분석 등에 활용된다.
예를 들어 10년간 언론 기사 데이터를 분석해 사회적 이슈의 변화 흐름을 파악할 수 있다.


텍스트 데이터 수집 과정과 전처리의 필요성

 

텍스트 데이터 수집은 웹 크롤링, 공공 데이터 포털, 크롤링 SaaS 도구 등을 통해 수행된다.

수집된 텍스트는 분석 목적과 무관한 정보가 다수 포함되어 있다.

전처리는 분석 정확도를 확보하기 위한 필수 과정이며, 이후 모든 분석 결과에 직접적인 영향을 미친다.
전처리는 불용어 제거, 형태소 추출, 기본형 변환, 사용자 사전 반영 등의 단계를 포함한다.
예를 들어 전처리 사전에서 특정 단어를 삭제하면 빈도 분석, N-gram, 네트워크 분석 결과가 모두 변경된다.


형태소 분석의 개념과 형태소 추출 과정

 

형태소 분석은 문장을 의미를 가지는 최소 단위로 분해하는 과정이다.

한국어는 교착어이므로 형태소 분석을 통해 조사와 어미를 분리해야 한다.

형태소 분석기는 내부 사전을 기반으로 품사를 판별하며, 분석기마다 품사 기준이 다를 수 있다.

분석 목적에 따라 명사, 동사, 형용사 등 특정 품사만 추출한다.

예를 들어 연구 동향 분석에서는 명사 중심 분석이 일반적이다.


단어 빈도분석과 TF-IDF 분석의 차이

 

단어 빈도분석(TF)은 전체 문서 집합에서 단어가 등장한 횟수를 기준으로 중요도를 판단한다.

전체 텍스트의 주요 관심사를 파악하는 데 적합하다.
TF-IDF는 특정 문서에서의 단어 중요도를 반영하며, 전체 문서에서 흔한 단어의 가중치를 낮춘다. 문서별 핵심 키워드 도출에 적합하다.
예를 들어 “연구”, “결과”는 TF는 높지만 TF-IDF는 낮다. 반면 특정 문서에서만 반복되는 전문 용어는 TF-IDF가 높다.


N-gram의 개념과 문맥 정보 반영 방식

 

N-gram은 연속된 n개의 단어를 하나의 분석 단위로 묶는 기법이다.

단어 간 순서와 결합 관계를 반영해 문맥 정보를 부분적으로 포함한다.
Unigram은 단어 빈도 분석과 동일하며, 2-gram과 3-gram이 실무와 연구에서 가장 많이 사용된다.
예를 들어 “프로그램”이라는 단어의 의미를 파악하기 위해 “프로그램 개발”, “프로그램 운영” 같은 2-gram을 분석한다.


동시출현 단어 분석과 네트워크 해석

 

동시출현 단어 분석은 단어들이 동일 문서 또는 문맥에서 함께 등장하는 관계를 분석한다.

단어는 노드, 단어 간 관계는 엣지로 표현된다.
연결중심성, 근접중심성, 매개중심성, 위세중심성을 통해 단어의 구조적 역할을 해석한다.
예를 들어 연결중심성이 높은 단어는 여러 주제와 연결된 핵심 개념으로 해석된다.


텍스트 기반 단어 빈도분석 또는 TF-IDF 수행

 

형태소 분석 후 단어문서행렬(TDM)을 생성한다.

TDM은 텍스트를 정형 데이터로 변환하는 핵심 구조이다.
분석 목적에 따라 빈도 상위 단어를 선정하거나 TF-IDF 상위 키워드를 활용한다.
연구 논문에서는 일반적으로 빈도 상위 30~50개 단어를 분석 대상으로 사용한다.


LDA 토픽 모델을 통한 주요 토픽 추출

 

LDA는 문서 집합에서 잠재된 주제를 확률적으로 추정하는 토픽 모델이다.

문서는 여러 토픽의 혼합으로 구성되어 있으며, 각 토픽은 단어 확률 분포로 표현된다.
토픽을 구성하는 상위 단어를 기반으로 토픽의 의미를 해석하고 명명한다.
예를 들어 “호날두, 메시, 유럽, 바르셀로나”로 구성된 토픽은 해외 축구 선수 토픽으로 해석된다.


LDA의 작동 원리와 확률적 생성 과정

 

LDA는 전체 문서가 K개의 토픽으로 구성되어 있다고 가정한다.

각 문서는 토픽 비율을 가지며, 각 단어는 특정 토픽에서 생성된 것으로 가정된다.
알고리즘은 문서-토픽, 토픽-단어 간 확률을 반복적으로 조정하며 최적의 분포를 추정한다.
이 과정은 확률적 생성 모델에 기반하며, 결과는 항상 확률 분포 형태로 출력된다.


Perplexity, Coherence, LDAvis를 활용한 토픽 수 선정

 

Perplexity는 모델의 예측 정확도를 평가하며 값이 낮을수록 좋다.

Coherence는 토픽 내 단어들의 의미적 응집도를 평가하며 값이 높을수록 해석이 용이하다.
일반적으로 Coherence를 우선적으로 고려하고, Perplexity는 참고 지표로 활용한다.
LDAvis는 토픽 간 거리, 토픽별 핵심 단어 분포를 시각적으로 확인하는 도구이다.


Word2Vec의 기본 개념과 단어 임베딩

 

Word2Vec은 주변 단어 정보를 활용해 단어를 벡터로 표현하는 모델이다.

의미적으로 유사한 단어는 벡터 공간에서 가까이 위치한다.
CBOW와 Skip-gram 방식이 있으며, 의미 유사도 계산과 단어 관계 분석에 활용된다.
예를 들어 “의사”와 “간호사”는 벡터 공간에서 가까운 위치에 놓인다.


BERT의 등장 배경과 기존 임베딩 기법과의 차이

 

기존 임베딩 기법은 단어 단위 또는 단방향 문맥에 한계가 있었다.

BERT는 양방향 문맥을 동시에 고려하는 사전학습 언어모델이다.
동일한 단어라도 문맥에 따라 서로 다른 임베딩을 생성한다.
예를 들어 “은행”은 금융 문맥과 자연 지형 문맥에서 다른 의미로 처리된다.


SentenceBERT의 특징과 문장 유사도 계산

 

SentenceBERT는 문장 단위 임베딩을 생성하도록 BERT를 확장한 모델이다. 문장을 고정 길이 벡터로 변환하여 코사인 유사도를 계산한다.
문서 검색, 문장 군집화, 질의응답 시스템에 활용된다.
예를 들어 질문 문장과 가장 유사한 답변 문장을 자동으로 탐색할 수 있다.


LLM의 정의와 주요 특징

 

LLM은 대규모 텍스트 데이터로 학습된 언어모델이다.

사전학습과 미세조정을 통해 다양한 언어 작업을 수행한다.
텍스트 생성, 요약, 정보 추출, 추론이 가능하다.
기존 통계 기반 모델과 달리 의미 기반 이해와 생성이 가능하다.


토큰, 토큰화, 임베딩, 의미 공간

 

토큰은 텍스트 처리의 최소 단위이다.

토큰화는 문장을 토큰 단위로 분해하는 과정이다.
임베딩은 토큰을 벡터로 변환한 것이며, 의미 공간은 벡터들이 배치되는 고차원 공간이다.
의미적으로 유사한 토큰은 공간상 가까이 위치한다.


OpenAI Chat API 활용

 

OpenAI Chat API는 대규모 언어모델을 외부 시스템에서 활용할 수 있도록 제공되는 인터페이스이다.
프롬프트를 통해 텍스트 요약, 정보 추출, 분류, 질의응답을 수행할 수 있다.
예를 들어 여러 뉴스 기사를 입력해 핵심 내용만 요약하도록 자동화할 수 있다.