[NLP 1일차] 텍스트마이닝 기초 이론 정리 (TF, TF-IDF, N-gram, CONCOR)

본 강의에서는 텍스트 요약을 위한 자연어 처리(NLP) 기술의 활용법을 다루어보겠습니다.

📚 텍스트마이닝 분석 흐름

텍스트마이닝은 자연어처리 기술을 기반으로 텍스트 데이터를 정제·가공한 뒤, 목적에 맞는 유의미한 정보나 패턴을 추출·분석하는 방법입니다. 교안에서는 전형적인 흐름을 다음과 같이 제시합니다.

데이터 수집 → 데이터 전처리 → 데이터 분석
데이터 분석의 대표 기법: 단어빈도(TF), TF‑IDF, N‑gram, 동시출현(네트워크), 토픽 분석(CONCOR/LDA), 감성분석

"텍스트를 바로 읽어서 결론 내는 게 아니라, 먼저 숫자로 바꾼 다음 규칙/구조를 찾는 과정"입니다.

인터뷰 녹취를 그냥 읽는 대신

핵심 단어를 뽑고(빈도/TF‑IDF),

자주 붙는 표현을 찾고(N‑gram),

관계도를 그려보고(네트워크),

큰 주제 묶음을 만드는 것(토픽/CONCOR)입니다.

예제는 아래와 같습니다.

"비대면 진료" 뉴스 기사 묶음에서

자주 등장하는 단어(빈도)
기사마다 특징적인 단어(TF‑IDF)
자주 함께 등장하는 단어쌍(N‑gram)
단어 관계 구조(네트워크)
큰 주제 그룹(토픽/CONCOR)

🔠 전처리: 형태소 분석과 품사 추출

형태소 분석은 문장을 의미를 가지는 최소 단위인 형태소로 분리하는 과정입니다.

한국어는 조사와 어미가 발달한 언어이기 때문에, 단순한 공백 기준 분리만으로는 정확한 단어 분석이 어렵습니다.

따라서 형태소 분석기를 사용하여 품사 정보를 함께 추출하는 방식이 일반적으로 사용됩니다.

즉 문장을 그대로 분석하지 않고, “의미 있는 단어만 골라내는 과정”입니다.

예제는 아래와 같습니다.

문장: “자연어처리는 데이터를 분석하는 중요한 기술입니다.”

명사 추출: 자연어처리, 데이터, 분석, 기술
불필요한 조사/어미 제거

이렇게 추출된 단어들이 이후 TF, TF-IDF, N-gram, 네트워크 분석의 입력 데이터로 사용됩니다.

✔️ 단어‑문서 행렬 (TDM: Term Document Matrix)

TDM은 문서를 단어(특성) 기준으로 표 형태로 변환한 행렬입니다.

텍스트(비정형)를 숫자 표(정형)로 바꾸는 대표적인 표현 방식이며, 이후 TF/TF‑IDF/N‑gram/네트워크 분석을 하기 위한 기초가 됩니다.

행(row): 문서
열(column): 단어(또는 토큰)
값(value): 해당 문서에서 그 단어가 등장한 횟수

"문서마다 어떤 단어가 몇 번 나왔는지"를 엑셀 표로 만든 것입니다.

예제는 아래와 같습니다.

문서1: 나는 음악을 좋아하고 음악을 즐긴다
문서2: 나는 미술을 좋아한다

문서/단어	나	음악	좋아함	즐긴다	미술
문서1	1	2	1	1	0
문서2	1	0	1	0	1

✔️ 단어 빈도 분석 (TF: Term Frequency)

특정 단어가 특정 문서 내(또는 전체 문서 집합에서) 얼마나 자주 등장하는지 나타내는 값입니다.

TF 값이 높을수록 해당 단어가 문서에서 흔하게 등장했음을 의미합니다.

단, TF가 높다고 해서 그 단어가 "핵심어"라고 단정할 수 없습니다.

예를 들어 "나", "좋아한다"처럼 모든 문서에 공통으로 많이 나오는 단어는 문서의 특징을 잘 설명하지 못합니다.

그래서 많이 나온 단어부터 줄을 세워줘야 합니다.

✔️ TF‑IDF (Term Frequency – Inverse Document Frequency)

TF‑IDF는 TF(빈도)와 IDF(역문서빈도)를 결합해,

특정 단어가 한 문서에서 자주 등장하면서도 전체 문서 집합에서는 흔하지 않을수록 중요도가 높다고 판단합니다.

TF: 단어가 등장한 빈도(자주 나오면 값이 커짐)
DF(Document Frequency): 그 단어가 등장한 문서의 수
IDF(Inverse Document Frequency): DF의 역수 성격(흔할수록 낮고, 드물수록 높음)

따라서 TF‑IDF는 대체로👇🏻

모든 문서에 흔한 단어: 중요도 낮게
특정 문서에서만 두드러지는 단어: 중요도 높게

여러 사람의 글에서 "그리고", "하지만"은 다 나오지만,

어떤 글에만 유독 등장하는 전문 용어는 그 글의 주제를 더 잘 보여줍니다.

문서1~3에서 "남자배우"는 모든 문서에서 자주 나오면 TF는 높아도 IDF가 낮아져 TF‑IDF가 낮아질 수 있습니다.

반대로 특정 문서에만 많이 나오는 "여자배우"는 TF‑IDF가 높아질 수 있습니다!

✔️ N‑gram 분석

N‑gram은 연속된 n개의 단어(또는 토큰) 묶음을 의미합니다.

단어 빈도(TF) 분석은 단어를 "낱개"로 보기 때문에, 같은 단어라도 어떤 맥락에서 쓰였는지 알기 어렵습니다.

N‑gram 분석은 단어가 연쇄적으로 표현되는 정도를 파악해,

단어의 문맥과 자주 함께 등장하는 표현을 분석할 수 있게 합니다.

1‑gram: 단어 1개(= unigram, 기본 빈도 분석)
2‑gram: 단어 2개(실무·연구에서 가장 많이 사용)
3‑gram, 4‑gram: 더 긴 표현까지 확인

즉 "단어를 1개씩 보지 말고, 붙어 나오는 단어 묶음으로 보자"입니다.

비유를 들어보자면..

"프로그램"만 보면 어떤 프로그램인지 모르지만,

"프로그램 개발"
"운동 프로그램"
처럼 2‑gram을 보면 의미가 명확해지는걸 확인할 수 있습니다.

예제를 들어보겠습니다.

문장: "대한민국은 한반도의 남쪽에 위치한 나라로, 전통과 현대가 공존하는 문화를 가지고 있습니다."

1‑gram: 대한민국, 한반도, 남쪽, 나라, 전통, 현대, 공존, 문화
2‑gram: 대한민국 한반도 / 한반도 남쪽 / 남쪽 나라 / …

✔️ 동시출현 단어 분석 (네트워크 분석)

동시출현 분석은 단어들 간의 관계를 수치화해 분석하는 방법입니다.

보통 2‑gram(단어쌍)의 빈도를 이용해 단어 간 연결 강도를 만들고, 이를 네트워크 그래프로 시각화합니다.

노드(node): 단어(키워드)
엣지(edge): 단어 간 연결(동시에 등장하거나 연속으로 등장하는 관계)
그래프(graph): 노드와 엣지로 구성된 네트워크

"단어 관계도"를 그리면? 같이 자주 등장하면 선이 생기고, 더 자주 등장하면 선이 더 강해지는 걸 확인할 수 있습니다.

❗ 중심성(Centrality) 지표

왜 중심성을 봐야할까요?

네트워크에서 "중요한 노드"는 단순히 많이 등장하는 단어와 다를 수 있습니다.

중심성은 네트워크 구조 안에서 노드의 역할을 수치로 나타내며, 키워드 네트워크 해석에서 핵심 지표로 사용됩니다.

1. 연결중심성(Degree Centrality)

연결중심성은 다른 노드와 연결된 정도를 의미하며, 한 노드에 직접 연결된 모든 엣지의 개수(또는 그 비율)로 해석합니다. "직접 연결된 친구가 몇 명이냐"를 생각하면 됩니다.

단톡방에서 대화를 많이 나누는 사람이 아니라, "연락처에 직접 저장된 사람이 많은 사람"을 떠올리면 됩니다.

2. 근접중심성(Closeness Centrality)

근접중심성은 그래프의 전체 노드들과의 거리(최단 경로 길이)를 기반으로,

특정 노드가 다른 노드들까지 얼마나 "가깝게" 도달할 수 있는지를 나타내는 지표입니다.

일반적으로 한 노드에서 다른 모든 노드까지의 최단 거리 합(또는 평균)을 구한 뒤, 그 값의 역수 형태로 정의됩니다.

거리가 짧을수록(가까울수록) 근접중심성이 높습니다.

= "다른 단어들에게 빨리(짧은 경로로) 도달할 수 있는 단어"입니다.

회사에서 여러 부서와 모두 가까운 위치(예: 중앙 복도)에 있는 자리일수록,

어디든 빨리 갈 수 있는것과 마찬가지 입니다.

3. 매개중심성(Betweenness Centrality)

매개중심성은 다른 노드 간 연결을 도와주는 정도를 나타냅니다.

임의의 두 노드 X, Y 사이의 최단 경로들 중에서 특정 노드 I가 포함되는 횟수(비율)를 합산해 계산합니다.

즉, 네트워크에서 "중간 다리" 역할을 하는 노드가 높게 나타납니다.

= "다른 단어들이 서로 연결될 때, 중간에 자주 끼는 단어" 입니다.

서로 다른 팀이 소통할 때 늘 거쳐야 하는 중개인 같은 존재라고 생각하면 됩니다.

그렇다면

두 단어 군집을 잇는 연결선이 한 단어를 통해서만 이어진다면, 그 단어의 매개중심성이 매우 높아질 수 있겠죠?

4. 위세중심성(Eigenvector Centrality)

위세중심성은 "중요한 노드들과 연결된 정도"를 의미합니다.

단순히 연결 수가 많다는 것보다, 연결된 상대가 네트워크에서 중요한 노드일수록 점수가 높아진다.

즉 "유명한 사람들과 연결돼 있으면 나도 영향력이 커진다"라는 관점으로 보면 됩니다.

연락처에 사람이 많아도, 핵심 인물과 연결되어 있으면 영향력이 커지는 것과 같습니다.

📚 토픽 분석(Topic Modeling)

토픽 분석은 문서 내에 어떤 주제들이 내포되어 있는지 파악하는 분석 기법입니다.

대표 기법으로 LSA, LDA, CONCOR 등이 제시됩니다.

즉 "문서 속 단어들을 보고, 비슷한 주제끼리 자동으로 묶는다"라고 이해하면 됩니다.

이를 테면 이사를 가면서 물건을 챙기면서 정리할 때 하나씩 보는 게 아니라,

"주방용품", "문구", "약" 같은 카테고리로 묶는 것과 같습니다.

다른 예제를 들어보자면 축구 관련 문서들이 모였을 때

선수/리그/경기 같은 단어가 함께 묶여 하나의 토픽이 될 수 있습니다.

✔️ CONCOR 분석

CONCOR 분석은 연관성(관계)이 높은 단어 노드들을 그룹화해주는 군집 분석 방법입니다.

유사한 위계(계층)에 있는 단어들을 그룹화하고 그룹 간 관계를 시각화합니다.

단어 간 관계를 계산한다.(1‑mode matrix)
관계 패턴이 비슷한 단어들을 그룹으로 묶는다.
그룹이 안정될 때까지 반복해 구조적 유사성이 높은 단어들을 군집화한다.
결과는 덴드로그램(dendrogram) 형태로 표현되기도 한다.

즉, CONCOR는 "자주 같이 등장"하는 수준을 넘어, 연결 구조가 비슷한 단어들을 묶는 방법입니다.

"서로 직접 연결되었는지"만 보는 게 아니라, "연결되는 방식이 비슷한 단어끼리" 묶는 방법입니다!

회사에서 A팀과 B팀이 서로 다른 일을 해도, 둘 다 "다른 팀들과 연결되는 방식"이 비슷하면(예: 모든 프로젝트에서 항상 중간 조율 역할) 같은 유형으로 묶일 수 있습니다.

예제를 들어보자면 아래와 같습니다.

(프로그램, 개발, 시스템) 같이 기술 관련 단어들이 비슷한 연결 구조를 가지면 하나의 군집
(운동, 명상, 건강, 마음) 같이 웰빙 관련 단어들이 비슷한 연결 구조를 가지면 하나의 군집

🔑 1일차 마무리

- TF는 "많이 나온 단어"를 찾지만, 흔한 단어가 상위에 올라오는 한계가 있습니다.

- TF‑IDF는 "해당 문서의 특징 단어"를 강조합니다.

- N‑gram은 문맥을 확인하기 위한 최소 단위(특히 2‑gram)로 자주 사용됩니다.

- 네트워크 분석은 단어 관계 구조를 보게 해주며, 중심성은 구조 속 역할을 수치로 표현합니다.

- 토픽 분석은 단어/문서를 주제 단위로 묶는 방법이며, CONCOR는 네트워크 기반으로 구조적 유사성을 군집화합니다.

'[오즈코딩스쿨] AI 헬스케어 > 🔠 자연어 처리 (NLP)' 카테고리의 다른 글

[자연어처리] 마무리 개념 확인용 (1)	2026.01.10
[NLP 3일차-2] 생성형 AI와 대규모 언어 모델(LLM)의 이해 (0)	2025.12.19
[NLP 3일차-1] – SentenceBERT, Word2Vec, 감성분석 (0)	2025.12.17

📚 텍스트마이닝 분석 흐름

🔠 전처리: 형태소 분석과 품사 추출

✔️ 단어‑문서 행렬 (TDM: Term Document Matrix)

✔️ 단어 빈도 분석 (TF: Term Frequency)

✔️ TF‑IDF (Term Frequency – Inverse Document Frequency)

✔️ N‑gram 분석

✔️ 동시출현 단어 분석 (네트워크 분석)

❗ 중심성(Centrality) 지표

📚 토픽 분석(Topic Modeling)

✔️ CONCOR 분석

🔑 1일차 마무리

'[오즈코딩스쿨] AI 헬스케어 > 🔠 자연어 처리 (NLP)' 카테고리의 다른 글

티스토리툴바