[NLP 1일차] 텍스트마이닝 기초 이론 정리 (TF, TF-IDF, N-gram, CONCOR)
본 강의에서는 텍스트 요약을 위한 자연어 처리(NLP) 기술의 활용법을 다루어보겠습니다.📚 텍스트마이닝 분석 흐름텍스트마이닝은 자연어처리 기술을 기반으로 텍스트 데이터를 정제·가공한 뒤, 목적에 맞는 유의미한 정보나 패턴을 추출·분석하는 방법입니다. 교안에서는 전형적인 흐름을 다음과 같이 제시합니다.데이터 수집 → 데이터 전처리 → 데이터 분석데이터 분석의 대표 기법: 단어빈도(TF), TF‑IDF, N‑gram, 동시출현(네트워크), 토픽 분석(CONCOR/LDA), 감성분석"텍스트를 바로 읽어서 결론 내는 게 아니라, 먼저 숫자로 바꾼 다음 규칙/구조를 찾는 과정"입니다. 인터뷰 녹취를 그냥 읽는 대신 핵심 단어를 뽑고(빈도/TF‑IDF), 자주 붙는 표현을 찾고(N‑gram), 관계도를 그려보고..