빅데이터 분석

머신러닝_Text Mining

asu2880 2022. 8. 31. 17:45

Text Mining이란?

- 정형 및 비정형 데이터를 자연어 처리 방식문서처리 방법을 적용하여 유용한 정보추출하여 가공하는 것을 목적으로 하는 기술

- 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝, 언어를 정보로 변환하기 위한 자연어처리, 정보검색 등 다양한 분야가 접목되어 발전한 학문, 기술

 

텍스트 마이닝 기술 영역

1. 텍스트 분류

2. 감성 분석 (실습)

3. 텍스트 요약

4. 텍스트 군진화 및 유사도 분석

 

** 감성 분석(실습)

- 최대한 쪼개서 작은 단위로 학습을 시킨다.

 

텍스트 마이닝 분석 프로세스

 

1. 텍스트 데이터 수집

- Crawling을 이용한 WEb 데이터 수집

- 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트

- NDSL : 국내 논문, 특허, 연구보고서 통합 정보 제공 사이트

 

2. 텍스트 전처리

- 전처리 용도에 맞게 텍스트를 사전에 처리하는 작업

- 궁극적으로 '중요한 특징 값'을 선택하는 것이 중요

- 오탈자 제거, 띄어쓰기 교정

- 불용어 제거 : 데이터에서 큰 의미가 없는 단어 제거

- 정제 : 가지고 있는 코퍼스로부터 노이즈 데이터 제거

- 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦

 

3. 토큰화

- 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업

- 기준은 분석 방법에 따라 다르다

- 감성 분석한다면, 감성을 나타내는 품사가 동사, 형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해서 동사, 형용사 위주로 추출한다

 

4. 특징 값 추출

- 중요한 단어를 선별하는 과정

- 중요한 단어로서의 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서도 빈번하게 출현해야 한다

- 특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어이다

 

5. 데이터 분석

- 머신러닝 : Linear Regression, Logistic Regression, Random Forest, XGBoost

- 딥러닝 : CNN, RNN, LST, GRU

728x90
반응형