Text Mining이란?
- 정형 및 비정형 데이터를 자연어 처리 방식과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술
- 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝, 언어를 정보로 변환하기 위한 자연어처리, 정보검색 등 다양한 분야가 접목되어 발전한 학문, 기술
텍스트 마이닝 기술 영역
1. 텍스트 분류
2. 감성 분석 (실습)
3. 텍스트 요약
4. 텍스트 군진화 및 유사도 분석
** 감성 분석(실습)
- 최대한 쪼개서 작은 단위로 학습을 시킨다.
텍스트 마이닝 분석 프로세스
1. 텍스트 데이터 수집
- Crawling을 이용한 WEb 데이터 수집
- 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트
- NDSL : 국내 논문, 특허, 연구보고서 통합 정보 제공 사이트
2. 텍스트 전처리
- 전처리 용도에 맞게 텍스트를 사전에 처리하는 작업
- 궁극적으로 '중요한 특징 값'을 선택하는 것이 중요
- 오탈자 제거, 띄어쓰기 교정
- 불용어 제거 : 데이터에서 큰 의미가 없는 단어 제거
- 정제 : 가지고 있는 코퍼스로부터 노이즈 데이터 제거
- 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦
3. 토큰화
- 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업
- 기준은 분석 방법에 따라 다르다
- 감성 분석한다면, 감성을 나타내는 품사가 동사, 형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해서 동사, 형용사 위주로 추출한다
4. 특징 값 추출
- 중요한 단어를 선별하는 과정
- 중요한 단어로서의 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서도 빈번하게 출현해야 한다
- 특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어이다
5. 데이터 분석
- 머신러닝 : Linear Regression, Logistic Regression, Random Forest, XGBoost
- 딥러닝 : CNN, RNN, LST, GRU
'빅데이터 분석' 카테고리의 다른 글
머신러닝_Text Mining_Konly(실습) (0) | 2022.09.01 |
---|---|
머신러닝_Text Mining_KoNLPy 설치하기 (0) | 2022.09.01 |
머신러닝_Linear Model_Support Vector Machine(SVM) (0) | 2022.08.31 |
머신러닝_Linear Model_Logistic Regression (0) | 2022.08.31 |
머신러닝_LinearModel_Lasso&Ridge (0) | 2022.08.31 |