Archive

[텍스트 마이닝] 개요 본문

공부/R programming

[텍스트 마이닝] 개요

mariabeetle 2017. 10. 7. 01:37

1. 접근 방법

- 일반적인 통계모형을 만들 때는 수치형 데이터를 사용한다.

- 텍스트를 수치형 데이터로 간주해 통계분석 모형을 수립하고 테스트하자.

- 텍스트 데이터를 구조화하기

# 문자(letter), 형태소(morpheme), 단어(word), 문장(sentence), 문서(document) 등의 hierarchical 질서를 갖는 텍스트를 matrix 형태의 데이터로 개념화하기

# token기반으로 topic이나 sentiment를 추정하는 기법


2. 텍스트 데이터의 구조

- 텍스트 데이터는 hierarchical 질서를 갖는 데이터로 파닥한다.

- corpus(말뭉치) : 분석을 위해 수집된 문서들의 집합

- document(문서) : corpus를 구성한다.

# 텍스트 데이터 분석을 하기 위해 100개의 논문을 수집했다고 가정하자. 

# 1개의 corpus에는 100개의 documents가 존재한다.

- paragraph(단락) : document를 구성하는 단위.

- sentence(문장) : paragraph를 구성하는 단위.

- words(단어) : sentence를 구성하는 단위

- morpheme(형태소) : words를 구성하는 단위

- corpus > document > paragraph > sentence > words > morpheme

- 말뭉치 > 문서 > 단락 > 문장 > 단어 > 형태소

- 텍스트 데이터 분석에서는 단어들을 분석함으로써 각 문서의 특징(feature)을 추정하고, 추정된 문서들의 특징들에 대한 통계분석을 통해 말뭉치를 파악한다.


3. 텍스트 분석 방법론

1)  text-as-data(텍스트 데이터)

document term matrix에 대한 이미지 검색결과

2) Dictionary-based approach(사전기반 접근방법)

- 어떤 단어가 어떤 의미를 나타내는지 연구자가 지정한다.

- 알고리즘을 통해 해당 단어들이 사용된 문서의 의미를 추정할 수 있다.

- 정치적 내용을 담고 있는 텍스트를 분석하거나 텍스트 작성자의 심리적 상태를 추론할 때 성과를 거두고 있다.

3) Machine Learning(기계학습)

- supervised learning (지도 학습) 

# 훈련 데이터로 주어진 텍스트 데이터를 이해해야 한다.

# 훈련 데이터는 예측변수(예를 들어 빈도(frequency) )와 결과변수( 예를 들어 topic이나 sentiment(감정) )로 나눠져 있다. 

# 예측변수와 결과변수의 관계를 최적으로 설명할 수 있는 함수를 반복적으로 찾는게 핵심이다.

# 선형모형, 나이브 베이즈 분류, 서포트 벡터 머신, 분류 및 회귀나무, 부스팅, 딥러닝 알고리즘을 사용할 수 있다.

- unsupervised learning(비지도 학습)

# 텍스트 데이터의 의미를 연구자가 해석해야 한다.

# 주성분 분석(PCA), 군집 분석(cluster analysis)를 한다.

# 연구자의 주관적 판단이 들어간다. ( 군집 분석의 경우 군집의 개수를 설정할 때 연구자마다 다른 판단을 내릴 수 있다. )

'공부 > R programming' 카테고리의 다른 글

NA와 NULL  (0) 2017.03.15
Variables( 변수 )  (0) 2017.03.15
Comments