일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 구슬탈출2
- [sqld]자격증합격
- 피보나치 함수
- python
- Common Child
- Algorithm
- Find the nearest clone
- Roads and Libraries
- BFS: Shortest Reach in a Graph
- 파이썬
- 격파르타 합격후기
- Reverse Shuffle Merge
- 해커랭크
- 격파르타 장점
- 매칭점수
- 코딩테스트
- 알고리즘
- hackerrank
- DFS: Connected Cell in a Grid
- 머신러닝
- candies
- 백준
- 격파르타 후기
- Max Array Sum
- Recursion: Davis' Staircase
- Special String Again
- 야근지수
- 프로그래머스
- programmers
- Interview Preparation Kit
- Today
- Total
Archive
[텍스트 마이닝] 개요 본문
1. 접근 방법
- 일반적인 통계모형을 만들 때는 수치형 데이터를 사용한다.
- 텍스트를 수치형 데이터로 간주해 통계분석 모형을 수립하고 테스트하자.
- 텍스트 데이터를 구조화하기
# 문자(letter), 형태소(morpheme), 단어(word), 문장(sentence), 문서(document) 등의 hierarchical 질서를 갖는 텍스트를 matrix 형태의 데이터로 개념화하기
# token기반으로 topic이나 sentiment를 추정하는 기법
2. 텍스트 데이터의 구조
- 텍스트 데이터는 hierarchical 질서를 갖는 데이터로 파닥한다.
- corpus(말뭉치) : 분석을 위해 수집된 문서들의 집합
- document(문서) : corpus를 구성한다.
# 텍스트 데이터 분석을 하기 위해 100개의 논문을 수집했다고 가정하자.
# 1개의 corpus에는 100개의 documents가 존재한다.
- paragraph(단락) : document를 구성하는 단위.
- sentence(문장) : paragraph를 구성하는 단위.
- words(단어) : sentence를 구성하는 단위
- morpheme(형태소) : words를 구성하는 단위
- corpus > document > paragraph > sentence > words > morpheme
- 말뭉치 > 문서 > 단락 > 문장 > 단어 > 형태소
- 텍스트 데이터 분석에서는 단어들을 분석함으로써 각 문서의 특징(feature)을 추정하고, 추정된 문서들의 특징들에 대한 통계분석을 통해 말뭉치를 파악한다.
3. 텍스트 분석 방법론
1) text-as-data(텍스트 데이터)
2) Dictionary-based approach(사전기반 접근방법)
- 어떤 단어가 어떤 의미를 나타내는지 연구자가 지정한다.
- 알고리즘을 통해 해당 단어들이 사용된 문서의 의미를 추정할 수 있다.
- 정치적 내용을 담고 있는 텍스트를 분석하거나 텍스트 작성자의 심리적 상태를 추론할 때 성과를 거두고 있다.
3) Machine Learning(기계학습)
- supervised learning (지도 학습)
# 훈련 데이터로 주어진 텍스트 데이터를 이해해야 한다.
# 훈련 데이터는 예측변수(예를 들어 빈도(frequency) )와 결과변수( 예를 들어 topic이나 sentiment(감정) )로 나눠져 있다.
# 예측변수와 결과변수의 관계를 최적으로 설명할 수 있는 함수를 반복적으로 찾는게 핵심이다.
# 선형모형, 나이브 베이즈 분류, 서포트 벡터 머신, 분류 및 회귀나무, 부스팅, 딥러닝 알고리즘을 사용할 수 있다.
- unsupervised learning(비지도 학습)
# 텍스트 데이터의 의미를 연구자가 해석해야 한다.
# 주성분 분석(PCA), 군집 분석(cluster analysis)를 한다.
# 연구자의 주관적 판단이 들어간다. ( 군집 분석의 경우 군집의 개수를 설정할 때 연구자마다 다른 판단을 내릴 수 있다. )
'공부 > R programming' 카테고리의 다른 글
NA와 NULL (0) | 2017.03.15 |
---|---|
Variables( 변수 ) (0) | 2017.03.15 |