일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 격파르타 합격후기
- Algorithm
- Reverse Shuffle Merge
- 백준
- 프로그래머스
- 해커랭크
- Recursion: Davis' Staircase
- 매칭점수
- Interview Preparation Kit
- Special String Again
- 격파르타 장점
- [sqld]자격증합격
- Roads and Libraries
- Common Child
- 알고리즘
- DFS: Connected Cell in a Grid
- 코딩테스트
- 격파르타 후기
- Max Array Sum
- 야근지수
- 파이썬
- 머신러닝
- python
- 구슬탈출2
- Find the nearest clone
- programmers
- BFS: Shortest Reach in a Graph
- hackerrank
- candies
- 피보나치 함수
- Today
- Total
Archive
Newton Highlight [통계와 확률의 원리] 본문
통계학은 막대한 데이터를 분석해서 '해독하는' 학문이다.
p.10~11 ( 1. 데이터를 통계로 읽는다. #평균값과 분포)
통계학에서는 데이터를 그래프로 만들 뿐 아니라 데이터의 특징을 '특성값'이라 불리는 여러 가지 수치로 표현한다. '평군값'은 가장 널리 사용되는 특성값이다.
'평균값'은 극단적인 데이터(이상값, outlier)의 영향을 받기 쉬운 결점이 있다. -> '최빈값', '중앙값'으로 보완
'최빈값' : 분포 중에서 비율이 가장 높은 값. ( 최대 빈출 값)
'중앙값' : 모든 데이터에서 정확히 중간에 오는 값.
1. 데이터를 통계로 읽는다.
#4~7월 생은 운동 신경이 뛰어나다? ( 일본 )
상대적 연령 비교 : 일본의 1학년은 4월 2일 ~ 다음 해 4월 1일에 태어난 어린이들로 구성. 같은 학년이라도 생일이 2월~4월 1일 자녀는 가장 어림. 4월 2일에 태어난 어린이보다 실질적으로 1살 가까이 나이가 어린셈. 좀 더 성장한 4월 ~ 7월 자녀가 스포츠나 학업에 유리.
이런 장점으로 어릴 때 칭찬을 받고 발탁되어 야구 재능을 키운 것이라 추정. 그와 달리 1월 ~ 4월 1일에 태어난 아이들은 자신의 능력을 낮게 평가해 야구를 그만두었을 가능성이 있음.
1. 데이터를 통계로 읽는다.
# 정규분포
정규분포 : 데이터가 산 같은 모양으로 분배되어있는 분포( normal distribution )
이항분포 : 양자택일의 답을 내는 것을 되풀이해 생기는 확률 분포.
중심극한 정리 : 정규분포가 나타나는 조건. 몇가지 사건이 서로에게 관계없이(독립적으로) 일어날 때 사건의 수가 많으면 그들 사건의 합이나 평균의 확률분포는 정규분포가 된다.
표준 편차 : 대다수의 데이터가 평균 범위의 어느 정도 범위에 모여 있는가를 나타내는 특성값
-> 표준편차가 작으면 대다수의 데이터가 평균값 주위에 집중해 있으므로 뾰족한 모양의 분포가 됨.
정규분포에는 '평균의 전후, 표준 편차 1개분의 범위에 약 68%의 데이터가 모여 있다.'는 특징이 있음.( 정규 분포에서는 모든 데이터의 약 68.3%가 '평균값 +- 표준편차'의 범위에 포함. 그리고 '평균값 +- 표준편차*2'의 범위에는 모든 데이터의 약 95.5%가 들어감.)
1. 데이터를 통계로 읽는다.
# 표준 편차의 계산
분산 : 데이터가 평균 주위에 어느 정도 모여있는가, 흩어져 있는가를 나타내는 특성값.
• 평균은 데이터의 값을 모두 더해 데이터의 개수로 나눈 값. 분산은 각각의 데이터 값에서 평균을 빼고 제곱한 것을 모두 더해 그것을 데이터의 개수로 나눈 값.( 그대로 더하면 플러스와 마이너스로 서로 지워서 '흩어진 정도'를 제대로 평가할 수 없으므로 제곱해서 더함 ) 표준편차는 분산값의 제곱근. ( 분산의 '흩어진 정도'가 제곱되어있으니 원래대로 되돌림 )
편찻값 : 정규 분포 개념을 이용한 각 데이터의 척도.
( 표준 편차를 10으로 해주고, 평균을 50으로 한다)
2. 사회에 도움이 되는 통계 수법
#상관이란 무엇인가?
• 두 가지 요소에 대해 한쪽 요소가 변할 때 다른 한쪽의 요소도 변하는 관계 -> 상관관계
#상관계수
두 가지 요소의 관계가 점점 높아지는지 낮아지는지, 또 그 상관이 강한지를 나타내는 특성값으로 '상관 계수'가 사용됨. 상관계수는 -1 이상 1 이하의 범위의 값을 취함.( 쵀댓값인 1이 되는 것은 수치가 점점 높아지면서 데이터가 일직선으로 나열되는 경우, 수치가 점점 낮아지면서 일직선으로 나열될 때 -1을 취함. 아무런 상관관계가 없으면 0 )
• 상관관계는 '기울기의 정도'가 아니라 '흩어져 있는 상황'으로 정해짐. ( 상관관계가 -1 => 데이터 수치가 낮아질수록 일직선 위에 있음. 기울기가 -1이 아님 )
# 상관계수 구하기
공분산 : 평균값으로 두 종류의 데이터가 어느 방향으로 흩어져 있는가를 나타내는 특성값.
• 회기분석 : 상관도의 데이터를 대표하는 방정식을 유도해 내는 통계 수법