일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- streamlit
- 실버
- end to end
- 백준
- N-Queen
- 1101
- 손실함수
- 15649
- BOJ
- 파이썬
- 개발환경
- 경사하강법
- 파이싼
- 백트래킹
- 가상환경
- 기계학습
- 4948
- 그리디 알고리즘
- 설정
- Mac
- pyenv
- 재귀
- 1002
- 밑바닥부터 시작하는 딥러닝
- Python
- n과 m
- 9020
- 신경망 학습
- Today
- Total
파이톨치
[확률과 통계] 기술 통계(Descriptive Statistics) 본문
Descriptive Statistics
# 서론
여기서 기술은 테크닉할 때 기술이 아니라 말하다를 의미하는 기술이다.
세상의 대부분은 복잡한 확률에 의해서 결정된다. 내가 하는 결정 또한 내 뇌에서 일어나는 화학작용이 일정한 확률로 발생한 것이다.
때문에 이러한 확률에 대해 기술하는 것은 굉장히 중요하지 않을까 싶다. 왜냐하면 너무나 많은 확률이 있기 때문이다.
하지만 현실 세계에서 일어나는 확률은 너무나 복잡해서 수학적으로 깔끔하게 계산할 수 없을지 모른다.
동전의 앞뒷면의 확률은 1/2로 생각하기 쉽지만 사실은 정확하게 1/2은 아닌 것과 비슷하다. 동전이 앞뒤가 생긴게 다른게 어떻게 1/2일까.
때문에 우리는 표본을 뽑아서 관찰하고 확률을 계산하는 방법을 사용한다.
동전을 천번 만번 던졌을 때 얼마나 나오는지 확인하는 식이다. 이렇게 해서 엄청나게 많은 시행을 하면 확률에 근접한 값이 나온다.
하지만 이렇게 많은 관찰을 하기 위해서는 많은 시간과 비용이 든다. 때문에 우리는 Sampling을 한다.
# Sampling
모집단이라는 단어를 들어본적이 있을 것이다. 모집단이라고 하는 것은 우리가 관심 있는 대상의 전체 집합을 모집단이라고 한다.
전체를 모두 조사하는 것이 전수조사이다.
Sampling은 이 중에서 일부로 전체를 추측하는 것이다. 하지만 이 샘플링을 어떻게 하는냐에 따라서 전체 데이터를 잘 예측할 수도 있고 아닐 수도 있다. 여론 조사를 할 때 일부 편향된 집단에 여론조사를 한다고 했을 때, 이는 당연히 한쪽을 지지하는 결과가 나와 전체를 예측하지 못한다.
때문에 sampling에도 여러가지 기법이 있다. 무작위로 추출하는 방법도 있고, 계통 추출이라고 해서 k번씩 건너뛰어 고르는 방법도 있다.
또, 층화추출법이라고 해서 계층을 나누어서 계층별로 추출하는 방법도 있다. 학점이 A, B, C인 집단으로 나누어서 그 중에서 몇명을 뽑는 방식이다.
집락추출법은 층화추출법과 비슷하지만 약간 다르다. 층화추출법은 계층별로 차이가 있었지만 집락추출법은 집단을 일단 구분하고 여기서 샘플링을 하는 것이다.
# 변수의 종류와 데이터 시각화
여기부터는 뽑은 데이터를 프로그래머로써 어떻게 활용할지 생각해 볼 것이다. 우리가 데이터를 뽑았을 때 구분을 해주어야 하는 데이터들이 있다. 왜냐하면 이 친구들은 성질이 조금 다르기 때문이다.
우선 연속적 변수, 불연속적 변수, 범주형 변수가 있다. 이 친구들은 데이터를 다루는 방법도 다르고 시각화하는 방법도 다르다.
먄약에 사람이라는 데이터가 있다고 생각해보자. 사람이라는 데이터에는 사람의 키, 성별등의 데이터가 있을 것이다.
그렇게 됐을 때 성별과 같은 데이터는 범주형데이터이다. 이러한 범주형 데이터를 시각화 하려면 Bar Chart를 이요할 수 있다.
이와 비슷한 그래프로는 히스토그램이 있다. 이는 범주형은 아니지만 연속/불연속 변수를 다루는 데에 쓰인다고 한다.
수의 구간을 나누어서 표현한다. 예를 들어 이런 그래프일 것이다.
이 그래프는 연속/불연속 변수를 구간별로 잘라서 표현했다.
'대학수업' 카테고리의 다른 글
[시스템 프로그래밍] Representations in memory, pointers, strings (0) | 2022.09.15 |
---|---|
[시스템 프로그래밍] Bits, Bytes, and Integers (0) | 2022.09.14 |
[웹 프로그래밍] HTML이란? (2) | 2022.09.08 |
[인공지능 개론] 인공지능이란 무엇일까? (0) | 2022.09.05 |
[시스템 프로그래밍] 리눅스 머신에서 C 파일 돌리기 (0) | 2022.09.05 |