Digital garden

태그: Statistics

13건의 항목

Date

순열 검정

순열 검정(permutation test) 은 분포 가정 대신 데이터를 직접 재배열해 귀무가설 분포를 만들고, 관측 통계량이 그 분포에서 얼마나 극단적인지로 p-value를 세는 비모수 검정이다. 핵심 전제는 교환가능성(exchangea...

Statistics

2024.09.25↻ 2026.06.14

개념 노트

Parametric vs Non-parametric

모수적(parametric) 방법은 데이터가 고정된 수의 모수로 정의되는 분포족(정규분포 등)을 따른다고 가정한다. 가정이 맞으면 적은 데이터로 효율적이고 해석이 쉽지만, 틀리면 편향된다. 비모수적(non-parametric) 방법은 특...

Statistics
ML/DL

2026.06.14↻ 2026.06.14

개념 노트

부트스트랩

부트스트랩(bootstrap) 은 하나의 표본에서 복원추출로 유사 표본을 다수 만들어, 추정량의 표집분포(표준오차·신뢰구간)를 분포 가정 없이 근사하는 비모수 재표집법이다. 핵심 아이디어는 관측된 표본을 모집단의 대용(empirical...

Statistics

2026.05.07↻ 2026.06.14

개념 노트

Pearson 상관계수

Pearson 상관계수는 두 숫자 변수가 같이 커지고 같이 작아지는지를 -1부터 1 사이 숫자로 요약한다. 정확히는 두 변수의 선형 관계(linear relationship) 를 측정한다. 핵심은 “두 변수가 평균을 기준으로 같은 방향으...

Statistics
Metric

2026.05.07↻ 2026.06.14

개념 노트

Spearman 순위상관계수

Spearman 순위상관계수는 두 변수의 원값을 순위로 바꾼 뒤 계산하는 상관계수다. 선형 관계가 아니라 단조 관계를 측정하므로, 값의 간격보다 순서가 중요한 데이터나 비선형 단조 관계에 적합하다.

Statistics
Metric

2023.10.26↻ 2026.06.13

개념 노트

TF-IDF(Term Frequency-Inverse Document Frequency)

단어 빈도를 기반으로, 모든 문서에 흔히 나오는 단어에는 페널티를 주어 중요한 단어를 점수화한다. 값이 클수록 그 문서에서 중요한 단어다. 단어와 문서가 많아질수록 결과 행렬은 sparse matrix가 된다.

NLP
Programming
Statistics
Information-Retrieval

2026.05.07↻ 2026.06.13

개념 노트

공분산 행렬

공분산 행렬은 여러 변수의 분산(variance)과 공분산을 한 행렬에 모은 구조다. 대각 원소는 각 변수의 분산이고, 비대각 원소는 변수 쌍 사이의 공분산이다.

Statistics
Linear-Algebra

2026.05.07↻ 2026.06.13

개념 노트

공분산

공분산은 두 변수가 평균을 기준으로 같은 방향으로 움직이는지, 반대 방향으로 움직이는지를 측정한다. 양수이면 대체로 같이 커지고 같이 작아지는 경향, 음수이면 한쪽이 클 때 다른 쪽은 작아지는 경향이다. 다만 단위가 남아 있어서 크기 자...

Statistics
Metric

2026.05.07↻ 2026.06.13

개념 노트

분산(variance)

분산은 값들이 평균 주변에서 얼마나 퍼져 있는지를 측정한다. 각 값과 평균의 차이를 제곱해서 평균내므로 항상 0 이상이다. 값이 클수록 데이터가 평균에서 멀리 흩어져 있다.

Statistics
Metric

2026.05.07↻ 2026.06.13

개념 노트

표준편차

표준편차는 분산의 제곱근이다. 분산은 단위가 제곱되어 직관적으로 읽기 어렵기 때문에, 원래 데이터와 같은 단위로 퍼짐을 해석하려고 표준편차를 사용한다.

Statistics
Metric

2026.03.15↻ 2026.06.13

개념 노트

Cohens Kappa

Cohen’s Kappa (\kappa) 는 두 평가자 간의 범주형 판정 일치도를 우연에 의한 일치 확률을 보정하여 측정하는 지표다. 단순 일치율의 한계를 보완하여 데이터 라벨링의 신뢰성이나 사람 평가(Human Evaluation)의...

Research
Statistics
Metric

2026.06.01↻ 2026.06.13

개념 노트

자기상관

자기상관은 현재 값과 과거 값 사이의 상관이다.

Time-Series
Statistics

2026.06.01↻ 2026.06.12

개념 노트

정상성

정상성은 시계열의 통계적 성질이 시간에 따라 변하지 않는다는 가정이다. 실제 수요·트래픽 데이터는 trend, seasonality, regime shift 때문에 비정상인 경우가 많다.

Time-Series
Statistics

탐색기

태그: Statistics

순열 검정

Parametric vs Non-parametric

부트스트랩

Pearson 상관계수

Spearman 순위상관계수

TF-IDF(Term Frequency-Inverse Document Frequency)

공분산 행렬

공분산

분산(variance)

표준편차

Cohens Kappa

자기상관

정상성