13건의 항목

개념 노트

순열 검정

순열 검정(permutation test) 은 분포 가정 대신 데이터를 직접 재배열해 귀무가설 분포를 만들고, 관측 통계량이 그 분포에서 얼마나 극단적인지로 p-value를 세는 비모수 검정이다. 핵심 전제는 교환가능성(exchangea...

개념 노트

Parametric vs Non-parametric

모수적(parametric) 방법은 데이터가 고정된 수의 모수로 정의되는 분포족(정규분포 등)을 따른다고 가정한다. 가정이 맞으면 적은 데이터로 효율적이고 해석이 쉽지만, 틀리면 편향된다. 비모수적(non-parametric) 방법은 특...

개념 노트

부트스트랩

부트스트랩(bootstrap) 은 하나의 표본에서 복원추출로 유사 표본을 다수 만들어, 추정량의 표집분포(표준오차·신뢰구간)를 분포 가정 없이 근사하는 비모수 재표집법이다. 핵심 아이디어는 관측된 표본을 모집단의 대용(empirical...

개념 노트

Pearson 상관계수

Pearson 상관계수는 두 숫자 변수가 같이 커지고 같이 작아지는지를 -1부터 1 사이 숫자로 요약한다. 정확히는 두 변수의 선형 관계(linear relationship) 를 측정한다. 핵심은 “두 변수가 평균을 기준으로 같은 방향으...

개념 노트

Spearman 순위상관계수

Spearman 순위상관계수는 두 변수의 원값을 순위로 바꾼 뒤 계산하는 상관계수다. 선형 관계가 아니라 단조 관계를 측정하므로, 값의 간격보다 순서가 중요한 데이터나 비선형 단조 관계에 적합하다.

개념 노트

TF-IDF(Term Frequency-Inverse Document Frequency)

단어 빈도를 기반으로, 모든 문서에 흔히 나오는 단어에는 페널티를 주어 중요한 단어를 점수화한다. 값이 클수록 그 문서에서 중요한 단어다. 단어와 문서가 많아질수록 결과 행렬은 sparse matrix가 된다.

개념 노트

공분산 행렬

공분산 행렬은 여러 변수의 분산(variance)과 공분산을 한 행렬에 모은 구조다. 대각 원소는 각 변수의 분산이고, 비대각 원소는 변수 쌍 사이의 공분산이다.

개념 노트

공분산

공분산은 두 변수가 평균을 기준으로 같은 방향으로 움직이는지, 반대 방향으로 움직이는지를 측정한다. 양수이면 대체로 같이 커지고 같이 작아지는 경향, 음수이면 한쪽이 클 때 다른 쪽은 작아지는 경향이다. 다만 단위가 남아 있어서 크기 자...

개념 노트

분산(variance)

분산은 값들이 평균 주변에서 얼마나 퍼져 있는지를 측정한다. 각 값과 평균의 차이를 제곱해서 평균내므로 항상 0 이상이다. 값이 클수록 데이터가 평균에서 멀리 흩어져 있다.

개념 노트

표준편차

표준편차는 분산의 제곱근이다. 분산은 단위가 제곱되어 직관적으로 읽기 어렵기 때문에, 원래 데이터와 같은 단위로 퍼짐을 해석하려고 표준편차를 사용한다.

개념 노트

Cohens Kappa

Cohen’s Kappa (\kappa) 는 두 평가자 간의 범주형 판정 일치도를 우연에 의한 일치 확률을 보정하여 측정하는 지표다. 단순 일치율의 한계를 보완하여 데이터 라벨링의 신뢰성이나 사람 평가(Human Evaluation)의...

개념 노트

자기상관

자기상관은 현재 값과 과거 값 사이의 상관이다.

개념 노트

정상성

정상성은 시계열의 통계적 성질이 시간에 따라 변하지 않는다는 가정이다. 실제 수요·트래픽 데이터는 trend, seasonality, regime shift 때문에 비정상인 경우가 많다.