반응형

츄르사려고 코딩하는 코집사입니다.
부트스트랩(Bootstrap)이란?
현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이며, 데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않다. 즉, 원래 표본을 수천, 수백만 번 복제하는 것이라고 할 수 있다. 이를 통해 원래 표본으로부터 얻어지는 모든 정보를 포함하는 가상 모집단을 얻을 수 있다.
부트스트랩(Bootstrap)은 표본통계량의 변동성을 평가하는 강력한 도구이다.
부트스트랩 재표본추출 알고리즘
1. 샘플 값을 하나 뽑아서 기록하고 제자리에 놓는다.
2. n번 반복한다.
3. 재표본추출된 값의 평균을 기록한다.
4. 1~3단계를 R번 반복한다.
5. R개의 결과를 사용하여 표준편차, 히스토그램, 신뢰구간 등을 찾는다.
배깅(Bagging)이란?
배깅(Bagging)은 앙상블 기법의 종류 중 하나이며, 부트스트랩(Bootstrap) 데이터를 가지고 모델을 돌려 모델 파라미터의 안정성(변동성)을 추정하거나 예측력을 높일 수 있다. 이를 활용하여 분류 및 의사 결정 트리를 사용할 때, 여러 부트스트랩(Bootstrap) 샘플을 가지고 트리를 여러 개 만들어 각 트리에서 나온 예측값을 평균 내는 것이 단일 트리를 사용하는 것보다 효과적인데, 이 방법을 배깅(Bagging)이라고 한다.
배깅(Bagging) 기법을 활용한 모델이 우리가 흔히 사용하는 랜덤 포레스트 모델(Random Forest Model)이다.

반응형
'데이터 과학을 위한 통계' 카테고리의 다른 글
스튜던트의 t 분포(t-distribution) (0) | 2020.10.16 |
---|---|
복원추출(Sampling with replacement)과 비복원추출(Sampling without replacement) (1) | 2020.10.16 |