반응형

@notepad_jj2

츄르사려고 코딩하는 코집사입니다.


부트스트랩(Bootstrap)이란?

현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이며, 데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않다. 즉, 원래 표본을 수천, 수백만 번 복제하는 것이라고 할 수 있다. 이를 통해 원래 표본으로부터 얻어지는 모든 정보를 포함하는 가상 모집단을 얻을 수 있다.

 

부트스트랩(Bootstrap)은 표본통계량의 변동성을 평가하는 강력한 도구이다.

 

 

부트스트랩 재표본추출 알고리즘

1. 샘플 값을 하나 뽑아서 기록하고 제자리에 놓는다.

2. n번 반복한다.

3. 재표본추출된 값의 평균을 기록한다.

4. 1~3단계를 R번 반복한다.

5. R개의 결과를 사용하여 표준편차, 히스토그램, 신뢰구간 등을 찾는다.


배깅(Bagging)이란?

배깅(Bagging)은 앙상블 기법의 종류 중 하나이며, 부트스트랩(Bootstrap) 데이터를 가지고 모델을 돌려 모델 파라미터의 안정성(변동성)을 추정하거나 예측력을 높일 수 있다. 이를 활용하여 분류 및 의사 결정 트리를 사용할 때, 여러 부트스트랩(Bootstrap) 샘플을 가지고 트리를 여러 개 만들어 각 트리에서 나온 예측값을 평균 내는 것이 단일 트리를 사용하는 것보다 효과적인데, 이 방법을 배깅(Bagging)이라고 한다.

 

배깅(Bagging) 기법을 활용한 모델이 우리가 흔히 사용하는 랜덤 포레스트 모델(Random Forest Model)이다.

 

 

반응형

+ Recent posts