정보 이득(information gain) : 분모와 자식간의 불순도 차이
분모와 자식간의 차이가 크다 : 자식이 순도가 높아지도록 할 수 있다.
불순도의 차이 : 정보이득
filled가 옅어질수록 불순도가 높아진다.
순도 100% : 리프노드
overfit가 된 모형이 가지고 있는 특징 : train값이 100을 향해 고공행진, test가 꺾이거나 그상태 유지(test성능이 더이상 올라가지 않음)
엔트로피 : 불확실성
정보이득을 최대화하자 : 좌측노드 우측노드의 비율과 관련해서 빼주는것
-코드해석
max_depth=과적합방지용
samples_split=최소 2개는 있어야 쪼개기 가능
feature가 많으면 복잡도가 올라간다.
'[혼자공부하는머신러닝+딥러닝]한권뽀개기' 카테고리의 다른 글
05-3 트리의 앙상블 (2) | 2022.03.25 |
---|---|
05-2 교차 검증과 그리드 서치 (0) | 2022.03.24 |
전처리 (3) | 2022.03.18 |
도미 데이터 머신러닝(KNN)-2 (0) | 2022.03.17 |
도미 데이터 머신러닝(KNN)-1 (0) | 2022.03.17 |
댓글