본문 바로가기
[혼자공부하는머신러닝+딥러닝]한권뽀개기

05-1 결정트리

by 발뛰 2022. 3. 24.

정보 이득(information gain) : 분모와 자식간의 불순도 차이

분모와 자식간의 차이가 크다 : 자식이 순도가 높아지도록 할 수 있다.

불순도의 차이 : 정보이득

filled가 옅어질수록 불순도가 높아진다.

순도 100% : 리프노드

overfit가 된 모형이 가지고 있는 특징 :  train값이 100을 향해 고공행진, test가 꺾이거나 그상태 유지(test성능이 더이상 올라가지 않음)

엔트로피 : 불확실성

정보이득을 최대화하자 : 좌측노드 우측노드의 비율과 관련해서 빼주는것


-코드해석

max_depth=과적합방지용

samples_split=최소 2개는 있어야 쪼개기 가능

 

feature가 많으면 복잡도가 올라간다.

댓글