05-1 결정트리

정보 이득(information gain) : 분모와 자식간의 불순도 차이

분모와 자식간의 차이가 크다 : 자식이 순도가 높아지도록 할 수 있다.

불순도의 차이 : 정보이득

filled가 옅어질수록 불순도가 높아진다.

순도 100% : 리프노드

overfit가 된 모형이 가지고 있는 특징 : train값이 100을 향해 고공행진, test가 꺾이거나 그상태 유지(test성능이 더이상 올라가지 않음)

엔트로피 : 불확실성

정보이득을 최대화하자 : 좌측노드 우측노드의 비율과 관련해서 빼주는것

-코드해석

max_depth=과적합방지용

samples_split=최소 2개는 있어야 쪼개기 가능

feature가 많으면 복잡도가 올라간다.

발로뛰는개발자