본문 바로가기

전체 글47

05-2 교차 검증과 그리드 서치 실제로 딥러닝에서는 교차검증을 거의 쓰지 않는다. 비정형 데이터라서 시간과 비용이 많이 쓰이기 때문 현업에서는 거의 사용하지 않는다. CV가 붙어있는 것들은 검증점수가 필요한것들이다. 2022. 3. 24.
05-1 결정트리 정보 이득(information gain) : 분모와 자식간의 불순도 차이 분모와 자식간의 차이가 크다 : 자식이 순도가 높아지도록 할 수 있다. 불순도의 차이 : 정보이득 filled가 옅어질수록 불순도가 높아진다. 순도 100% : 리프노드 overfit가 된 모형이 가지고 있는 특징 : train값이 100을 향해 고공행진, test가 꺾이거나 그상태 유지(test성능이 더이상 올라가지 않음) 엔트로피 : 불확실성 정보이득을 최대화하자 : 좌측노드 우측노드의 비율과 관련해서 빼주는것 -코드해석 max_depth=과적합방지용 samples_split=최소 2개는 있어야 쪼개기 가능 feature가 많으면 복잡도가 올라간다. 2022. 3. 24.
확률경사하강법 1. 온라인 학습모델 2. 샘플 한개 -> 학습 3. 에포크 : 훈련세트 하나 N 4. 손실함수 미분 손실함수가 최소가 되는 값을 찾는것 분류 : 로지스틱 손실함수 다중분류 : 소프트맥스 5. 학습률 : 6. SGDClassifier squared error hyper parameter 최대 에포크의 크기 running rate 는 작게 0부터.. , epoch는 많이 수렴이 되면 멈추게 해야한다. hyperparameter 기본값 : optimal runningrate는 optimal하게 줄어든다. 최소점을 찾아서 partial_fit : 단계별로 진행 : 완벽한 클래스 2022. 3. 24.
전처리 [배열(array)] 연산속도가 가장 빠르다. 선형대수, 고속처리의 특징을 가지고 있음 보통 pandas.DataFrame으로 읽어들이고 필요에 의해서 to_numpy() 라는 함수를 이용하여 필요하면 numpy배열로 변환하여 사용하는게 현업에서 많이 쓰인다. -층화임의추출 각 그룹별로 퍼센트 매겨서 a b c 30 40 30 퍼센트 유지 -KNN k값은 홀수를 보통 많이쓴다. 표준화를 해야 안정적인 값이 나온다. 2022. 3. 18.
도미 데이터 머신러닝(KNN)-2 # -*- coding: utf-8 -*- # Commented out IPython magic to ensure Python compatibility. # %run my_init.py # Commented out IPython magic to ensure Python compatibility. # %matplotlib inline #정적그래프를 그릴때 사용하는 옵션 """#데이터 준비하기""" bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35... 2022. 3. 17.
도미 데이터 머신러닝(KNN)-1 # -*- coding: utf-8 -*- """ #데이터 준비하기 """ bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 500.0, 340.0, 600.0, 600.0, 70.. 2022. 3. 17.
개발 유용한 사이트 모음 -정규표현식 https://regexlib.com/Search.aspx?k=phone Regular Expression Library Displaying page of pages; Items to Title Test Details Pattern Title Expression ^[2-9]\d{2}-\d{3}-\d{4}$ Description This expression matches a hyphen separated US phone number, of the form ANN-NNN-NNNN, where A is between 2 and 9 and N is between 0 and regexlib.com -책 추천 손에 잡히는 10분 정규표현식 벤 포터 저 -도미, 빙어 데이터 https://gist.git.. 2022. 3. 17.
파이썬 기초2 제너레이터는 yield 생성?? -> 무슨말이지.. 코드는 가독성이 중요하다.. 튜플: 읽기용 리터럴 : [] : 리스트 () : 튜플 {} : 딕셔너리 set : ? 1. fit으로 학습 2. predict 로 예측 3. score로 점수매기기 성능평가지표 accuracy : 정확도 -분류(classification) KNN : K Nearest Neighbor Naive Bayse : 베이즈 확률 이론 Support Vector Machine(SVM) Decision Tree Random Forest XGBoost LIGHTGBM 로지스틱회귀(회귀를 활용해서 분류 문제를 푼다.) 분류, 회귀:지도학습 클러스터링 : 비지도학습 -전처리 Transformer fit() transform() L1 : 맨하.. 2022. 3. 17.
파이썬 기초 반응형웹 js css3 html 을 통틀어서 html3으로 얘기한다. Back end Front end Java Spring framework Javascript Node.js 모집단 -> 표본추출 -> 통계량 -> 모수추정 리액트: 자바스크립트 처럼 es5,es6같은 표준 명세 사용하는 프론트엔드 라이브러리? 양측검정 : h1: 50g이 아니다 단측 검정 : h1 : 50g보다 작다. 텐서플로우 : 구글이 만듬 Linux vm + jupyter notebook 휘발성 편차제곱합=분산 뮤: 모평균, m:표본평균 숫자가 아닌 데이터 : 범주형 데이터 회귀는 무조건 숫자가 들어가야함 분류는 입력이 아무거나 들어가도 됨 아웃풋이 문자 또는 숫자의 범주 연속형이 숫자, 수치 아무거나 : 분류 knn이라고 하는 .. 2022. 3. 16.