본문 바로가기

코딩4

취업일기 2화 2022. 4. 4.
전처리 [배열(array)] 연산속도가 가장 빠르다. 선형대수, 고속처리의 특징을 가지고 있음 보통 pandas.DataFrame으로 읽어들이고 필요에 의해서 to_numpy() 라는 함수를 이용하여 필요하면 numpy배열로 변환하여 사용하는게 현업에서 많이 쓰인다. -층화임의추출 각 그룹별로 퍼센트 매겨서 a b c 30 40 30 퍼센트 유지 -KNN k값은 홀수를 보통 많이쓴다. 표준화를 해야 안정적인 값이 나온다. 2022. 3. 18.
도미 데이터 머신러닝(KNN)-2 # -*- coding: utf-8 -*- # Commented out IPython magic to ensure Python compatibility. # %run my_init.py # Commented out IPython magic to ensure Python compatibility. # %matplotlib inline #정적그래프를 그릴때 사용하는 옵션 """#데이터 준비하기""" bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35... 2022. 3. 17.
파이썬 기초2 제너레이터는 yield 생성?? -> 무슨말이지.. 코드는 가독성이 중요하다.. 튜플: 읽기용 리터럴 : [] : 리스트 () : 튜플 {} : 딕셔너리 set : ? 1. fit으로 학습 2. predict 로 예측 3. score로 점수매기기 성능평가지표 accuracy : 정확도 -분류(classification) KNN : K Nearest Neighbor Naive Bayse : 베이즈 확률 이론 Support Vector Machine(SVM) Decision Tree Random Forest XGBoost LIGHTGBM 로지스틱회귀(회귀를 활용해서 분류 문제를 푼다.) 분류, 회귀:지도학습 클러스터링 : 비지도학습 -전처리 Transformer fit() transform() L1 : 맨하.. 2022. 3. 17.