본문 바로가기

전체 글47

07-2 심층 신경망 인공 신경망 : 로지스틱 회귀보다 성능이 좋다. 뉴런 하나하나 마다 bias가 존재한다. 그래서 마지막에 뉴런개수를 더해줘야한다. 은닉층 뉴런도 더해줘야 한다. 시그모이드 : s자로 비선형 항상 출력은 activation 함수를 통과한다. 모든 층들은 dense라고 한다. 기본 태생 자체가 과적합 *중요* softmax : 다중분류일때 sigmoid : 이중분류일때 출력층 : softmax 같이 다중분류가 와야한다. dense1 : 은닉층이 된다.(hidden) 처음 만들때 은닉층을 생각하고 만들어야 한다. **layer를 많이 사용하는 것이 뉴런을 많이 사용하는 것보다 많은 이익이 나온다. Flatten을 쓰면 model summary에서 input layer을 볼수있다. hidden layer(은닉층.. 2022. 3. 31.
07-1 인공 신경망 KEYWORD -인공신경망 : 머신러닝 알고리즘, 딥러닝 이라고도 함 -텐서플로 : 구글이 만든 딥러닝 알고리즘 CPU와 GPU를 사용하여 인공 신경망 모델을 효율적으로 훈련함 텐서플로 2.0 부터는 신경망 모델을 아주 빠르게 구성할 수 있는 케라스를 핵심 API로 채택함 -밀집층: 가장 간단한 인공 신경망의 층 특별히 출력층에 밀집층을 사용할 때는 분류하려는 클래스와 동일한 개수의 뉴런을 사용함 from tensorflow import keras -원-핫 인코딩: 정숫값을 배열에서 해당 정수 위치의 원소만 1이고 나머지는 모두 0으로 변환한다. 이런 변환이 필요한 이유는 다중 분류에서 출력층에서 만든 확률과 크로스 엔트로피 손실을 계산하기 위해서이다. 'sparse_categorical_entropy'.. 2022. 3. 29.
06-3 주성분 분석 차원 =feature fruits_2d : 300행 10000열 배열의 구조와 데이터의 차원은 다른것. 배열에서 차원은 axis 첫번째로 분산이 가장 큰 벡터성분을 선택한다. 그 다음 두번째로 큰것 선택.. 이런식으로.. 10000개의 feature을 50개로 바꿀 예정 손실이 발생해서 이미지에 약간 손실이 있을 수 있다. translation 수직/수평이동 rotation 뒤집기 scale : 줌인, 줌아웃 압축 : 데이터의 개수가 바뀌는게 아니라 feature에 개수가 변하는것 2022. 3. 29.
06-2 k-평균 k-평균 = 클러스터 중심 = 센트로이드 원리 1. 무작위로 k개의 클러스터 중심을 정한다. 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다. 3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다. 4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복한다. 이너셔 : 클러스터 중심과 클러스터에 속한 샘플 사이의 거리의 제곱합 클러스터에 속한 샘플이 얼마나 가깝게 모여있는지를 나타내는 값 2022. 3. 29.
06-1 군집 알고리즘 객체직렬화(serialization) : save 역직렬화(deserialization) : load (샘플의수, width, height) 이미지의 가로 세로 크기 print(fruits[0,0,:]) 순서 : 첫번째 샘플, 첫번째 행의 정보, #대표적으로 predict 같은 것은 차원을 유지해서 전달해야 하기 때문에 슬라이싱, 인덱싱 등이 중요하다. 샘플 하나 넣었을 때는 반드시 슬라이싱을 써라.(인덱싱 금지, 차원이 줄어든다.) 사인파 : 진동의 높낮이, 길이 bar graph histogram X축 범주형(정수, 문자열) 연속형 데이터(실수데이터)+구간 Y축 연속형 데이터(실수, 정수) 빈도(밀도) DPI :도트퍼인치 특성별평균을 구하기 때문에 바그래프로 작성 2022. 3. 28.
my_init my_init.py 머신러닝, 딥러닝 각종 초기 코드들을 정리해보았습니다! 최종 업데이트 : 2022-04-07 2022. 3. 25.
취업일기 1화 2022. 3. 25.
머신러닝 유용한 팁들 결론 : 개발은 기승전결이 아니라 결론먼저, 이 모델을 사용함으로써 어떤것이 개선되는지 비교분석을 해서 처음부터 제시해야한다. 2022. 3. 25.
05-3 트리의 앙상블 -KEY WORDS 랜덤 포레스트 부트스트랩 배깅 하드보팅 : 빈도에 의한 소프트보팅 : 비율(확률)에 의한 -정형데이터와 비정형데이터 정형데이터는 CSV파일 같이 어떤 구조로 되어있는 데이터이다. 지금까지 배운 머신러닝 알고리즘은 정형 데이터에 잘 맞는다. 그 중에 정형 데이터를 다루는 데가 가장 뛰어난 성과를 내는 알고리즘이 앙상블 학습이다. 앙상블 학습은 대부분 결정트리를 기반으로 만들어져 있다. 비정형 데이터에는 신경망 알고리즘을 사용한다. 비정형 데이터는 규칙성을 찾기 어려워 전통적인 머신러닝 방법으로는 모델을 만들기 까다롭다. 앙상블 학습 알고리즘 사이킷런에서 제공하는 정형 데이터의 끝판왕! 랜덤 포레스트 앙상블 학습의 대표 주자 안정적인 성능 덕분에 널리 사용되고 있다. 원리 결정 트리를 랜.. 2022. 3. 25.