딥러닝,머신러닝에서 가장 중요한것?
데이터/ 파라미터/ 네트워크/ ..
답 : 데이터!!
딥러닝, 머신러닝 전에 데이터 사이언스가 먼저!
- 데이터의 특성을 먼저 파악한 후 RNN, CNN, 알고리즘을 적용해야함.
- GPU를 먼저 사고, 아무거나 막돌리면 GPU 망가짐 ㅠ수명,,,ㅠㅠ
GIGO: 쓰레기를넣으면,쓰레기가 나옴.내가 넣는게 쓰레기인지, 쓸모있는지?
데이터 정제를 잘 해서
이런 네트워크 , RNN, CNN 이런 딥러닝 알고리즘을 쓰면 되겠다.를 먼저 알아야함.
step#1)Digit MNIST : 어떤 모델에서도 잘돌아감. 뭘 해도 90% 이상나옴. 머신러닝에서 원래 90% 이상은 어려움. 80%이상은 아싸.70%이상은 그래도감사.. 60%이상은 만들긴만들었네.
step#2)Titanic : kaggle의 입문.
왜 나의 모델은 안되는것인가에대한 고민이 시작됨.
kaggle은 구글이 먹어서 영어권 언어만 지원됨. kaggle-kr에서 해석을 담당함ㅎㅎ
'Kernels' : 캐글에서 꽤 좋은 성능의 컴퓨터를 하나 주는거임.
kaggle 서버에 접속해서 하는 구조.
인터넷만되면 굳이 데이터 다운받지않아도 돌려볼수있음.
update되서 gpu도 쓰게 해줌. 선착순으로 누가 돌리면 기다려야함ㅋ..
<About Kaggle>
* 총 1300명 중 test data로 900명을 학습시켜서 나머지 400명을 예측하는 게 문제.
400명에 대한 데이터는 캐글만 아는것.
* Public Leaderboard VS. Private Leaderboard 의 차이?
- Public 에서는 일단 400명 중에 20명만 보자 이런거랭...(?)
* Competition 하려면 join해야함.
Kernel > New Kernel > Notebook
* Pandas : CSV읽어오는 데이터프레임. '..'의 하위디렉토리에 input파일이있음. 이걸 복붙하면됨.
<Python의 시각화 라이브러리>
1) matplot
2) 씨모
3) ???
*******데이터분석은 결국 그림을가지고 설명하는것임. visualization을 잘해야하고, 그래야 데이터가 보이기 시작함.
Python은 다큐멘테이션 보고 걍 따라치면 되요. 그냥 다 되요.
정보를 무엇을 넣을것인가를 결정하기 위해 데이터를 시각화하면서 인사이트를 얻는것.
이 그림을 보면서 통계적으로 어떻게 해석할것인가. 를 통계학을 배우게됨..
Data Featuring : 좋은 데이터를 만들기 위한 과정.
ex) 선수 키/몸무게, 선수키*몸무게 등...
Feature Engineering : 빈칸(Null데이터)을 어떻게 처리하느냐가 중요.!! 등산화의 모래알같은존재..
뺄것인가, 넣을것인가..
같은 CNN이라도 정확도가 달라짐.
- Python 정규식 이용해서 'MS', 'Mr',,를 뽑아냄. 라이브러리를 잘 쓰기위해 조금씩 고쳐쓰기 위해서는 Python문법을 알면좋음.