본문 바로가기
세미나/대전 AI

캐글

by 헤옹스 2018. 8. 10.

딥러닝,머신러닝에서 가장 중요한것?

데이터/ 파라미터/ 네트워크/ ..

 답 : 데이터!!



딥러닝, 머신러닝 전에 데이터 사이언스가 먼저!

- 데이터의 특성을 먼저 파악한 후 RNN, CNN, 알고리즘을 적용해야함.

- GPU를 먼저 사고, 아무거나 막돌리면 GPU 망가짐 ㅠ수명,,,ㅠㅠ

GIGO: 쓰레기를넣으면,쓰레기가 나옴.내가 넣는게 쓰레기인지, 쓸모있는지?

데이터 정제를 잘 해서

이런 네트워크 , RNN, CNN 이런 딥러닝 알고리즘을 쓰면 되겠다.를 먼저 알아야함.



step#1)Digit MNIST : 어떤 모델에서도 잘돌아감. 뭘 해도 90% 이상나옴. 머신러닝에서 원래 90% 이상은 어려움. 80%이상은 아싸.70%이상은 그래도감사.. 60%이상은 만들긴만들었네.

step#2)Titanic : kaggle의 입문. 

왜 나의 모델은 안되는것인가에대한 고민이 시작됨.


kaggle은 구글이 먹어서 영어권 언어만 지원됨. kaggle-kr에서 해석을 담당함ㅎㅎ




'Kernels' : 캐글에서 꽤 좋은 성능의 컴퓨터를 하나 주는거임.

kaggle 서버에 접속해서 하는 구조.

인터넷만되면 굳이 데이터 다운받지않아도 돌려볼수있음.

update되서 gpu도 쓰게 해줌. 선착순으로 누가 돌리면 기다려야함ㅋ..


<About Kaggle>

* 총 1300명 중 test data로 900명을 학습시켜서 나머지 400명을 예측하는 게 문제.

400명에 대한 데이터는 캐글만 아는것.


* Public Leaderboard VS. Private Leaderboard 의 차이?

- Public 에서는 일단 400명 중에 20명만 보자 이런거랭...(?)


* Competition 하려면 join해야함.


Kernel > New Kernel > Notebook



* Pandas : CSV읽어오는 데이터프레임. '..'의 하위디렉토리에 input파일이있음. 이걸 복붙하면됨.

<Python의 시각화 라이브러리>

1) matplot

2) 씨모

3) ???

*******데이터분석은 결국 그림을가지고 설명하는것임. visualization을 잘해야하고, 그래야 데이터가 보이기 시작함.


Python은 다큐멘테이션 보고 걍 따라치면 되요. 그냥 다 되요.


정보를 무엇을 넣을것인가를 결정하기 위해 데이터를 시각화하면서 인사이트를 얻는것.

이 그림을 보면서 통계적으로 어떻게 해석할것인가. 를 통계학을 배우게됨..


Data Featuring : 좋은 데이터를 만들기 위한 과정. 

ex) 선수 키/몸무게, 선수키*몸무게 등...



Feature Engineering : 빈칸(Null데이터)을 어떻게 처리하느냐가 중요.!! 등산화의 모래알같은존재..

뺄것인가, 넣을것인가..

같은 CNN이라도 정확도가 달라짐.

- Python 정규식 이용해서 'MS', 'Mr',,를 뽑아냄. 라이브러리를 잘 쓰기위해 조금씩 고쳐쓰기 위해서는 Python문법을 알면좋음.



'세미나 > 대전 AI' 카테고리의 다른 글

알파고  (0) 2018.08.10