본문 바로가기
세미나/대전 AI

알파고

by 헤옹스 2018. 8. 10.

김정대

알파고를 사랑함.

starcraft 대회입상ㅋㅋ 인간의 한계를 느낌. 최적의 전략의 필요성 느낌. 알파고가 그걸 해냄.


RL Korea 알파오목팀의 


알파고의 진화과정과 핵심 아이디어

알파오목 프로젝트 소개(현재학습중임...)




DeepMind창업.

- 스스로학습하는 강화학습 알고리즘 개발.

구글이 5000억넘는돈에 인수.

- 알파고 공개.(David Silver : 알파고의 아버지.)

Alphago Lee 

-> Alphago Master 

-> Alphago Zero : 인간 기보없이 스스로 학습.

-> Alpha Zero : 보드게임 범용 알고리즘(체스,쇼기,바둑 모두를 하나의 알고리즘으로 해결하겠다.)

: 최고의 선수들 모두 이겨제낌.


바둑의 경우의 수 : 약 2*10^170(우주의 원자수보다 많음...)

체스는 20년전에 이겼는데, 바둑은... HW성능만가지곤 못푸는 문제임.

=> Monte Algorithm

Selection -> 확장 -> Simulatio -> backup->반복.....


Exploitation VS. Exploration : 점심시간에 메뉴고르는 데 비유(최적의 맛을 찾기위해서는 항상먹던 메뉴보다 모험을 하는것.)

수식 하나로 끝내버림..

DQN은 엡실론 사용.??



MCTS의 등장 


두개의 네트워크를 활용

(Policy network : 하나의 확률벡터값을 뱉어냄. )

(Value network : 하나의 스칼라값을 뱉어냄. 승부의 값을 하나로 예측하는.)

Rollout과 네트워크 반반씩 함.



<Alphago Fan ~ Master MSTS를 발전시킨 과정.>

Supervised Learning policy network 로 학습시킴.

self Play하면서 

기존보다 다양한 데이터를 만들어서 개선시킴.

Value Network 학습시킴.

=> 이세돌이랑 붙음. 승 크하하ㅠㅠ.........




Value Network를 학습시키는건 양날의 검임.





<인간의 감정을 아예 배제시키면?>

AlphaGo Zero : ㅎ

=> 인간의 주관을 아예 배제시켰을 때 더 높은 승률을 냈음을 알 수 있음.




<핵심 아이디어>

- 셀프플레이 강화학습.

- neural net 의 아웃풋을 그대로 사용하지 않고 MCTS로 보정.

- 평가를 통해 더 높은 평가를 받은 Neural net이 데이터를 생성.(진화 알고리즘(ES)과 유사.)


=> 바둑뿐만아니라, 다른산업에서도 이러한 아이디어를 적용하여 더 좋은 데이터를 만들수있지않을까. 생각한대. 실제로 이분 플젝에 적용해보니 더 낫대.

데이터가 부족할 때,

'세미나 > 대전 AI' 카테고리의 다른 글

캐글  (0) 2018.08.10