김정대
알파고를 사랑함.
starcraft 대회입상ㅋㅋ 인간의 한계를 느낌. 최적의 전략의 필요성 느낌. 알파고가 그걸 해냄.
RL Korea 알파오목팀의
알파고의 진화과정과 핵심 아이디어
알파오목 프로젝트 소개(현재학습중임...)
DeepMind창업.
- 스스로학습하는 강화학습 알고리즘 개발.
구글이 5000억넘는돈에 인수.
- 알파고 공개.(David Silver : 알파고의 아버지.)
Alphago Lee
-> Alphago Master
-> Alphago Zero : 인간 기보없이 스스로 학습.
-> Alpha Zero : 보드게임 범용 알고리즘(체스,쇼기,바둑 모두를 하나의 알고리즘으로 해결하겠다.)
: 최고의 선수들 모두 이겨제낌.
바둑의 경우의 수 : 약 2*10^170(우주의 원자수보다 많음...)
체스는 20년전에 이겼는데, 바둑은... HW성능만가지곤 못푸는 문제임.
=> Monte Algorithm
Selection -> 확장 -> Simulatio -> backup->반복.....
Exploitation VS. Exploration : 점심시간에 메뉴고르는 데 비유(최적의 맛을 찾기위해서는 항상먹던 메뉴보다 모험을 하는것.)
수식 하나로 끝내버림..
DQN은 엡실론 사용.??
MCTS의 등장
두개의 네트워크를 활용
(Policy network : 하나의 확률벡터값을 뱉어냄. )
(Value network : 하나의 스칼라값을 뱉어냄. 승부의 값을 하나로 예측하는.)
Rollout과 네트워크 반반씩 함.
<Alphago Fan ~ Master MSTS를 발전시킨 과정.>
Supervised Learning policy network 로 학습시킴.
self Play하면서
기존보다 다양한 데이터를 만들어서 개선시킴.
Value Network 학습시킴.
=> 이세돌이랑 붙음. 승 크하하ㅠㅠ.........
Value Network를 학습시키는건 양날의 검임.
<인간의 감정을 아예 배제시키면?>
AlphaGo Zero : ㅎ
=> 인간의 주관을 아예 배제시켰을 때 더 높은 승률을 냈음을 알 수 있음.
<핵심 아이디어>
- 셀프플레이 강화학습.
- neural net 의 아웃풋을 그대로 사용하지 않고 MCTS로 보정.
- 평가를 통해 더 높은 평가를 받은 Neural net이 데이터를 생성.(진화 알고리즘(ES)과 유사.)
=> 바둑뿐만아니라, 다른산업에서도 이러한 아이디어를 적용하여 더 좋은 데이터를 만들수있지않을까. 생각한대. 실제로 이분 플젝에 적용해보니 더 낫대.
데이터가 부족할 때,