½Å°æ¸Á °øºÎ¸¦ ÇÏ´Ù º¸¸é, ¡®ÇнÀÀº ºñÁöµµ ÇнÀ, Áöµµ ÇнÀ, ±×¸®°í °ÈÇнÀÀ¸·Î ³ª´¶´Ù. ¾ËÆÄ°í¿Í ÀÚÀ² ÁÖÇàÂ÷¿¡¼ »ç¿ëÇÏ´Â °ÈÇнÀ, ¾ÆÀÌ°¡ ¼¼»ó°ú »óÈ£ÀÛ¿ëÇÏ¸é¼ ¼¼»óÀ» ¹è¿ì´Â °úÁ¤À» ¸ð¹æÇÑ °ÈÇнÀ.¡¯ µî°ú °°Àº ¹®ÀåÀ» Á¢ÇÏ°Ô µÈ´Ù. ±×·¯¸é¼ ´ÙÀ½°ú °°Àº »ý°¢ÀÌ µç´Ù.
¡®°ÈÇнÀÀ» °øºÎÇØ º¼±î?¡¯
±×·¯³ª ÀÌ ¿µ¿ªÀ¸·Î µé¾î°¡±â°¡ ½±Áö ¾Ê´Ù: (1) ±âÁ¸ ½Å°æ¸Á ÇнÀ ±¸Á¶¿Í ¿ÏÀüÈ÷ ´Ù¸£°í, (2) ¸Å¿ì ¸¹Àº °ÈÇнÀ ¹æ¹ýÀ» ¾î¶² ¼ø¼·Î °øºÎÇØ¾ß ÇÏ´ÂÁö ¾Ë±â ¾î·Æ°í, (3) °ÈÇнÀÀ» °³³äºÎÅÍ ÄÚµù±îÁö ºÐ¸íÇÏ°Ô ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï ¾È³»ÇØ ÁÖ´Â Àú¼¸¦ ã¾Æº¸±â ¾î·Æ±â ¶§¹®ÀÌ´Ù.
ÀÌ·± ¹®Á¦¸¦ ÇØ°áÇÒ ¼ö ÀÖ´Â ¾È³»¼¸¦ ¸¸µå´Â °ÍÀÌ º» Àú¼ÀÇ ¸ñÀûÀÌ´Ù: (1) ºñÁöµµ ÇнÀ°ú Áöµµ ÇнÀ¿¡ ¾ø´Â ȯ°æ°ú ¿¡ÀÌÀüÆ®¸¦ ¸ÕÀú ÀÌÇØÇØ¾ß ÇÑ´Ù. ÀÌ°ÍÀÌ °ÈÇнÀÀÇ Ã¹°ÉÀ½ÀÌ´Ù(1Àå). ¿©·¯ ¿¹Á¦¸¦ ÅëÇØ ±×¸²¸¸À¸·Î ȯ°æ°ú ¿¡ÀÌÀüÆ®¸¦ ÀÌÇØÇÏ°í À̸¦ ¼ö½ÄÀ¸·Î Ç¥ÇöÇÏ´Â ¿¬½ÀÀÌ µÇ¾î¾ß, ÇൿÀ» Àß ¼±ÅÃÇؼ ÇöÀç¿Í ¹Ì·¡¿¡ ¹ÞÀ» º¸»óÀÇ ÃÑÇÕÀ» ÃÖ´ë·Î ¸¸µå´Â °úÁ¤À» ÀÌÇØÇÒ ¼ö ÀÖ´Ù. (2) ¾Æ·¡ Ç¥¿Í °°ÀÌ È¯°æÀ» ¾Ë ¶§ÀÇ °ÈÇнÀÀº 1~4Àå¿¡¼ ´Ù·ç°í ¸ð¸¦ ¶§´Â 5~11Àå¿¡¼ ´Ù·é´Ù. ½Å°æ¸Á »ç¿ë ¿©ºÎ¸¦ ±âÁØÀ¸·Î Çϸé, 1~6Àå¿¡¼´Â »ç¿ëÇÏÁö ¾Ê°í 7~11Àå¿¡¼´Â »ç¿ëÇÑ´Ù.
Á¦1ÀåºÎÅÍ 4Àå±îÁö°¡ °ÈÇнÀ °øºÎÀÇ ±â¹ÝÀ̹ǷΠ¿©±â¼ Èçµé¸®¸é ¾ÕÀ¸·Î ³ª¾Æ°¡±â ¾î·Æ´Ù. ƯÈ÷, 2ÀåÀÇ º§¸¸ ¹æÁ¤½ÄÀ» ÀÌ¿ëÇÑ °è»ê ¹®Á¦¸¦ »ý·«ÇÏÁö ¸»°í ¿¬½ÀÇØ¾ß ÇÑ´Ù. ȯ°æÀ» ¸ð¸¦ ¶§ ÀϹÝÀûÀ¸·Î ½Å°æ¸ÁÀ» »ç¿ëÇÏÁö¸¸, 5~6Àå¿¡¼´Â ½Å°æ¸ÁÀ» »ç¿ëÇÏÁö ¾Ê´Â °ÈÇнÀÀ» ´Ù·é´Ù. Á¦7ÀåºÎÅÍ ½Å°æ¸ÁÀ» »ç¿ëÇÑ °ÈÇнÀÀ» °øºÎÇÏ°Ô µÈ´Ù. À̶§ 2Àå¿¡¼ °øºÎÇÑ º§¸¸ ¹æÁ¤½ÄÀ» µû¶ó ½Å°æ¸ÁÀÇ ¼Õ½ÇÀ» Á¤ÀÇÇÏ°Ô µÈ´Ù. (3) °³³ä ÀÌÇØ´Â ±×¸²¿¡¼ ½ÃÀÛÇØ¾ß ÇÏ°í, À̸¦ ÄÚµù±îÁö À̾¾ß ÇÑ´Ù´Â ¿øÄ¢À¸·Î º» Àú¼¸¦ ÁýÇÊÇß´Ù. ƯÈ÷ ±¸ÇöÇÏ·Á´Â Äڵ带 ±×¸²À¸·Î ±×¸°´Ù´Â »ý°¢À¸·Î ±×¸²À» ¸¸µé¾ú´Ù.
ÁÁÀº Ã¥À» ¸¸µé±â À§ÇØ ÃÖ¼±À» ´ÙÇßÁö¸¸ ¿À·ù°¡ ³ª¿Ã ¼ö ÀÖ´Ù. ÀÌ Á¡Àº ¾çÇظ¦ ¹Ù¶ó¸ç, Ãâ°£ ÈÄ ³ª¿Ã ¼ö ÀÖ´Â ¼öÁ¤»çÇ×À̳ª Âü°íÀÚ·á µîÀº ÀÚÀ¯¾ÆÄ«µ¥¹Ì ȨÆäÀÌÁö ÀÚ·á½Ç(www.freeaca.com)À» ÅëÇØ °Ô½ÃÇÒ °ÍÀÌ´Ï Âü°íÇϱ⸦ ¹Ù¶õ´Ù. º» Àú¼´Â °ÈÇнÀÀÇ ±âº» À̷п¡¼ ½ÃÀÛÇؼ ±íÀº Q-³×Æ®¿öÅ©(Deep Q? Network , DQN)ÀÇ ÀϺκбîÁö ±â¼úÇÏ°í ÀÖÀ¸¸ç, ¿©±â¼ ´Ù·çÁö ¸øÇÑ ³»¿ëÀº ¾ÕÀ¸·Î °ÈÇнÀ ½Ã¸®Á ÅëÇØ ´Ù·ê ¿¹Á¤ÀÌ´Ù.
¼¿ï´ë¿¡¼ ÀÌÇлç, ÀÌÇм®»ç, ÀÌÇйڻ縦 ÃëµæÇÑ ÈÄ, ¿ï»ê´ëÇб³ ¼öÇаú¿¡ ºÎÀÓÇÏ¿© ÇöÀç±îÁö ±³¼ö·Î ÀçÀÓÇÏ¸é¼ ÆÄÀ̽ã ÇÁ·Î±×·¡¹Ö, ¼ö¸® Åë°èÇÐ, ¼ö¸®ÀΰøÁö´É(ºòÅ×ÀÌÅÍ ºÐ¼®, ¼ø¹æÇâ½Å°æ¸Á, ¾ð¾î 󸮿¡ »ç¿ëÇÏ´Â ¼øȯ½Å°æ¸Á, À̹ÌÁö 󸮿¡ »ç¿ëÇÏ´Â ÇÕ¼º°ö ½Å°æ¸Á) °ÀǸ¦ ÇÏ°í ÀÖ´Ù.
Á¦1Àå ±×¸²À¸·Î ÀÌÇØÇÏ´Â °ÈÇнÀ
PART I °ÈÇнÀ ±¸¼º ¿ä¼Ò
PART II ȯ°æ(env) ¿¹Á¦
PART III ¿¡ÀÌÀüÆ®(agent) ¿¹Á¦
Á¦2Àå º§¸¸ ¹æÁ¤½Ä(Bellman equation)
PART I º¸»ó°ú Æò±Õ º¸»ó
PART II ÇÒÀÎÀ²(discount rate)
PART III Á¤Ã¥ ¥ð
PART IV Á¤Ã¥ ¥ð·Î ÇൿÇÒ ¶§, »óÅ s¿¡¼ Æò±Õ º¸»ó
PART V Á¤Ã¥ ¥ð·Î ÇൿÇÒ ¶§, »óÅ °¡Ä¡(state value)
PART VI Á¤Ã¥ ¥ð·Î ÇൿÀ» ¼±ÅÃÇÒ ¶§, »óÅÂ-Çൿ °¡Ä¡
PART VII º§¸¸ ±â´ë ¹æÁ¤½Ä(Bellman expectation equation)
PART VIII º§¸¸ ÃÖÀû ¹æÁ¤½Ä(Bellman optimality equation)
Á¦3Àå °ÈÇнÀ¿¡ »ç¿ëÇÏ´Â ±âº» ÄÚµå
PART I ȯ°æ ÄÚµå
PART II Á¤Ã¥ ÄÚµå
PART III ȯ°æ-Á¤Ã¥ »óÈ£ÀÛ¿ë ÄÚµå
Á¦4Àå µ¿Àû °èȹ¹ý(Dynamic programming)
PART I º§¸¸ ±â´ë ¹æÁ¤½ÄÀÇ Çظ¦ ÄÚµùÀ¸·Î ±¸Çϱâ
PART II ÃÖÀûÀÇ Á¤Ã¥À» ÄÚµùÀ¸·Î ±¸Çϱâ: Á¤Ã¥ ¹Ýº¹(policy iteration)
PART III ÃÖÀûÀÇ Á¤Ã¥À» ÄÚµùÀ¸·Î ±¸Çϱâ: °¡Ä¡ ¹Ýº¹(value iteration)
Á¦5Àå ¸óÅ×Ä«¸¦·Î(Monte Carlo, MC)
PART I ¿¡ÇǼҵå(episode)
PART II óÀ½ ¹æ¹®(first-visit) MC¿Í ¸ðµç ¹æ¹®(every-visit) MC
PART III Áß¿äµµ Ç¥º»ÃßÃâ MC(importance sampling MC)
ºÎ·Ï 125
Á¦6Àå SARSA¿Í Q-learning
PART I SARSA °³¿ä
PART II Q-learning °³¿ä
PART III SARSA ¾÷µ¥ÀÌÆ® ±×¸²ºÎÅÍ ÄÚµù±îÁöÀÇ °úÁ¤
PART IV Q-learning ¾÷µ¥ÀÌÆ® ±×¸²ºÎÅÍ ÄÚµù±îÁöÀÇ °úÁ¤
Á¦7Àå ±íÀº Q-³×Æ®¿öÅ©(Deep Q-Network, DQN)
PART I ȯ°æ CartPole-v0 ¼Ò°³
PART II ÇнÀµ¥ÀÌÅÍ, ½Å°æ¸Á ±¸Á¶¿Í ¼Õ½ÇÇÔ¼ö ¼Ò°³
PART III ±×¸²À¸·Î ÀÌÇØÇÏ´Â DQN(Deep Q-Network, DQN)
PART IV DQN ÀÇ»ç ÄÚµå
PART V DQN ÄÚµå ¼³¸í
PART VI DQN Àüü ÄÚµå
Á¦8Àå Double DQN
Á¦9Àå Dueling DQN
PART I Advantage A(s,a)ÀÇ Æò±ÕÀ» »©´Â ÀÌÀ¯
Á¦10Àå Max-PER(Prioritized Experience Replay)
PART I Á¤Ã¥ ½Å°æ¸ÁÀÇ Ã¹ ¹ø° ¾÷µ¥ÀÌÆ®(Max-PER-DQN)
PART II Á¤Ã¥ ½Å°æ¸ÁÀÇ µÎ ¹ø° ¾÷µ¥ÀÌÆ®(Max-PER-DQN)
PART III Á¤Ã¥ ½Å°æ¸ÁÀÇ ¼¼ ¹ø° ¾÷µ¥ÀÌÆ®(Max-PER-DQN)
PART IV Max-PER-DQN Àüü ÄÚµå
PART V Max-PER-DoubleDQN Àüü ÄÚµå
PART VI Max-PER-DuelingDQN Àüü ÄÚµå
Á¦11Àå SumTree-PER(Prioritized Experience Replay)
PART I Á¤Ã¥ ½Å°æ¸ÁÀÇ Ã¹ ¹ø° ¾÷µ¥ÀÌÆ®(SumTree-PER-DQN)
PART II Á¤Ã¥ ½Å°æ¸ÁÀÇ µÎ ¹ø° ¾÷µ¥ÀÌÆ®(SumTree-PER-DQN)
PART III Á¤Ã¥ ½Å°æ¸ÁÀÇ ¼¼ ¹ø° ¾÷µ¥ÀÌÆ®(SumTree-PER-DQN)
PART IV SumTree-PER-DQN Àüü ÄÚµå
PART V SumTree-PER-DoubleDQN Àüü ÄÚµå
PART VI SumTree-PER-DuelingDQN Àüü ÄÚµå