ÄÜÅÙÃ÷ »ó¼¼º¸±â
°­È­ÇнÀ ±âº»°ú PyTorch


°­È­ÇнÀ ±âº»°ú PyTorch

<Ãß»ó¸ñ> Àú | ÀÚÀ¯¾ÆÄ«µ¥¹Ì

Ãâ°£ÀÏ
2024-02-10
ÆÄÀÏÆ÷¸Ë
ePub
¿ë·®
9 M
Áö¿ø±â±â
PC½º¸¶Æ®ÆùÅÂºí¸´PC
ÇöȲ
½Åû °Ç¼ö : 0 °Ç
°£·« ½Åû ¸Þ¼¼Áö
ÄÜÅÙÃ÷ ¼Ò°³
ÀúÀÚ ¼Ò°³
¸ñÂ÷
ÇÑÁÙ¼­Æò

ÄÜÅÙÃ÷ ¼Ò°³

½Å°æ¸Á °øºÎ¸¦ ÇÏ´Ù º¸¸é, ¡®ÇнÀÀº ºñÁöµµ ÇнÀ, Áöµµ ÇнÀ, ±×¸®°í °­È­ÇнÀÀ¸·Î ³ª´¶´Ù. ¾ËÆÄ°í¿Í ÀÚÀ² ÁÖÇàÂ÷¿¡¼­ »ç¿ëÇÏ´Â °­È­ÇнÀ, ¾ÆÀÌ°¡ ¼¼»ó°ú »óÈ£ÀÛ¿ëÇϸ鼭 ¼¼»óÀ» ¹è¿ì´Â °úÁ¤À» ¸ð¹æÇÑ °­È­ÇнÀ.¡¯ µî°ú °°Àº ¹®ÀåÀ» Á¢ÇÏ°Ô µÈ´Ù. ±×·¯¸é¼­ ´ÙÀ½°ú °°Àº »ý°¢ÀÌ µç´Ù.

¡®°­È­ÇнÀÀ» °øºÎÇØ º¼±î?¡¯

±×·¯³ª ÀÌ ¿µ¿ªÀ¸·Î µé¾î°¡±â°¡ ½±Áö ¾Ê´Ù: (1) ±âÁ¸ ½Å°æ¸Á ÇнÀ ±¸Á¶¿Í ¿ÏÀüÈ÷ ´Ù¸£°í, (2) ¸Å¿ì ¸¹Àº °­È­ÇнÀ ¹æ¹ýÀ» ¾î¶² ¼ø¼­·Î °øºÎÇØ¾ß ÇÏ´ÂÁö ¾Ë±â ¾î·Æ°í, (3) °­È­ÇнÀÀ» °³³äºÎÅÍ ÄÚµù±îÁö ºÐ¸íÇÏ°Ô ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï ¾È³»ÇØ ÁÖ´Â Àú¼­¸¦ ã¾Æº¸±â ¾î·Æ±â ¶§¹®ÀÌ´Ù.

ÀÌ·± ¹®Á¦¸¦ ÇØ°áÇÒ ¼ö ÀÖ´Â ¾È³»¼­¸¦ ¸¸µå´Â °ÍÀÌ º» Àú¼­ÀÇ ¸ñÀûÀÌ´Ù: (1) ºñÁöµµ ÇнÀ°ú Áöµµ ÇнÀ¿¡ ¾ø´Â ȯ°æ°ú ¿¡ÀÌÀüÆ®¸¦ ¸ÕÀú ÀÌÇØÇØ¾ß ÇÑ´Ù. ÀÌ°ÍÀÌ °­È­ÇнÀÀÇ Ã¹°ÉÀ½ÀÌ´Ù(1Àå). ¿©·¯ ¿¹Á¦¸¦ ÅëÇØ ±×¸²¸¸À¸·Î ȯ°æ°ú ¿¡ÀÌÀüÆ®¸¦ ÀÌÇØÇÏ°í À̸¦ ¼ö½ÄÀ¸·Î Ç¥ÇöÇÏ´Â ¿¬½ÀÀÌ µÇ¾î¾ß, ÇൿÀ» Àß ¼±ÅÃÇؼ­ ÇöÀç¿Í ¹Ì·¡¿¡ ¹ÞÀ» º¸»óÀÇ ÃÑÇÕÀ» ÃÖ´ë·Î ¸¸µå´Â °úÁ¤À» ÀÌÇØÇÒ ¼ö ÀÖ´Ù. (2) ¾Æ·¡ Ç¥¿Í °°ÀÌ È¯°æÀ» ¾Ë ¶§ÀÇ °­È­ÇнÀÀº 1~4Àå¿¡¼­ ´Ù·ç°í ¸ð¸¦ ¶§´Â 5~11Àå¿¡¼­ ´Ù·é´Ù. ½Å°æ¸Á »ç¿ë ¿©ºÎ¸¦ ±âÁØÀ¸·Î Çϸé, 1~6Àå¿¡¼­´Â »ç¿ëÇÏÁö ¾Ê°í 7~11Àå¿¡¼­´Â »ç¿ëÇÑ´Ù.

Á¦1ÀåºÎÅÍ 4Àå±îÁö°¡ °­È­ÇнÀ °øºÎÀÇ ±â¹ÝÀ̹ǷΠ¿©±â¼­ Èçµé¸®¸é ¾ÕÀ¸·Î ³ª¾Æ°¡±â ¾î·Æ´Ù. ƯÈ÷, 2ÀåÀÇ º§¸¸ ¹æÁ¤½ÄÀ» ÀÌ¿ëÇÑ °è»ê ¹®Á¦¸¦ »ý·«ÇÏÁö ¸»°í ¿¬½ÀÇØ¾ß ÇÑ´Ù. ȯ°æÀ» ¸ð¸¦ ¶§ ÀϹÝÀûÀ¸·Î ½Å°æ¸ÁÀ» »ç¿ëÇÏÁö¸¸, 5~6Àå¿¡¼­´Â ½Å°æ¸ÁÀ» »ç¿ëÇÏÁö ¾Ê´Â °­È­ÇнÀÀ» ´Ù·é´Ù. Á¦7ÀåºÎÅÍ ½Å°æ¸ÁÀ» »ç¿ëÇÑ °­È­ÇнÀÀ» °øºÎÇÏ°Ô µÈ´Ù. À̶§ 2Àå¿¡¼­ °øºÎÇÑ º§¸¸ ¹æÁ¤½ÄÀ» µû¶ó ½Å°æ¸ÁÀÇ ¼Õ½ÇÀ» Á¤ÀÇÇÏ°Ô µÈ´Ù. (3) °³³ä ÀÌÇØ´Â ±×¸²¿¡¼­ ½ÃÀÛÇØ¾ß ÇÏ°í, À̸¦ ÄÚµù±îÁö À̾¾ß ÇÑ´Ù´Â ¿øÄ¢À¸·Î º» Àú¼­¸¦ ÁýÇÊÇß´Ù. ƯÈ÷ ±¸ÇöÇÏ·Á´Â Äڵ带 ±×¸²À¸·Î ±×¸°´Ù´Â »ý°¢À¸·Î ±×¸²À» ¸¸µé¾ú´Ù.

ÁÁÀº Ã¥À» ¸¸µé±â À§ÇØ ÃÖ¼±À» ´ÙÇßÁö¸¸ ¿À·ù°¡ ³ª¿Ã ¼ö ÀÖ´Ù. ÀÌ Á¡Àº ¾çÇظ¦ ¹Ù¶ó¸ç, Ãâ°£ ÈÄ ³ª¿Ã ¼ö ÀÖ´Â ¼öÁ¤»çÇ×À̳ª Âü°íÀÚ·á µîÀº ÀÚÀ¯¾ÆÄ«µ¥¹Ì ȨÆäÀÌÁö ÀÚ·á½Ç(www.freeaca.com)À» ÅëÇØ °Ô½ÃÇÒ °ÍÀÌ´Ï Âü°íÇϱ⸦ ¹Ù¶õ´Ù. º» Àú¼­´Â °­È­ÇнÀÀÇ ±âº» À̷п¡¼­ ½ÃÀÛÇؼ­ ±íÀº Q-³×Æ®¿öÅ©(Deep Q? Network , DQN)ÀÇ ÀϺκбîÁö ±â¼úÇÏ°í ÀÖÀ¸¸ç, ¿©±â¼­ ´Ù·çÁö ¸øÇÑ ³»¿ëÀº ¾ÕÀ¸·Î °­È­ÇнÀ ½Ã¸®Á ÅëÇØ ´Ù·ê ¿¹Á¤ÀÌ´Ù.

ÀúÀÚ¼Ò°³

¼­¿ï´ë¿¡¼­ ÀÌÇлç, ÀÌÇм®»ç, ÀÌÇйڻ縦 ÃëµæÇÑ ÈÄ, ¿ï»ê´ëÇб³ ¼öÇаú¿¡ ºÎÀÓÇÏ¿© ÇöÀç±îÁö ±³¼ö·Î ÀçÀÓÇϸ鼭 ÆÄÀ̽ã ÇÁ·Î±×·¡¹Ö, ¼ö¸® Åë°èÇÐ, ¼ö¸®ÀΰøÁö´É(ºòÅ×ÀÌÅÍ ºÐ¼®, ¼ø¹æÇâ½Å°æ¸Á, ¾ð¾î 󸮿¡ »ç¿ëÇÏ´Â ¼øȯ½Å°æ¸Á, À̹ÌÁö 󸮿¡ »ç¿ëÇÏ´Â ÇÕ¼º°ö ½Å°æ¸Á) °­ÀǸ¦ ÇÏ°í ÀÖ´Ù.

¸ñÂ÷

Á¦1Àå ±×¸²À¸·Î ÀÌÇØÇÏ´Â °­È­ÇнÀ
PART I °­È­ÇнÀ ±¸¼º ¿ä¼Ò
PART II ȯ°æ(env) ¿¹Á¦
PART III ¿¡ÀÌÀüÆ®(agent) ¿¹Á¦

Á¦2Àå º§¸¸ ¹æÁ¤½Ä(Bellman equation)
PART I º¸»ó°ú Æò±Õ º¸»ó
PART II ÇÒÀÎÀ²(discount rate)
PART III Á¤Ã¥ ¥ð
PART IV Á¤Ã¥ ¥ð·Î ÇൿÇÒ ¶§, »óÅ s¿¡¼­ Æò±Õ º¸»ó
PART V Á¤Ã¥ ¥ð·Î ÇൿÇÒ ¶§, »óÅ °¡Ä¡(state value)
PART VI Á¤Ã¥ ¥ð·Î ÇൿÀ» ¼±ÅÃÇÒ ¶§, »óÅÂ-Çൿ °¡Ä¡
PART VII º§¸¸ ±â´ë ¹æÁ¤½Ä(Bellman expectation equation)
PART VIII º§¸¸ ÃÖÀû ¹æÁ¤½Ä(Bellman optimality equation)

Á¦3Àå °­È­ÇнÀ¿¡ »ç¿ëÇÏ´Â ±âº» ÄÚµå
PART I ȯ°æ ÄÚµå
PART II Á¤Ã¥ ÄÚµå
PART III ȯ°æ-Á¤Ã¥ »óÈ£ÀÛ¿ë ÄÚµå

Á¦4Àå µ¿Àû °èȹ¹ý(Dynamic programming)
PART I º§¸¸ ±â´ë ¹æÁ¤½ÄÀÇ Çظ¦ ÄÚµùÀ¸·Î ±¸Çϱâ
PART II ÃÖÀûÀÇ Á¤Ã¥À» ÄÚµùÀ¸·Î ±¸Çϱâ: Á¤Ã¥ ¹Ýº¹(policy iteration)
PART III ÃÖÀûÀÇ Á¤Ã¥À» ÄÚµùÀ¸·Î ±¸Çϱâ: °¡Ä¡ ¹Ýº¹(value iteration)

Á¦5Àå ¸óÅ×Ä«¸¦·Î(Monte Carlo, MC)
PART I ¿¡ÇǼҵå(episode)
PART II óÀ½ ¹æ¹®(first-visit) MC¿Í ¸ðµç ¹æ¹®(every-visit) MC
PART III Áß¿äµµ Ç¥º»ÃßÃâ MC(importance sampling MC)
ºÎ·Ï 125

Á¦6Àå SARSA¿Í Q-learning
PART I SARSA °³¿ä
PART II Q-learning °³¿ä
PART III SARSA ¾÷µ¥ÀÌÆ® ±×¸²ºÎÅÍ ÄÚµù±îÁöÀÇ °úÁ¤
PART IV Q-learning ¾÷µ¥ÀÌÆ® ±×¸²ºÎÅÍ ÄÚµù±îÁöÀÇ °úÁ¤

Á¦7Àå ±íÀº Q-³×Æ®¿öÅ©(Deep Q-Network, DQN)
PART I ȯ°æ CartPole-v0 ¼Ò°³
PART II ÇнÀµ¥ÀÌÅÍ, ½Å°æ¸Á ±¸Á¶¿Í ¼Õ½ÇÇÔ¼ö ¼Ò°³
PART III ±×¸²À¸·Î ÀÌÇØÇÏ´Â DQN(Deep Q-Network, DQN)
PART IV DQN ÀÇ»ç ÄÚµå
PART V DQN ÄÚµå ¼³¸í
PART VI DQN Àüü ÄÚµå

Á¦8Àå Double DQN

Á¦9Àå Dueling DQN
PART I Advantage A(s,a)ÀÇ Æò±ÕÀ» »©´Â ÀÌÀ¯

Á¦10Àå Max-PER(Prioritized Experience Replay)
PART I Á¤Ã¥ ½Å°æ¸ÁÀÇ Ã¹ ¹ø° ¾÷µ¥ÀÌÆ®(Max-PER-DQN)
PART II Á¤Ã¥ ½Å°æ¸ÁÀÇ µÎ ¹ø° ¾÷µ¥ÀÌÆ®(Max-PER-DQN)
PART III Á¤Ã¥ ½Å°æ¸ÁÀÇ ¼¼ ¹ø° ¾÷µ¥ÀÌÆ®(Max-PER-DQN)
PART IV Max-PER-DQN Àüü ÄÚµå
PART V Max-PER-DoubleDQN Àüü ÄÚµå
PART VI Max-PER-DuelingDQN Àüü ÄÚµå

Á¦11Àå SumTree-PER(Prioritized Experience Replay)
PART I Á¤Ã¥ ½Å°æ¸ÁÀÇ Ã¹ ¹ø° ¾÷µ¥ÀÌÆ®(SumTree-PER-DQN)
PART II Á¤Ã¥ ½Å°æ¸ÁÀÇ µÎ ¹ø° ¾÷µ¥ÀÌÆ®(SumTree-PER-DQN)
PART III Á¤Ã¥ ½Å°æ¸ÁÀÇ ¼¼ ¹ø° ¾÷µ¥ÀÌÆ®(SumTree-PER-DQN)
PART IV SumTree-PER-DQN Àüü ÄÚµå
PART V SumTree-PER-DoubleDQN Àüü ÄÚµå
PART VI SumTree-PER-DuelingDQN Àüü ÄÚµå