ÄÜÅÙÃ÷ »ó¼¼º¸±â
±âÃʺÎÅÍ ½ÃÀÛÇÏ´Â °­È­ÇнÀ/½Å°æ¸Á ¾Ë°í¸®Áò


±âÃʺÎÅÍ ½ÃÀÛÇÏ´Â °­È­ÇнÀ/½Å°æ¸Á ¾Ë°í¸®Áò

±âÃʺÎÅÍ ½ÃÀÛÇÏ´Â °­È­ÇнÀ/½Å°æ¸Á ¾Ë°í¸®Áò

<¼Õ¹Î±Ô> Àú | À§Å°ºÏ½º

Ãâ°£ÀÏ
2023-01-31
ÆÄÀÏÆ÷¸Ë
ePub
¿ë·®
8 M
Áö¿ø±â±â
PC½º¸¶Æ®ÆùÅÂºí¸´PC
ÇöȲ
½Åû °Ç¼ö : 0 °Ç
°£·« ½Åû ¸Þ¼¼Áö
ÄÜÅÙÃ÷ ¼Ò°³
ÀúÀÚ ¼Ò°³
¸ñÂ÷
ÇÑÁÙ¼­Æò

ÄÜÅÙÃ÷ ¼Ò°³

°­È­ÇнÀÀ» ¾î¶»°Ô ½ÃÀÛÇØ¾ß ÇÒÁö ¸ð¸£´Â ºÐµéÀ» À§Çؼ­ ÁغñÇß´Ù!

°­È­ÇнÀÀº Àΰ£ÀÌ ÇнÀÇÏ´Â °úÁ¤°ú ºñ½ÁÇÑ ÀΰøÁö´É ºÐ¾ß Áß ÇϳªÀÌ´Ù. ·Îº¿ÀÇ ÇൿÇнÀ, ÀÚÀ²ÁÖÇà ÀÚµ¿Â÷ÀÇ ÇൿÇнÀ¿¡ ´ëÇ¥ÀûÀ¸·Î »ç¿ëµÇ¸ç, ¾ËÆÄ°íÀÇ ÇÙ½É ¾Ë°í¸®ÁòÀ¸·Î À¯¸íÇØÁ³´Ù. ÀÌ Ã¥Àº °­È­ÇнÀ¿¡ °ü½ÉÀÌ ÀÖÁö¸¸ ¾îµð¼­ ¾î¶»°Ô ½ÃÀÛÇØ¾ß ÇÒÁö ¸ð¸£´Â ºÐµéÀ» À§ÇØ °¡Àå ±âÃÊÀûÀÎ »óÅ°¡Ä¡ÇÔ¼ö/Çൿ°¡Ä¡ÇÔ¼öÀÇ Á¤ÀǺÎÅÍ ½ÃÀÛÇؼ­ ½Å°æ¸ÁÀ» ÀÌ¿ëÇÑ DQN±îÁö °­È­ÇнÀÀÇ ±âº» ¾Ë°í¸®ÁòÀ» ÃæºÐÈ÷ ÀÌÇØÇÒ ¼ö ÀÖ°Ô ±¸¼ºÇß´Ù. ½Ç½À ¿¹Á¦·Î °íÀü°ÔÀÓ Æ½ÅÃÅä(Tic Tac Toe)¸¦ Ç÷¹ÀÌÇÏ´Â ¾ËÆÄ°í Á¦·Î(AlphaGo Zero)¿Í °°Àº ÀΰøÁö´É Ç÷¹À̾ ¸¸µé¾î º½À¸·Î½á ÀΰøÁö´ÉÀÌ ¾î¶»°Ô °ÔÀÓÀ» Ç÷¹ÀÌÇϴ°¡¸¦ ¾Ë¾Æº»´Ù.

ÀÌ Ã¥À¸·Î Â÷±ÙÂ÷±Ù ½Ç½ÀÀ» ÁøÇàÇÑ´Ù¸é °­È­ÇнÀÀÇ ±âº» ¾Ë°í¸®ÁòÀ» ÃæºÐÈ÷ ÀÌÇØÇÒ ¼ö ÀÖÀ» °ÍÀ̸ç, À̸¦ ¹ÙÅÁÀ¸·Î ¿©·¯ °¡Áö ÀΰøÁö´É ½Ã½ºÅÛÀ» ¸¸µé ¼ö ÀÖÀ¸¸®¶ó »ý°¢ÇÑ´Ù.

ÀúÀÚ¼Ò°³

¼Ò´Ï ¹ÝµµÃ¼¿¡¼­ µ¥ÀÌÅÍ ºÐ¼®À» È°¿ëÇÑ ¾Ë°í¸®Áò ¹× ½Ã½ºÅÛ °³¹ß ¾÷¹«¸¦ Çß´Ù. ÇöÀç »ï¼ºÀüÀÚ¿¡¼­ °ü·Ã µ¥ÀÌÅÍ ºÐ¼® ¾÷¹«¸¦ ÇÏ°í ÀÖÀ¸¸ç »ç¿øÀ» ´ë»óÀ¸·Î Åë°è ¾Ë°í¸®Áò °­ÀǸ¦ ÁøÇàÇß´Ù. ÀϺ» ±Ô½´´ëÇб³¿¡¼­ ÀΰøÁö´ÉÀÇ ÇÑ ºÐ¾ßÀÎ Reinforcement Learning ¾Ë°í¸®Áò °³¹ß·Î ¹Ú»çÇÐÀ§¸¦ ¹Þ¾ÒÀ¸¸ç °ü½É ºÐ¾ß´Â Reinforcement Learning, Neural Network, Genetic Algorithm µî Machine Learning AlgorithmÀ» È°¿ëÇÑ ½Ã½ºÅÛ °³¹ßÀÌ´Ù. Àú¼­·Î´Â ¡ºµ¥ÀÌÅÍ ºÐ¼®À» ¶°¹ÞÄ¡´Â ¼öÇÐ °³Á¤ÆÇ(2020)¡» ¡º±âÃʺÎÅÍ ½ÃÀÛÇÏ´Â °­È­ÇнÀ/½Å°æ¸Á ¾Ë°í¸®Áò(2019)¡»ÀÌ ÀÖÀ¸¸ç ¡ºÁ¤¼®À¸·Î ¹è¿ì´Â µö·¯´×(2017)¡»À» °¨¼öÇÏ¿´°í ¡º°¡Àå ½¬¿î µö·¯´× ÀÔ¹® ±³½Ç(2018), ½ÇÀü! µö·¯´×(2019)¡»À» ¹ø¿ªÇÏ¿´´Ù.

¸ñÂ÷

01Àå: ÀΰøÁö´ÉÀ̶õ?

¸Ó½Å·¯´×ÀÇ Á¾·ù
__ÁöµµÇнÀ
__ºñÁöµµÇнÀ
__°­È­ÇнÀ
°­È­ÇнÀ°ú ½Å°æ¸Á
ÀÌ Ã¥ÀÇ ±¸¼º

02Àå: °­È­ÇнÀ

°­È­ÇнÀÀÇ ±âº» ¿ä¼Ò
__ȯ°æ
__»óÅÂ (S)
__¿¡ÀÌÀüÆ®
__Çൿ (A)
__»óÅÂÀüÀÌÈ®·ü (P)
__º¸»ó (R)
__¼öÀÍ (G)
__Á¤Ã¥ (r)
__¿¡ÇǼҵå
__¸¶¸£ÄÚÇÁ ÀÇ»ç°áÁ¤°úÁ¤ (MDP)
ȯ°æ°ú ¿¡ÀÌÀüÆ® Áغñ
°¡Ä¡ÇÔ¼ö : »óÅÂ/ÇൿÀÇ °¡Ä¡ °è»ê
__»óÅ°¡Ä¡ÇÔ¼ö : Vr
__Çൿ°¡Ä¡ÇÔ¼ö : Qr
µ¿Àû°èȹ¹ý : ÃÖÀû Á¤Ã¥ ¼±ÅÃ
__Á¤Ã¥ Æò°¡
__¹Ýº¹ Á¤Ã¥ Æò°¡
__Á¤Ã¥ °³¼±
__Á¤Ã¥ ¹Ýº¹
__°¡Ä¡ ¹Ýº¹
¸óÅ×Ä«¸¦·Î ¹æ¹ý
__¸óÅ×Ä«¸¦·Î ¹æ¹ýÀÇ Prediction
__¸óÅ×Ä«¸¦·Î ¹æ¹ýÀÇ Control
½Ã°£Â÷ ÇнÀ
__½Ã°£Â÷ ÇнÀÀÇ Prediction
__½Ã°£Â÷ ÇнÀÀÇ Control : SARSA(On-policy)
__½Ã°£Â÷ ÇнÀÀÇ Control : Q-learning(Off-policy)
__Double Q-learning
__Á¤Ã¥ ±×·¹À̵ð¾ðÆ® : ¾×ÅÍ-Å©¸®Æ½
ÇÔ¼ö ±Ù»ç
ÇÔ¼ö ±Ù»ç : TD(0) Prediction
ÇÔ¼ö ±Ù»ç : Q-learning

03Àå: Àΰø½Å°æ¸Á

ÆÛ¼ÁÆ®·Ð
¼Õ½ÇÇÔ¼ö
__Æò±ÕÁ¦°ö¿ÀÂ÷
__±³Â÷¿£Æ®·ÎÇÇ¿ÀÂ÷
°æ»çÇÏ°­¹ý
ÆÛ¼ÁÆ®·ÐÀÇ ÇнÀ
__¼ýÀÚ ¿Ü¿ì±â
__¼±Çü ÇÔ¼ö ±Ù»ç
__ºñ¼±Çü ÇÔ¼ö ±Ù»ç
´ÙÃþ ÆÛ¼ÁÆ®·Ð
È°¼ºÈ­ ÇÔ¼ö
__½Ã±×¸ðÀ̵å ÇÔ¼ö
__ÇÏÀÌÆÛº¼¸¯ÅºÁ¨Æ® ÇÔ¼ö
__ReLU ÇÔ¼ö
__¼ÒÇÁÆ®¸Æ½º ÇÔ¼ö
¿ÀÂ÷¿ªÀüÆĹý
__¿ÀÂ÷¿ªÀüÆĹýÀ̶õ?
__Áß°£Ãþ°ú Ãâ·ÂÃþ »çÀÌÀÇ °¡ÁßÄ¡¿Í ÆíÇâ ÇнÀ
__ÀÔ·ÂÃþ°ú Áß°£Ãþ »çÀÌÀÇ °¡ÁßÄ¡¿Í ÆíÇâ ÇнÀ
__ºñ¼±Çü ÇÔ¼ö ±Ù»ç
ÇнÀ ÃÖÀûÈ­
__ÀÏÁ¤ ºñÀ² °¨¼Ò
__¸ð¸àÅÒ
__AdaGrad
__RMSProp
__Adam
__µå·Ó¾Æ¿ô
__¹èÄ¡ Á¤±ÔÈ­
__±× ¹ÛÀÇ ¹æ¹ý
¹èÄ¡ °æ»çÇÏ°­¹ý, È®·üÀû °æ»çÇÏ°­¹ý, ¹Ì´Ï¹èÄ¡ °æ»çÇÏ°­¹ý
__¹èÄ¡ °æ»çÇÏ°­¹ý
__È®·üÀû °æ»çÇÏ°­¹ý
__¹Ì´Ï ¹èÄ¡ °æ»çÇÏ°­¹ý
__¿¡Æø
Äɶ󽺸¦ ÀÌ¿ëÇÑ ½Å°æ¸Á ±¸Çö
ÇÕ¼º°ö½Å°æ¸Á
__ÇÕ¼º°ö½Å°æ¸ÁÀ̶õ?
__ÇÕ¼º°öÃþ
__ä³Î
__½ºÆ®¶óÀ̵å
__Æеù
__Ç®¸µÃþ
__Ç÷¡Æ°Ãþ
Äɶ󽺸¦ ÀÌ¿ëÇÑ ÇÕ¼º°ö½Å°æ¸Á ±¸Çö
__¼Õ±Û¾¾ µ¥ÀÌÅÍ
__¼Õ±Û¾¾ µ¥ÀÌÅÍ Àüó¸®
__ÇÕ¼º°ö½Å°æ¸Á ±¸Ãà
__ÇнÀ°ú °á°ú È®ÀÎ

04Àå: ÀΰøÁö´É ¸¸µé±â: ƽÅÃÅä °ÔÀÓ

ƽÅÃÅä Áغñ
Àΰ£ Ç÷¹À̾î
·£´ý Ç÷¹À̾î
°ÔÀÓ ÁøÇà ÇÔ¼ö
¸óÅ×Ä«¸¦·Î Ç÷¹À̾î
Q-learning Ç÷¹À̾î
DQN Ç÷¹À̾î

ºÎ·ÏA: Âü°í ÀÚ·á

A.1 ¹ÌºÐ
A.2 Æí¹ÌºÐ
A.3 ¿¬¼â¹ýÄ¢