°ÈÇнÀÀ» ¾î¶»°Ô ½ÃÀÛÇØ¾ß ÇÒÁö ¸ð¸£´Â ºÐµéÀ» À§Çؼ ÁغñÇß´Ù!°ÈÇнÀÀº Àΰ£ÀÌ ÇнÀÇÏ´Â °úÁ¤°ú ºñ½ÁÇÑ ÀΰøÁö´É ºÐ¾ß Áß ÇϳªÀÌ´Ù. ·Îº¿ÀÇ ÇൿÇнÀ, ÀÚÀ²ÁÖÇà ÀÚµ¿Â÷ÀÇ ÇൿÇнÀ¿¡ ´ëÇ¥ÀûÀ¸·Î »ç¿ëµÇ¸ç, ¾ËÆÄ°íÀÇ ÇÙ½É ¾Ë°í¸®ÁòÀ¸·Î À¯¸íÇØÁ³´Ù. ÀÌ Ã¥Àº °ÈÇнÀ¿¡ °ü½ÉÀÌ ÀÖÁö¸¸ ¾îµð¼ ¾î¶»°Ô ½ÃÀÛÇØ¾ß ÇÒÁö ¸ð¸£´Â ºÐµéÀ» À§ÇØ °¡Àå ±âÃÊÀûÀÎ »óÅ°¡Ä¡ÇÔ¼ö/Çൿ°¡Ä¡ÇÔ¼öÀÇ Á¤ÀǺÎÅÍ ½ÃÀÛÇؼ ½Å°æ¸ÁÀ» ÀÌ¿ëÇÑ DQN±îÁö °ÈÇнÀÀÇ ±âº» ¾Ë°í¸®ÁòÀ» ÃæºÐÈ÷ ÀÌÇØÇÒ ¼ö ÀÖ°Ô ±¸¼ºÇß´Ù. ½Ç½À ¿¹Á¦·Î °íÀü°ÔÀÓ Æ½ÅÃÅä(Tic Tac Toe)¸¦ Ç÷¹ÀÌÇÏ´Â ¾ËÆÄ°í Á¦·Î(AlphaGo Zero)¿Í °°Àº ÀΰøÁö´É Ç÷¹À̾ ¸¸µé¾î º½À¸·Î½á ÀΰøÁö´ÉÀÌ ¾î¶»°Ô °ÔÀÓÀ» Ç÷¹ÀÌÇϴ°¡¸¦ ¾Ë¾Æº»´Ù.ÀÌ Ã¥À¸·Î Â÷±ÙÂ÷±Ù ½Ç½ÀÀ» ÁøÇàÇÑ´Ù¸é °ÈÇнÀÀÇ ±âº» ¾Ë°í¸®ÁòÀ» ÃæºÐÈ÷ ÀÌÇØÇÒ ¼ö ÀÖÀ» °ÍÀ̸ç, À̸¦ ¹ÙÅÁÀ¸·Î ¿©·¯ °¡Áö ÀΰøÁö´É ½Ã½ºÅÛÀ» ¸¸µé ¼ö ÀÖÀ¸¸®¶ó »ý°¢ÇÑ´Ù.
¼Ò´Ï ¹ÝµµÃ¼¿¡¼ µ¥ÀÌÅÍ ºÐ¼®À» È°¿ëÇÑ ¾Ë°í¸®Áò ¹× ½Ã½ºÅÛ °³¹ß ¾÷¹«¸¦ Çß´Ù. ÇöÀç »ï¼ºÀüÀÚ¿¡¼ °ü·Ã µ¥ÀÌÅÍ ºÐ¼® ¾÷¹«¸¦ ÇÏ°í ÀÖÀ¸¸ç »ç¿øÀ» ´ë»óÀ¸·Î Åë°è ¾Ë°í¸®Áò °ÀǸ¦ ÁøÇàÇß´Ù. ÀϺ» ±Ô½´´ëÇб³¿¡¼ ÀΰøÁö´ÉÀÇ ÇÑ ºÐ¾ßÀÎ Reinforcement Learning ¾Ë°í¸®Áò °³¹ß·Î ¹Ú»çÇÐÀ§¸¦ ¹Þ¾ÒÀ¸¸ç °ü½É ºÐ¾ß´Â Reinforcement Learning, Neural Network, Genetic Algorithm µî Machine Learning AlgorithmÀ» È°¿ëÇÑ ½Ã½ºÅÛ °³¹ßÀÌ´Ù. Àú¼·Î´Â ¡ºµ¥ÀÌÅÍ ºÐ¼®À» ¶°¹ÞÄ¡´Â ¼öÇÐ °³Á¤ÆÇ(2020)¡» ¡º±âÃʺÎÅÍ ½ÃÀÛÇÏ´Â °ÈÇнÀ/½Å°æ¸Á ¾Ë°í¸®Áò(2019)¡»ÀÌ ÀÖÀ¸¸ç ¡ºÁ¤¼®À¸·Î ¹è¿ì´Â µö·¯´×(2017)¡»À» °¨¼öÇÏ¿´°í ¡º°¡Àå ½¬¿î µö·¯´× ÀÔ¹® ±³½Ç(2018), ½ÇÀü! µö·¯´×(2019)¡»À» ¹ø¿ªÇÏ¿´´Ù.
01Àå: ÀΰøÁö´ÉÀ̶õ?¸Ó½Å·¯´×ÀÇ Á¾·ù __ÁöµµÇнÀ __ºñÁöµµÇнÀ __°ÈÇнÀ °ÈÇнÀ°ú ½Å°æ¸Á ÀÌ Ã¥ÀÇ ±¸¼º 02Àå: °ÈÇнÀ°ÈÇнÀÀÇ ±âº» ¿ä¼Ò __ȯ°æ __»óÅ (S) __¿¡ÀÌÀüÆ® __Çൿ (A) __»óÅÂÀüÀÌÈ®·ü (P) __º¸»ó (R) __¼öÀÍ (G) __Á¤Ã¥ (r) __¿¡ÇǼҵå __¸¶¸£ÄÚÇÁ ÀÇ»ç°áÁ¤°úÁ¤ (MDP) ȯ°æ°ú ¿¡ÀÌÀüÆ® Áغñ °¡Ä¡ÇÔ¼ö : »óÅÂ/ÇൿÀÇ °¡Ä¡ °è»ê __»óÅ°¡Ä¡ÇÔ¼ö : Vr __Çൿ°¡Ä¡ÇÔ¼ö : Qr µ¿Àû°èȹ¹ý : ÃÖÀû Á¤Ã¥ ¼±Åà __Á¤Ã¥ Æò°¡ __¹Ýº¹ Á¤Ã¥ Æò°¡ __Á¤Ã¥ °³¼± __Á¤Ã¥ ¹Ýº¹ __°¡Ä¡ ¹Ýº¹ ¸óÅ×Ä«¸¦·Î ¹æ¹ý __¸óÅ×Ä«¸¦·Î ¹æ¹ýÀÇ Prediction __¸óÅ×Ä«¸¦·Î ¹æ¹ýÀÇ Control ½Ã°£Â÷ ÇнÀ __½Ã°£Â÷ ÇнÀÀÇ Prediction __½Ã°£Â÷ ÇнÀÀÇ Control : SARSA(On-policy) __½Ã°£Â÷ ÇнÀÀÇ Control : Q-learning(Off-policy) __Double Q-learning __Á¤Ã¥ ±×·¹À̵ð¾ðÆ® : ¾×ÅÍ-Å©¸®Æ½ ÇÔ¼ö ±Ù»ç ÇÔ¼ö ±Ù»ç : TD(0) Prediction ÇÔ¼ö ±Ù»ç : Q-learning 03Àå: Àΰø½Å°æ¸ÁÆÛ¼ÁÆ®·Ð ¼Õ½ÇÇÔ¼ö __Æò±ÕÁ¦°ö¿ÀÂ÷ __±³Â÷¿£Æ®·ÎÇÇ¿ÀÂ÷ °æ»çÇÏ°¹ý ÆÛ¼ÁÆ®·ÐÀÇ ÇнÀ __¼ýÀÚ ¿Ü¿ì±â __¼±Çü ÇÔ¼ö ±Ù»ç __ºñ¼±Çü ÇÔ¼ö ±Ù»ç ´ÙÃþ ÆÛ¼ÁÆ®·Ð È°¼ºÈ ÇÔ¼ö __½Ã±×¸ðÀ̵å ÇÔ¼ö __ÇÏÀÌÆÛº¼¸¯ÅºÁ¨Æ® ÇÔ¼ö __ReLU ÇÔ¼ö __¼ÒÇÁÆ®¸Æ½º ÇÔ¼ö ¿ÀÂ÷¿ªÀüÆĹý __¿ÀÂ÷¿ªÀüÆĹýÀ̶õ? __Áß°£Ãþ°ú Ãâ·ÂÃþ »çÀÌÀÇ °¡ÁßÄ¡¿Í ÆíÇâ ÇнÀ __ÀÔ·ÂÃþ°ú Áß°£Ãþ »çÀÌÀÇ °¡ÁßÄ¡¿Í ÆíÇâ ÇнÀ __ºñ¼±Çü ÇÔ¼ö ±Ù»ç ÇнÀ ÃÖÀûÈ __ÀÏÁ¤ ºñÀ² °¨¼Ò __¸ð¸àÅÒ __AdaGrad __RMSProp __Adam __µå·Ó¾Æ¿ô __¹èÄ¡ Á¤±ÔÈ __±× ¹ÛÀÇ ¹æ¹ý ¹èÄ¡ °æ»çÇÏ°¹ý, È®·üÀû °æ»çÇÏ°¹ý, ¹Ì´Ï¹èÄ¡ °æ»çÇÏ°¹ý __¹èÄ¡ °æ»çÇÏ°¹ý __È®·üÀû °æ»çÇÏ°¹ý __¹Ì´Ï ¹èÄ¡ °æ»çÇÏ°¹ý __¿¡Æø Äɶ󽺸¦ ÀÌ¿ëÇÑ ½Å°æ¸Á ±¸Çö ÇÕ¼º°ö½Å°æ¸Á __ÇÕ¼º°ö½Å°æ¸ÁÀ̶õ? __ÇÕ¼º°öÃþ __ä³Î __½ºÆ®¶óÀ̵å __Æеù __Ç®¸µÃþ __Ç÷¡Æ°Ãþ Äɶ󽺸¦ ÀÌ¿ëÇÑ ÇÕ¼º°ö½Å°æ¸Á ±¸Çö __¼Õ±Û¾¾ µ¥ÀÌÅÍ __¼Õ±Û¾¾ µ¥ÀÌÅÍ Àüó¸® __ÇÕ¼º°ö½Å°æ¸Á ±¸Ãà __ÇнÀ°ú °á°ú È®ÀÎ 04Àå: ÀΰøÁö´É ¸¸µé±â: ƽÅÃÅä °ÔÀÓ Æ½ÅÃÅä Áغñ Àΰ£ Ç÷¹ÀÌ¾î ·£´ý Ç÷¹ÀÌ¾î °ÔÀÓ ÁøÇà ÇÔ¼ö ¸óÅ×Ä«¸¦·Î Ç÷¹À̾î Q-learning Ç÷¹À̾î DQN Ç÷¹ÀÌ¾î ºÎ·ÏA: Âü°í ÀÚ·áA.1 ¹ÌºÐ A.2 Æí¹ÌºÐ A.3 ¿¬¼â¹ýÄ¢