¿äÁò ¶°¿À¸£´Â ºòµ¥ÀÌÅÍ °ü·Ã Á÷¹« 4°¡Áö¸¦ µç´Ù¸é, µ¥ÀÌÅÍ »çÀ̾ðƼ½ºÆ®(Data Scientist), µ¥ÀÌÅÍ ¿£Áö´Ï¾î(Data Engineer), µ¥ÀÌÅÍ ºÐ¼®°¡(Data Analyst), ¸Ó½Å·¯´× ¿£Áö´Ï¾î(Machine Learning Engineer)¸¦ µé ¼ö ÀÖ´Ù. ÀÌ 4°¡Áö Á÷¹«´Â Ä®·Î ¹« ÀÚ¸£µíÀÌ ¸íÈ®ÇÏ°Ô ±¸ºÐµÇÁö´Â ¾ÊÁö¸¸, Á÷¹«º°·Î ÇÊ¿äÇÑ ¿ª·®°ú ±â¼úÀº Àú¸¶´Ù Á¶±Ý¾¿ Â÷ÀÌ°¡ ÀÖ´Ù.
ÀÌ 4°¡Áö Á÷¹«¿¡ ´ëÇÑ ÀÌÇظ¦ µ½±â À§ÇØ ±âȹÀÚ¿Í °³¹ßÀÚÀÇ ¼ºÇâ¿¡ µû¶ó Á÷¹«¸¦ ºÐ·ùÇØ º¸¸é, µ¥ÀÌÅÍ ºÐ¼®°¡´Â ±âȹÀÚ¿¡ °¡±õ°í, µ¥ÀÌÅÍ ¿£Áö´Ï¾î´Â °³¹ßÀÚ¿¡ °¡±î¿ì¸ç, µ¥ÀÌÅÍ »çÀ̾ðƼ½ºÆ®¿Í ¸Ó½Å·¯´× ¿£Áö´Ï¾î´Â ÀÌ µÎ Á÷¹«ÀÇ Áß°£¿¡ À§Ä¡ÇÑ´Ù°í º¼ ¼ö ÀÖ´Ù. ºòµ¥ÀÌÅÍ °ü·Ã Á÷¹« ¹üÀ§°¡ ºòµ¥ÀÌÅÍ ºÐ¼® ±âȹºÎÅÍ ºòµ¥ÀÌÅÍ Ã³¸® Ç÷§Æû °³¹ß±îÁö ¿ö³« ±¤¹üÀ§ÇÑ µ¥´Ù°¡ °ü·Ã Á÷¾÷¿¡ ´ëÇÑ ¼ö¿ä°¡ Ä¿Áö¸é¼ ºòµ¥ÀÌÅÍ Ã³¸® ¹× ºÐ¼®¿¡ ´ëÇÑ °ü½Éµµ ²÷ÀÓ¾øÀÌ Áõ°¡ÇÏ°í ÀÖ´Ù.
±âÁ¸ÀÇ Çϵå¿þ¾î¿Í ¼ÒÇÁÆ®¿þ¾î¸¦ »ç¿ëÇÏ¿© ºòµ¥ÀÌÅ͸¦ ó¸®ÇÏ°í ºÐ¼®ÇÏ´Â µ¥´Â ÇÑ°è°¡ ÀÖ´Ù. °ú°Å¿¡´Â ÁÖ·Î °³Àοë ÄÄÇ»ÅÍÀÇ À©µµ¿ì ¿î¿µÃ¼Á¦ À§¿¡ ƯÁ¤ ÇÁ·Î±×·¥ÀÎ SPSS, SAS µîÀ» ¸¹ÀÌ »ç¿ëÇÏ¿´À¸³ª ÇöÀç´Â µ¥ÀÌÅÍ ¿ë·®°ú ó¸® ¼öÁØÀÌ ÇÑ ´ëÀÇ ÄÄÇ»Å͸¸À¸·Î´Â ºÒ°¡´ÉÇÒ Á¤µµ·Î Ä¿Á³±â ¶§¹®¿¡ ¿©·¯ ´ëÀÇ ÄÄÇ»Å͸¦ ³×Æ®¿öÅ©·Î ¿¬°áÇÏ¿© Ŭ·¯½ºÅ͸¦ ±¸ÃàÇÏ°í, ¸®´ª½º(Linux) ±â¹Ý ºÐ»ê ÄÄÇ»Æà ȯ°æ¿¡¼ ¿ÀǼҽºÀÌ¸é¼ ¹«·áÀÎ R ¶Ç´Â ÆÄÀ̽ãÀ» ÁÖ·Î »ç¿ëÇÏ°í ÀÖ´Ù.
¿À´Ã³¯ ºòµ¥ÀÌÅÍ Ç÷§ÆûÀº Spark(½ºÆÄÅ©)°¡ ´ë¼¼ÀÌ´Ù. Spark´Â ºòµ¥ÀÌÅ͸¦ ºÐ»ê ó¸®ÇÒ ¼ö ÀÖ´Â Ç÷§ÆûÀ¸·Î ±âÁ¸ÀÇ Hadoop(ÇϵÓ)À¸·Î ´ëÇ¥µÇ´Â ºÐ»ê ÄÄÇ»Æà Ç÷§Æû¿¡ ºñÇØ ±¸ÇöÀÌ ½±°í, ¹ü¿ë¼ºÀÌ ¶Ù¾î³ª¸ç, ¼Óµµ°¡ ºü¸£´Ù´Â ÀåÁ¡À» °®°í ÀÖ´Ù. ´ÙÀ½À¸·Î RÀº µ¥ÀÌÅÍ »çÀ̾𽺿¡¼ ´ëµÎµÇ°í ÀÖ´Â ÀÎÅÍÇÁ¸®ÅÍ ¾ð¾î·Î¼ Åë°èºÐ¼® ¹× µ¥ÀÌÅÍ ½Ã°¢È¿¡ Æ¯ÈµÈ Åë°è ÇÁ·Î±×·¡¹Ö ¾ð¾îÀÌ´Ù. RÀº Google, ÆäÀ̽ººÏ, ¾Æ¸¶Á¸ µî ¸¹Àº ±â¾÷¿¡¼ ºÐ¼® µµ±¸·Î »ç¿ëµÇ°í ÀÖ´Ù. SparkRÀº Spark¿Í R°úÀÇ ÅëÇÕȯ°æÀ¸·Î SparkÀÇ ºÐ»ê ÄÄÇ»Æà ȯ°æ¿¡¼ R ¾ð¾î¸¦ »ç¿ëÇÒ ¼ö ÀÖ´Ù.
ÇÊÀÚ°¡ ºòµ¥ÀÌÅÍ °ü·Ã ¼ö¾÷À» ÁøÇàÇÏ¸é¼ ÀÚÁÖ ´À²¼´ø °íÃæÀº ¾î¶² ±³À縦 °¡Áö°í °ÀÇÇÒ °ÍÀΰ¡¿´´Ù. Àý´ë´Ù¼öÀÇ ¼ö°»ýÀÌ »ç¿ëÇÏ´Â ÄÄÇ»ÅÍ ¿î¿µÃ¼Á¦´Â À©µµ¿ìÀÌ°í, ´ëÇÐ ½Ç½À½ÇÀÇ ÄÄÇ»ÅÍ È¯°æ ¿ª½Ã À©µµ¿ì ȯ°æÀÌ´Ù. ±×·¯³ª ´ë±Ô¸ð µ¥ÀÌÅ͸¦ È¿À²ÀûÀ¸·Î ó¸®Çϱâ À§Çؼ´Â ºÐ»ê ÄÄÇ»Æà ȯ°æÀÌ ÇÊ¿äÇÏ°í, ¸®´ª½º´Â ºÐ»ê ÄÄÇ»Æà ºÐ¾ß¿¡¼ ÁÖ¿äÇÑ ¿î¿µÃ¼Á¦·Î Àνĵǰí ÀÖ´Ù. µû¶ó¼ ÀÌ·¯ÇÑ È¯°æ¿¡ °É¸Â´Â ±³Àç °³¹ßÀÌ ÇÊ¿äÇÏ¿´´Ù.
ÀÌ Ã¥¿¡¼´Â °³Àοë ÄÄÇ»ÅÍÀÇ À©µµ¿ì ¿î¿µÃ¼Á¦ À§¿¡ ¸®´ª½º¸¦ ¼³Ä¡ÇÏ¿© Spark¿Í RÀ» ÅëÇÑ ºòµ¥ÀÌÅÍ Ã³¸® ¹× ºÐ¼®À» ÇнÀÇÏ°íÀÚ ÇÑ´Ù. ÇÊÀÚ´Â ´ëÇп¡¼ ¸®´ª½º¸¦ óÀ½ Á¢ÇÏ´Â ÇлýµéÀ» ´ë»óÀ¸·Î ÇÑ Çбâ¿ëÀ¸·Î ºòµ¥ÀÌÅÍ Ã³¸®?ºÐ¼®À» °ÀÇÇÏ°í ÀÖ´Ù. ÇÊÀÚÀÇ °ÀÇ °æÇè¿¡ ºñÃß¾î ºòµ¥ÀÌÅÍ Ã³¸®?ºÐ¼®¿¡ ´ëÇØ ¹è¿ì°íÀÚ ÇÏ´Â ¿¸Á¸¸ ÀÖÀ¸¸é, ÀÌ Ã¥Àº ´©±¸³ª ½±°Ô µû¶ó ÇÒ ¼ö ÀÖµµ·Ï ´Ü°èº°·Î ±¸¼ºµÇ¾î ÀÖ´Ù. Àü ¼¼°è ¿î¿µÃ¼Á¦ Áß¿¡¼ ¸®´ª½ºÀÇ Á¡À¯À²Àº 3% Á¤µµ¸¦ Â÷ÁöÇϴµ¥, ±ÞÁõÇÏ´Â ºòµ¥ÀÌÅÍ¿Í ´õºÒ¾î ½ÃÀå Á¡À¯À²Àº Á¡Â÷ Áõ°¡ Ãß¼¼¿¡ ÀÖ´Ù. À©µµ¿ì ȯ°æ¿¡ Àͼ÷ÇÑ ´ëºÎºÐÀÇ µ¶ÀÚ´Â ¸®´ª½º°¡ ³¸¼± ȯ°æÀ̶ó óÀ½¿¡´Â ¾î·Á¿òÀ» ´À³¥ ¼ö ÀÖÁö¸¸, ÀÌ Ã¥Àº ½Ç½À À§ÁÖ·Î ±¸¼ºµÇ¾î Àֱ⿡ ½±°Ô ÀÌÇØÇÒ ¼ö ÀÖÀ» °ÍÀÌ´Ù. ½Ç½ÀÀ» Àß µû¶ó¼ °øºÎÇÑ´Ù¸é ÀÌ Ã¥À» ÅëÇØ ¸®´ª½ºµµ ¹è¿ì°í, ºòµ¥ÀÌÅÍ Ã³¸®?ºÐ¼®µµ ¹è¿ì´Â Àϼ®ÀÌÁ¶ÀÇ È¿°ú¸¦ ±â´ëÇÒ ¼ö ÀÖ´Ù.
ÀÌ Ã¥Àº ÃÑ 11°³ÀÇ ÀåÀ¸·Î ±¸¼ºµÇ¾î ÀÖ´Ù. 1Àå¿¡¼´Â ºòµ¥ÀÌÅÍ Ã³¸® ¹× ºÐ¼® °³¿ä¿¡ ´ëÇØ ¼Ò°³ÇÏ°í, 2Àå°ú 3Àå¿¡¼´Â À©µµ¿ì ȯ°æÀÇ »ç¿ëÀÚµéÀ» À§ÇØ ¸®´ª½º¸¦ ¼³Ä¡ÇÏ´Â ¹æ¹ý°ú ±âº»ÀûÀÎ ¸®´ª½º »ç¿ë¹ý¿¡ ´ëÇØ ´Ù·ç¾ú´Ù. 4Àå¿¡¼´Â ¸®´ª½º ÆÄÀÏ°ú µð·ºÅ͸®, 5Àå¿¡¼´Â ÇÏµÓ ¼³Ä¡ ¹× »ç¿ë¿¡ ´ëÇØ ´Ù·ç¾ú´Ù. 6Àå°ú 7Àå¿¡¼´Â Spark¿Í Scala ¾ð¾î¸¦ ¼Ò°³Çϸç, 8Àå¿¡¼´Â Spark ¸Ó½Å·¯´×, 9Àå¿¡¼´Â ¸®´ª½º »ó¿¡¼ R°ú RStudio¸¦ ¼³Ä¡ÇÏ´Â ¹æ¹ý¿¡ ´ëÇØ ´Ù·ç¾ú´Ù. ¸¶Áö¸·À¸·Î 10Àå°ú 11Àå¿¡¼´Â Spark¿Í RÀÇ ÅëÇÕȯ°æÀÎ SparkR°ú SparkR ¸Ó½Å·¯´×¿¡ ´ëÇØ ´Ù·ç¾ú´Ù.
ÀÌ Ã¥À» ÅëÇØ ¸¹Àº »ç¶÷µéÀÌ À©µµ¿ì¿¡¼ ¸®´ª½º¸¦ À§ÇÑ ºòµ¥ÀÌÅ͸¦ ó¸®ÇÏ°í ºÐ¼®ÇÒ ¼ö ÀÖµµ·Ï ÁýÇÊ¿¡ ½ÉÇ÷À» ±â¿ï¿´Áö¸¸ ¿©ÀüÈ÷ Ã¥ ³»¿ë¿¡ ¿À·ù°¡ ÀÖ°í ºÎÁ·ÇÑ ºÎºÐÀÌ ¸¹À» °ÍÀ¸·Î »ý°¢ÇÑ´Ù. µû¶ó¼ µ¶ÀÚµéÀÇ ¾ÖÁ¤ ¾î¸° Ãæ°í¿Í Áö¼ÓÀûÀÎ ÁöµµÆí´ÞÀ» ¹Ù¶ó¸ç ¹ÌÈíÇÑ ºÎºÐÀº °è¼Ó º¸¿ÏÇÏ¿© ÀÚÀ¯¾ÆÄ«µ¥¹Ì ȨÆäÀÌÁö(www.freeaca.com) ÀÚ·á½Ç¿¡ Á¦°øÇÒ ¿¹Á¤ÀÌ´Ï Âü°íÇϽñ⸦ ¹Ù¶õ´Ù.
³¡À¸·Î Ã¥À» Ãâ°£ÇÏ´Â µ¥ µµ¿òÀ» ÁֽŠÀÚÀ¯¾ÆÄ«µ¥¹Ì ÃâÆÇ»ç ¿©·¯ºÐ²² ±íÀº °¨»çÀÇ ¸»¾¸À» µå¸®¸ç, Ã¥ÀÌ ³ª¿À±â±îÁö ¸¹Àº °ü½É°ú µµ¿òÀ» ÁØ °¡Á·µé¿¡°Ôµµ °í¸¶¿î ¸¶À½À» ÀüÇÑ´Ù.
ºÎ»ê´ëÇб³ °è»êÅë°èÇаú(ÀÌÇлç), ºÎ»ê´ëÇб³ ´ëÇпø °è»êÅë°èÇаú(ÀÌÇм®»ç), ºÎ»ê´ëÇб³ ´ëÇпø Åë°èÇаú(ÀÌÇйڻç)¸¦ Á¹¾÷Çß´Ù. ¹Ì±¹ ¿ÀÇÏÀÌ¿À ÁÖ¸³´ëÇб³(Post-Doc), ÇöÀç °æ»ó´ëÇб³ Á¤º¸Åë°èÇаú ±³¼ö´Ù. ¿¬±¸ ºÐ¾ß·Î´Â ºñ¸ð¼öÅë°è, Á¤º¸Åë°è, ÇÁ·Î±×·¡¹Ö¾ð¾î, ¿µ»ó󸮰¡ ÀÖ´Ù.
1Àå ºòµ¥ÀÌÅÍ Ã³¸® ¹× ºÐ¼® °³¿ä
1.1 ºòµ¥ÀÌÅÍ ¹«¾ùÀΰ¡?
1.2 ºòµ¥ÀÌÅÍ °úÁ¤
1.3 ºòµ¥ÀÌÅÍ Ã³¸® ¹× ºÐ¼®À» À§ÇÑ ºÐ»ê ÄÄÇ»ÆÃ
1.4 ºòµ¥ÀÌÅÍ Ã³¸® ¹× ºÐ¼®À» À§ÇÑ ±¸¼º¿ä¼Ò
2Àå À©µµ¿ì¿¡ ¸®´ª½º ¼³Ä¡Çϱâ
2.1 À©µµ¿ì¿Í ¸®´ª½º ÇÔ²² »ç¿ë ¹æ¹ý
2.2 °¡»ó¸Ó½Å ¼³Ä¡¸¦ À§ÇÑ VMware ¼³Ä¡
2.3 ¸®´ª½º ´Ù¿î·Îµå
2.4 VMware ÀÌ¿ëÇÏ¿© °¡»ó¸Ó½Å¿¡ ¸®´ª½º ¼³Ä¡
3Àå ¸®´ª½º »ç¿ë¹ý
3.1 ¿ìºÐÅõÀÇ µµÅ©
3.2 Å͹̳Π»ç¿ëÇϱâ
3.3 ¸®´ª½º ÆíÁý±â
4Àå ¸®´ª½º ÆÄÀÏ°ú µð·ºÅ͸® ´Ù·ç±â
4.1 ÆÄÀÏ°ú µð·ºÅ͸®ÀÇ °³³ä
4.2 ¸®´ª½º ±âº» ¸í·É¾î
4.3 ÆÄÀÏ ¹× µð·ºÅ͸® ±ÇÇÑ
4.4 À©µµ¿ì¿Í ¸®´ª½º ÆÄÀÏ °øÀ¯Çϱâ
5Àå ¸®´ª½º¿¡¼ ÇÏµÓ »ç¿ëÇϱâ
5.1 ÇÏµÓ °³¿ä
5.2 ÇÏµÓ ¼³Ä¡
5.3 ÇÏµÓ ½ÇÇà
5.4 ÇÏµÓ À¥ ÀÎÅÍÆäÀ̽º
5.5 ¿¹Á¦¸¦ ÀÌ¿ëÇÑ ÇÏµÓ ¸Àº¸±â
6Àå Spark
6.1 SparkÀÇ °³³ä
6.2 SparkÀÇ µ¥ÀÌÅÍ ±¸Á¶
6.3 Spark ¼³Ä¡
6.4 Spark ¼³Ä¡ È®ÀÎ
6.5 ÁÖÇÇÅÍ ³ëÆ®ºÏ¿¡¼ Scala »ç¿ëÇϱâ
7Àå Scala ¾ð¾î
7.1 Scala ±âº» ¹®¹ý
7.2 Spark »ó¿¡¼ Scala ÇÁ·Î±×·¡¹Ö
8Àå Spark ¸Ó½Å·¯´×
8.1 Spark MLlib°ú Spark ML
8.2 Spark ¸Ó½Å·¯´× ÆÄÀÌÇÁ¶óÀÎ
8.3 ¸Ó½Å·¯´× ȸ±Í¸ðµ¨
8.4 ¸Ó½Å·¯´× ºÐ·ù¸ðµ¨
9Àå ¸®´ª½º¿¡ R°ú RStudio ¼³Ä¡
9.1 R ¼³Ä¡
9.2 RStudio ¼³Ä¡
10Àå SparkR
10.1 SparkR °³³ä
10.2 SparkRÀ» ÀÌ¿ëÇÑ µ¥ÀÌÅÍ ºÐ¼®
11Àå SparkR ¸Ó½Å·¯´×
11.1 SparkR ¸Ó½Å·¯´× ¾Ë°í¸®Áò
11.2 SparkR ȯ°æ ¼³Á¤
11.3 SparkR¿¡¼ ¸Ó½Å·¯´× ±¸Çö
ã¾Æº¸±â