Big Data |
Big Data คืออะไร[1]
คำว่า Big Data คือการที่มีข้อมูลปริมาณมากๆ มากแค่ไหน อย่างน้อย ก็จะคุยกันในระดับ Tera Byte (TB) หรือ ระดับ Peta Byte (PB) ซึ่งก็คือ 1000 TB นั่นเอง โดยในระบบ Internet ในยุคที่ Social Media ที่เฟื่องฟู มีสารสนเทศเกิดขึ้นจำนวนมาก ทุกๆ คนสามารถที่จะพร้อมผลิตข้อมูล มีกิจกรรมต่างๆ มากมาย พร้อมทั้ง อุปกรณ์ (Device) ที่มีจำนวนมากและยังมีอัตราการขยายตัวที่สูงอีกด้วย ทั้ง Smart Device ที่รองรับการเข้าถึง การใช้งาน ข้อมูลจำนวนมากๆ ได้อย่างง่ายดาย
เชื่อหรือไม่
- ปัจจุบันในปี 2014 มี Mobile Device มากกว่า 7.4 Billion ที่ใช้งานบนโลกใบนี้
- Facebook มีข้อมูลมากกว่า 500 TB ที่เกิดขึ้นในแต่ละวัน
- มีคนกด Like ใน Facebook มากกว่า 2.7 Billion ในแต่ละวัน
- ข้อมูลมีแนวโน้มเพิ่มมากขึ้น ๆ กว่า 10 เท่าในทุกๆ 5 ปี
- แนวโน้มของข้อมูลมีขนาดที่ใหญ่ขึ้น คือเป็นรูปภาพ และ วีดีโอมากขึ้น
คุณสมบัติของ Big Data
คุณสมบัติของ Big Data จะมีด้วยกัน 3 มุมมอง คือ
- Volume : ข้อมูลมีปริมาณมาก อยู่ในระดับ Terabytes ขึ้นไป
- Variety : ข้อมูลมีรูปแบบที่หลากหลาย ไม่ว่าจะเป็น ข้อความ รูปภาพ วีดิโอ มัลติมีเดีย
- Velocity : ข้อมูลจะมีการเปลี่ยนแปลงตลอดเวลาและรวดเร็ว
องค์ประกอบของ BIG DATA[2]
Volume ปริมาณของข้อมูลจะมากมายมหาศาลจนไม่สามารถที่จะเก็บรวบรวมในฐานข้อมูลรูปแบบเดิมๆได้ หรือถ้าเก็บได้ก็อาจจะยากและซับซ้อน Velocity หรือความเร็ว คือข้อมูลที่เปลี่ยนแปลงตลอดเวลา โดยข้อมูลนั้นจะมีค่าในเวลา ณ จุดนั้น และจดหมดค่าเมื่อเวลาผ่านไป การนำเอาข้อมูลชนิดนี้มาใช้ต้องมีการประมวลผลที่รวดเร็วทันต่อเห็นการณ์ Variety หรือความหลากหลาย ข้อมูลที่มีความหลากหลายทางโครงสร้าง ทำให้ไม่สามารถที่จะจัดเก็บหรือแยกหมวดหมู่ได้ตามที่ต้องการ หรือมีรายละเอียดปลีกย่อย หรือรูปแบบในการจัดการข้อมูลที่เพิ่มมากขึ้นตามขนาดของข้อมูล
เทคโนโลยีหลักที่ถือว่าอยู่เบื้องหลัง “Big Data” คือ “Hadoop” ซึ่งเป็นซอฟต์แวร์แบบโอเพ่นซอร์ส (Open-sourceSoftware)ของApacheสำหรับการประมวลผลแบบกระจายหรือDistributed Computing เพื่อรองรับ การจัดเก็บ และประมวลข้อมูลขนาดใหญ่Hadoopได้รวมระบบการจัดการเครื่องแม่ข่ายในลักษณะคลัสเตอร์และการเข้าถึงและดึงข้อมูลอย่างรวดเร็วด้วยวิธีMapReduce(Map และ Reduce) จากความสามารถข้างต้นของ Hadoop ระบบคอมพิวเตอร์ที่จะรองรับการทำงานของ Hadoop จะเป็นกลุ่มเครื่องแม่ข่ายขนาดเล็กหลายๆ เครื่อง มีหน่วยจัดเก็บข้อมูลภายในขนาดใหญ่ในแต่ละเครื่อง (ปัจจุบันมีหน่วยจัดเก็บข้อมูลภายนอกมาเป็นทางเลือกแล้ว) ต่อเชื่อมกันผ่านระบบเครือข่าย (Local Area Network) หรือ เครือข่ายระยะไกล (Wide Area Network)
นอกจากนี้ยังมีพันธมิตรของ Hadoop หรือที่เรียกว่า Hadoop Ecosystem อีกจำนวนหนึ่งที่จะมาช่วยเสริมใน เรื่องการจัดการข้อมูล การเข้าถึงและดึงข้อมูล รวมทั้งการ ติดต่อแลกเปลี่ยนข้อมูลกับระบบต่างๆ ให้สะดวกขึ้น อาทิ HBase, Hive, Pig, Sqoop เป็นต้น เห็นชื่อแล้วคง ไม่ค่อยคุ้นกัน เพราะทั้งหมดนี้เป็นซอฟต์แวร์แบบโอเพ่น ซอร์สทั้งหมด โดยมี Hadoop เป็นแกนกลางในการทำงาน องค์กรสามารถดาวน์โหลด Hadoop และผลิตภัณฑ์อื่นใน กลุ่ม Hadoop Ecosystem มาใช้งานได้โดยไม่มีค่าใช้จ่าย และเพื่อตอบโจทย์การนำ Hadoop มาใช้ในธุรกิจ จึงมี บริษัทซอฟต์แวร์ที่ตั้งขึ้นมาเพื่อทำหน้าที่ให้บริการทางด้าน Hadoop Ecosystem แบบครบวงจรตั้งแต่อำนวยความ สะดวกในการดาวน์โหลด ไปจนถึงการสนับสนุนหลังการ ดาวน์โหลด ปัจจุบันมีบริษัทที่ทำหน้านี้อยู่ 4 แห่งคือ Cloudera (CDH), MapR, Hortonworks และบริษัท น้องใหม่อย่าง Pivotal HD
เทคโนโลยีกลุ่มที่สอง คือ ระบบฐานข้อมูลที่ไม่ใช้ภาษาSQL(NoSQL Database) เนื่องจากความสามารถที่รวดเร็ว สามารถรองรับข้อมูลแบบ Semi-Structured และ Unstructured ได้ ผลิตภัณฑ์ที่นิยมใช้ส่วนใหญ่เป็นโอเพ่น ซอร์ส และรองรับการขยายตัวในแนวราบ (Horizontal Scaling) ซึ่งสอดคล้องกับสถาปัตยกรรมของHadoop ตัวอย่างผลิตภัณฑ์ทางด้าน NoSQL Database ที่เป็นที่นิยมได้แก่ Cassandra, CouchBase, HBase, MongoDB เป็นต้น
เทคโนโลยีกลุ่มที่สามคือ “Data Visualization Tools” ซึ่งเป็นเครื่องมือที่จะช่วยแปลงข้อมูล “Big Data” ที่ได้รับ การกลั่นกรองแล้วมาแสดงในรูปของแผนภาพ ง่ายต่อการ เข้าใจ และนำไปสู่การตัดสินใจในขั้นถัดไป แล้วเครื่องมือ กลุ่มนี้ต่างจากระบบ Business Intelligence อย่างไร บทบาทของเครื่องมือกลุ่มนี้จะอยู่ในระดับปฏิบัติการ (Operations) ให้ติดตามสถานะของระบบ และการแก้ ปัญหาได้ง่าย โดยมีคำเรียกสำหรับระบบนี้ว่า “Operational Intelligence” ส่วน Business Intelligence จะเน้นไปที่ ข้อมูลสำหรับผู้บริหาร ผู้จัดการเพื่อประกอบการตัดสินใจ ทางธุรกิจ
เทคโนโลยีกลุ่มสุดท้ายคือ “Analytic Database” ผลิตภัณฑ์ในกลุ่มนี้อาจจะนำไปใช้กับระบบคลังข้อมูลได้ด้วย และเป็นกลุ่มผู้ผลิตซอฟต์แวร์ยักษ์ใหญ่ในตลาดต่างให้ ความสำคัญมาก โดยใช้เทคนิคในการทำงานแบบต่างๆ เพื่อ ตอบโจทย์ด้านความเร็วไม่ว่าจะเป็น การประมวลผลใน หน่วยความจำ (In-memory Computing) การประมวลใน ระบบฐานข้อมูล (In-database Computing) ซึ่งไม่เหมือน กันเลยแต่มีสิ่งหนึ่งที่ทุกผู้ผลิตมีเหมือนกันคือ การสนับสนุน การต่อเชื่อมกับ Hadoop เพื่อให้สามารถนำข้อมูลจาก Hadoop เข้ามาประมวลในขั้นต่อไปในผลิตภัณฑ์ฐานข้อมูล ของตนเองได้ ซึ่งเกือบทุกผู้ผลิตจะมีการนำ Hadoop เข้า มาเป็นผลิตภัณฑ์เสริมของตนเองโดยทำสัญญากับทาง บริษัทที่ให้การสนับสนุน Hadoop Ecosystem ทั้ง 4 ราย ข้างต้น ตัวอย่างผลิตภัณฑ์ในกลุ่มนี้ได้แก่ Aster Data (Teradata), Exadata (Oracle), Greenplum (EMC) Netezza (IBM), Vertica (HP) เป็นต้น
เทคโนโลยีหลักที่ถือว่าอยู่เบื้องหลัง “Big Data” คือ “Hadoop” ซึ่งเป็นซอฟต์แวร์แบบโอเพ่นซอร์ส (Open-sourceSoftware)ของApacheสำหรับการประมวลผลแบบกระจายหรือDistributed Computing เพื่อรองรับ การจัดเก็บ และประมวลข้อมูลขนาดใหญ่Hadoopได้รวมระบบการจัดการเครื่องแม่ข่ายในลักษณะคลัสเตอร์และการเข้าถึงและดึงข้อมูลอย่างรวดเร็วด้วยวิธีMapReduce(Map และ Reduce) จากความสามารถข้างต้นของ Hadoop ระบบคอมพิวเตอร์ที่จะรองรับการทำงานของ Hadoop จะเป็นกลุ่มเครื่องแม่ข่ายขนาดเล็กหลายๆ เครื่อง มีหน่วยจัดเก็บข้อมูลภายในขนาดใหญ่ในแต่ละเครื่อง (ปัจจุบันมีหน่วยจัดเก็บข้อมูลภายนอกมาเป็นทางเลือกแล้ว) ต่อเชื่อมกันผ่านระบบเครือข่าย (Local Area Network) หรือ เครือข่ายระยะไกล (Wide Area Network)
นอกจากนี้ยังมีพันธมิตรของ Hadoop หรือที่เรียกว่า Hadoop Ecosystem อีกจำนวนหนึ่งที่จะมาช่วยเสริมใน เรื่องการจัดการข้อมูล การเข้าถึงและดึงข้อมูล รวมทั้งการ ติดต่อแลกเปลี่ยนข้อมูลกับระบบต่างๆ ให้สะดวกขึ้น อาทิ HBase, Hive, Pig, Sqoop เป็นต้น เห็นชื่อแล้วคง ไม่ค่อยคุ้นกัน เพราะทั้งหมดนี้เป็นซอฟต์แวร์แบบโอเพ่น ซอร์สทั้งหมด โดยมี Hadoop เป็นแกนกลางในการทำงาน องค์กรสามารถดาวน์โหลด Hadoop และผลิตภัณฑ์อื่นใน กลุ่ม Hadoop Ecosystem มาใช้งานได้โดยไม่มีค่าใช้จ่าย และเพื่อตอบโจทย์การนำ Hadoop มาใช้ในธุรกิจ จึงมี บริษัทซอฟต์แวร์ที่ตั้งขึ้นมาเพื่อทำหน้าที่ให้บริการทางด้าน Hadoop Ecosystem แบบครบวงจรตั้งแต่อำนวยความ สะดวกในการดาวน์โหลด ไปจนถึงการสนับสนุนหลังการ ดาวน์โหลด ปัจจุบันมีบริษัทที่ทำหน้านี้อยู่ 4 แห่งคือ Cloudera (CDH), MapR, Hortonworks และบริษัท น้องใหม่อย่าง Pivotal HD
เทคโนโลยีกลุ่มที่สอง คือ ระบบฐานข้อมูลที่ไม่ใช้ภาษาSQL(NoSQL Database) เนื่องจากความสามารถที่รวดเร็ว สามารถรองรับข้อมูลแบบ Semi-Structured และ Unstructured ได้ ผลิตภัณฑ์ที่นิยมใช้ส่วนใหญ่เป็นโอเพ่น ซอร์ส และรองรับการขยายตัวในแนวราบ (Horizontal Scaling) ซึ่งสอดคล้องกับสถาปัตยกรรมของHadoop ตัวอย่างผลิตภัณฑ์ทางด้าน NoSQL Database ที่เป็นที่นิยมได้แก่ Cassandra, CouchBase, HBase, MongoDB เป็นต้น
เทคโนโลยีกลุ่มที่สามคือ “Data Visualization Tools” ซึ่งเป็นเครื่องมือที่จะช่วยแปลงข้อมูล “Big Data” ที่ได้รับ การกลั่นกรองแล้วมาแสดงในรูปของแผนภาพ ง่ายต่อการ เข้าใจ และนำไปสู่การตัดสินใจในขั้นถัดไป แล้วเครื่องมือ กลุ่มนี้ต่างจากระบบ Business Intelligence อย่างไร บทบาทของเครื่องมือกลุ่มนี้จะอยู่ในระดับปฏิบัติการ (Operations) ให้ติดตามสถานะของระบบ และการแก้ ปัญหาได้ง่าย โดยมีคำเรียกสำหรับระบบนี้ว่า “Operational Intelligence” ส่วน Business Intelligence จะเน้นไปที่ ข้อมูลสำหรับผู้บริหาร ผู้จัดการเพื่อประกอบการตัดสินใจ ทางธุรกิจ
ตัวอย่าง BIG DATA[4]
- ปูมบันทึกการใช้งานเว็บ
- RFID เครือข่ายเซ็นเซอร์
- เครือข่ายสังคม
- ข้อมูลสังคม (social data)
- เอกสารและข้อความบนอินเทอร์เน็ต
- การทำดัชนีค้นหาอินเทอร์เน็ต
- บันทึกการโทรศัพท์
- ดาราศาสตร์
- วิทยาศาสตร์สภาพอากาศ
- การวิจัยทางชีวธรณีเคมี ชีววิทยา และการวิจัยทางวิทยาศาสตร์ที่ซับซ้อนและมักจะข้ามสาขา
- การสอดส่องทางการทหาร
- เวชระเบียน
- คลังภาพถ่าย
- คลังภาพเคลื่อนไหว
- พาณิชย์อิเล็กทรอนิกส์ขนาดใหญ่
ปัจจุบันมีข้อมูลที่เกิดขึ้นใหม่วันละไม่ต่ำกว่าหลัก EB (เอกซะไบต์) หรือ 1018 ข้อมูลเหล่านี้คือองค์ความรู้อันมีค่าถ้าหากนำมาใช้ให้เกิดประโยชน์ ปัจจุบันการแข่งขันทางธุรกิจค่อนข้างรุนแรงและวางกลยุทธ์กันนาทีต่อนาที ใครเร็วกว่าคู่แข่ง มีความพร้อมกว่า ก็สามารถช่วงชิงความได้เปรียบทางธุรกิจได้ง่าย Big Data เปรียบเสมือนเครื่องมือเพื่อให้ไปถึงจุดๆนั้น หากเราสามารถนำข้อมูลเหล่านี้มาวิเคราะห์และใช้ได้ทันท่วงนี้ จะเกิดประโยชน์อย่างมหาศาล
ยกตัวอย่างเช่น1.สามารถคาดการณ์ล่วงหน้าได้ว่าความต้องการของลูกค้าคืออะไร จะเปลี่ยนแปลงไปในทิศทางใด2.Visualization สามารถวิเคราะห์พฤติกรรมลูกค้าเพื่อนำกลับมาวางกลยุทธ์ทางการตลาดได้3. Time to Market สามารถ Offer Product ที่ลูกค้าต้องการได้ในเวลาที่ทันท่วงที
Big Data ในมุมมองผู้บริหาร
- การ Capture ข้อมูลที่เกิดขึ้นอาจจะเป็นในรูปแบบ Real-time ย่อมจะทำให้เราได้รับรู้ข้อมูลในมิติต่างๆ ได้ ซึ่งข้อมูลเหล่านี้มีคุณสมบัติที่เป็น Big Data คือมีทั้ง Volume, Variety และ Velocity
- เนื่องจากเทคโนโลยีเกี่ยวกับข้อมูลมีจำนวนมากขึ้น การเลือกใช้เทคโนโลยีเดิม อาจจะไม่เพียงพอที่จะนำเอาข้อมูลที่ได้มาใช้ประโยชน์เพื่อตอบโจทย์ธุรกิจขององค์กรได้ ดังนั้นต้องเลือกใช้เทคโนโลยีให้เหมาะสม
- การนำเอาเทคโนโลยีใหม่ๆ มาวิเคราะห์ Big Data เพื่อให้ทราบพฤติกรรมและความต้องการที่แท้จริงของผู้บริโภค โดยใช้เครื่องมือที่มีประสิทธิภาพ ย่อมทำให้เราสามารถชิงความได้เปรียบในการแข่งขันยิ่งขึ้น
- การส่งบุคลากรมาฝึกอบรม ให้ความรู้ กับบุคลากรในองค์กรให้มีความรู้ความเข้าใจในเรื่อง Big Data, Cloud Computing และ Deep Analytical เพื่อเป็นบุคลากรในการนำข้อมูลมาใช้งานได้อย่างดี จะช่วยให้ข้อมูลที่เก็บมาใช้ได้อย่างดี มีประสิทธิผลมากยิ่งขึ้น
Big Data และเทคโนโลยี Hadoop กับการพัฒนาองค์กรด้านการวิเคราะห์ข้อมูล[6]
Big Data เป็นอีกหัวข้อหนึ่งที่เริ่มมีการกล่าวถึงกันอย่างกว้างขวาง ซึ่งถ้าเราดูจาก Google Trends ก็จะเห็นได้ว่าทั่วโลกก็เริ่มให้ความสนใจในการค้นคำว่า Big Data ตีคู่มากับคำว่า Cloud Computing แล้ว ส่วนหนึ่งก็อาจเป็นเพราะว่าข้อมูลในโลกของอินเตอร์เน็ตเรื่มมีเยอะขึ้น โดยเฉพาะข้อมูลจาก Social Network ที่ผู้คนต่างเข้ามาอัพเดทข้อมูลตลอดเวลา นอกจากนี้ราคาของ Storage ก็ถูกลงทำให้คนเริ่มที่จะเก็บข้อมูลเยอะขึ้นเรื่อยๆ ซึ่งทาง EMC/IDC ได้ทำตาดการณ์ว่าในปี 2015 จะมีข้อมูลดิจิตอลรวมกันประมาณ 7,910 ExaBytes
หลายๆคนยังเข้าใจว่า Big Data คือการที่มีข้อมูลดิจิตอลขนาดมหาศาล แต่จริงๆแล้วเรามักจะนิยามความหมายของ Big Data ด้วยคำย่อว่า 3V คือ Volume, Velocity และ Variety
- Volume: คือมืจำนวนข้อมูลมากเกินกว่าระบบฐานข้อมูลแบบเดิมๆจะสามารถที่จะจัดการได้
- Velocity: คือข้อมูลจะมีการเปลี่ยนแปลงอย่างรวดเร็ว เช่นข้อมูลจาก Social Media ข้อมูลการซื้อขาย ข้อมูล Transaction การเงินหรือการใช้โทรศัพท์ หรือข้อมูลจาก Sensor
- Variety: คือข้อมูลจะมีหลากหลายรูปแบบทั้ง Structure และ Unstructure ซึ่งอาจจะอยู่ในรูปทั้ง RDBMS, text, XML, JSON หรือ Image
ดังนั้นการจัดการ Big Data จึงจำเป็นต้องใช้ระบบการเก็บข้อมูลหรือการประมวลในรูปแบบอื่นๆที่อาจไม่ใช้เพียงแค่ฐานข้อมูล RDBMS แบบเดิมๆ ซึ่งหากเราพิจารณา Ecosystems ของ Big Data เราจะสามารถจะเห็นได้ว่ามีความเกี่ยวข้องกับโครงสร้างพื้นฐานไอทีหลายๆด้านดังรูป
เทคโนโลยี Hadoop
ซอฟต์แวร์ที่สำคัญตัวหนึ่งที่มีการนำมาใช้กันมาในระบบ Big Data คือ Hadoop เพราะ Hadoop เป็น Open Source Technology ที่จะทำหน้าที่เป็น Distributed Storage ที่สามารถเก็บข้อมูลขนาดใหญ่ที่เป็น Unstructure และนำมาประมวลผลได้ โดยองค์ประกอบหลักๆของ Hadoop จะประกอบด้วย Hadoop Dustributed File System (HDFS) ที่ทำหน้่าที่เป็น Storage และ MapReduce ที่ใช้ในการพัฒนาโปรแกรมประมวลผล ทั้งนี้โครงสร้างด้าน Hardware ของ Hadoop จะใช้เครื่อง Commodity Server จำนวนมากต่อเป็น Cluster กัน
ในปัจจุบันหลายๆองค์กรจะใช้ Hadoop Technology ในการพัฒนา Big Data อาทิเช่น Facebook, Yahoo และ Twitter โดยจะมีเครื่อง Server 9yh’c9j 5 -1,000 เครื่อง ทั้งนี้ขึ้นอยู่กับขนาดข้อมูล นอกจากนี้ Technology Vendor ต่างๆอาทิเช่น Oracle, IBM, EMC หรือแม้แต่ Microsoft ต่างก็นำ Hadoop มาใช้ในเทคโนโลยีของตัวเองในการพัฒนาผลิตภัณฑ์ทางด้าน Big Data
ทั้งนี้ Hadoop จะไม่ได้นำมาแทนที่ระบบฐานข้อมูลเดิมแต่เป็นการใช้งานร่วมกันทั้ง Database แบบเดิมที่เป็น Structure Data และการนำ Unstructure Data ขององค์กรที่อาจเก็บไว้ในระบบอย่าง Hadoop เข้ามาพิจารณาร่วมกับข้อมูลอื่นๆภายนอกเช่น Facebook แล้วนำมาวิเคราะห์ข้อมูลโดยใช้เครื่องมืออย่าง Business Intelligence ดังรูป
ซึ่งจากการสำรวจของ Unisphere Research เมื่อพฤษภาคม 2013 พบว่าอุตสาหกรรมที่มีความสนใจจะพัฒนาเรื่อง Big Data เป็นอันดับต้นๆคือ อุตสาหกรรมค้าปลีก อุตสาหกรรมธนาคารและประกันภัย อุตสาหกรรมโทรคมนาคม ซึ่งใช้ในการวิเคราะห์ลูกค้าและข้อมูลการตลาด นอกจากนี้หลายหน่วยงานก็มีการนำข้อมูลด้าน Social Media มาทำการวิเคราะห์เพื่อหาข้อมูลต่างๆ
การพัฒนา Big Data ที่สำคัญประการหนึ่งก็คือการปรับปรุงโครงสร้างระบบไอทีขององค์กรด้านข้อมูล (Information Infrastucture) รวมถึงการพัฒนาบุคลากรให้เข้าใจถึงเทคโนโลยีด้าน Big Data ใหม่ๆอย่าง Hadoop หรือ in-Momery Database และต้องมีการวางแผนในการนำข้อมูลทั้ง Structure และ Unstructure จากภายในและภายนอกองค์กรมาใช้งาน รวมถึงการที่จะต้องหาผู้เชี่ยวชาญทางด้านข้อมูลที่เป็น Data Scientist มาร่วมทำงาน
การพัฒนาองค์ความรู้ด้าน Big Data ของสถาบัน IMC
IMC Institute ให้ความสำคัญกับเทคโนโลยี Big Data โดยที่ผ่านมาได้เปิดหลักสูตรอบรมในหลายหลักสูตรจำนวนผู้เรียนรวมกันมากกว่า 100 โดยมีหลักสูตรที่น่าสนใจคือ
- Big Data using Hadoop Workshop
- Big Data on Public Cloud Computing
- Big Data Programming using Java Technology
โดยในวันที่ 18 ตุลาคมนี้ ทางสถาบัน IMC จะเปิดหลักสูตร Big Data on Public Cloud Computing ซึ่งเป็นการสอนหลักการของ Big Data ที่สามารถใช้งานได้จริงกับ Public Cloud อย่าง Amazon Web Services ซึ่งผู้เรียนจะได้ศึกษาการพัฒนา Big Data ทั้งส่วนที่เป็น Map/Reduce, Hive, Pig และ HBase รวมถึงการนำข้อมูลขนาดใหญ่เข้า Amazon S3
อนึ่งเมื่อเร็วๆนี้ ทางสถาบัน IMC ได้จัดสัมมนาหัวข้อ Business Intelligence in a Big Data World ร่วมกับ Oracle และ PwC โดยมีหัวข้อที่น่าสนใจหลายๆเรื่อง ซึ่งสามารถที่จะดู Slide งานสัมมนานี้ได้ดังนี้
- Big Data: Winning in the Digital World; Dr. Thanachart Numnonda https://dl.dropboxusercontent.com/u/12655380/BigDataThanachart.pdf
- Big Data Hadoop: Introduction Session; Mr. Danairat Thanabodithammachari https://dl.dropboxusercontent.com/u/12655380/BigDataDanairat.pdf
- Business Intelligence for Success and Case Study; Ms. Pirata Phakdeesattayaphong (PwC) https://dl.dropboxusercontent.com/u/12655380/BigDataPwC.pdf
- How Big Data Information Discovery Provides Valuable Insights, Ms. Tidaporn Santimanawong (Oracle) https://dl.dropboxusercontent.com/u/12655380/BigDataTida.pdf
อธิบาย Big Data[9]
Big Data หรือ อภิมหาข้อมูล[7]
มองมุมใหม่รศ.ดร.พสุ เดชะรินทร์ คณะพาณิชยศาสตร์และการบัญชี จุฬาลงกรณ์มหาวิทยาลัย pasu@acc.chula.ac.th
สัปดาห์นี้เรามาดูแนวคิดใหม่ๆ ทางด้านการจัดการที่กำลังมาแรงในต่างประเทศกันหน่อยนะครับ เผื่อองค์กรไหนในเมืองไทยสนใจนำไปปรับใช้ แนวคิดดังกล่าวคือเรื่อง Big Dataครับ เป็นแนวคิดที่มาแรงถึงขนาดที่ Harvard Business Review นำเรื่องนี้ขึ้นหน้าปกเมื่อเดือนตุลาคมที่ผ่านมา
คำว่า Big Data นั้นถ้าแปลเป็นไทยคงจะเป็น "อภิมหาข้อมูล หรือ ข้อมูลที่มากมายมหาศาล" ซึ่งเป็นปรากฏการณ์ที่เกิดขึ้นเนื่องจากในปัจจุบันด้วยพัฒนาการของเทคโนโลยีและระบบต่างๆ ทำให้องค์กรมีการเก็บข้อมูลต่างๆ อย่างมากมายมหาศาลแบบที่ไม่เคยเป็นมาก่อน และองค์กรที่ให้ความสำคัญกับข้อมูลเหล่านี้ก็ย่อมรู้จักที่จะใช้หรืออภิมหาข้อมูลเหล่านี้มาใช้ในการตัดสินใจเพื่อให้เกิดประโยชน์ต่อองค์กร ซึ่งมีงานวิจัยชี้ออกมาแล้วเหมือนกันครับว่าองค์กรที่ให้ความสำคัญกับข้อมูลในการตัดสินใจ หรือ เป็นลักษณะ Data-Driven นั้นจะมีผลการดำเนินงานที่ดีกว่าองค์กรที่ไม่ได้ให้ความสำคัญแก่ข้อมูล
เรามาดูกันก่อนนะครับว่าเจ้าอภิมหาข้อมูลขององค์กรต่างๆ นั้นมาจากไหนได้บ้าง เริ่มจากบรรดาตัวชี้วัดหรือ KPI ต่างๆ ที่องค์กรเกือบทุกแห่งต่างขยันเก็บกันในช่วงกว่าสิบปีที่ผ่านมา ทำให้องค์กรได้มีข้อมูลในด้านต่างๆ อย่างมากมาย นอกจากนี้ข้อมูลที่องค์กรทุกแห่งเก็บเป็นปกติอยู่แล้วไม่ว่าจะเป็นตัวเลขทางด้านการเงิน ตัวเลขทางด้านการดำเนินงาน ข้อมูลเกี่ยวกับลูกค้า ข้อมูลเกี่ยวกับพนักงาน หรือ ข้อมูลในระบบ ERP ระบบฐานข้อมูล ระบบ Warehouse ฯลฯ ล้วนแล้วแต่เป็นแหล่งสำคัญของเจ้า Big Data ทั้งสิ้น ที่สำคัญคือปริมาณของข้อมูลเหล่านี้กลับทวีปริมาณมากขึ้นทุกขณะ ในปี 2012 ข้อมูลจำนวน 2.5 exabytes ถูกสร้างขึ้นมาในแต่ละวัน (หนึ่ง exabyte เทียบเท่ากับ 1 พันล้าน Gigabytes)
นอกจากนี้แหล่งของอภิมหาข้อมูลในปัจจุบันก็มาจากแหล่งที่เราคาดไม่ถึงกันมากด้วย ไม่ว่าจะมาจากโทรศัพท์เคลื่อนที่ ซึ่งโทรศัพท์ Smartphone ส่วนใหญ่ต่างมีระบบ Location-Based Services ทั้งสิ้น ทำให้ในช่วงวัน Black Friday หรือวันซื้อของก่อนคริสต์มาสของอเมริกานั้น ได้มีนักวิทยาศาสตร์ได้ใช้ระบบ LBS ดังกล่าวในการติดตามว่ามีคนมารออยู่ที่ลานจอดรถของห้างสรรพสินค้ากี่คน และพอจะประมาณยอดขายได้แม้กระทั่งก่อนห้างเปิด และแหล่งสำคัญสุดท้ายสำหรับเจ้าอภิมหาข้อมูลคือบรรดา Social Networks ทั้งหลายครับ เพราะท่านผู้อ่านต้องอย่าลืมว่าการโพสต์หรือส่งอะไรเข้าไปใน Social Networks ไม่ว่าจะเป็น Facebook, Twitter, Intragram, LinkedIn ฯลฯ ล้วนแล้วแต่เป็นการสร้างหรือเพิ่มปริมาณข้อมูลทั้งสิ้น เพียงแค่การ check-in ว่าอยู่ที่แห่งไหน ก็เป็นข้อมูลสำคัญที่ถ้าองค์กรรู้จักใช้ให้เป็นประโยชน์ก็จะช่วยองค์กรได้อย่างมาก
สรุปคือตอนนี้พวกเราทุกคนถือเป็นผู้สร้างข้อมูลหรือเรียกว่าเป็น Data Generator การที่เราทำกิจกรรมอะไรบางอย่างก็มีโอกาสที่จะสร้างข้อมูลใหม่ๆ ขึ้นมาบนโลกนี้ เพียงแต่ข้อมูลเหล่านี้อาจจะไม่ได้อยู่ในรูปแบบเดิมๆ ที่เราคุ้นเคยและองค์กรธุรกิจสามารถนำไปใช้ได้เลย เพียงแต่ถ้าดูดีๆ จะพบว่าเบื้องหลังข้อมูลเหล่านี้ อาจจะมีบางสิ่งที่เป็นประโยชน์อยู่แบบที่เราไม่รู้ตัว
ประเด็นสำคัญที่องค์กรต้องคำนึงคือจะปรับเปลี่ยนวัฒนธรรม วิธีการในการตัดสินใจอย่างไรให้สามารถตอบสนองต่อปรากฏการณ์ Big Data ที่กำลังเกิดขึ้น เทคโนโลยีนั้นอาจจะมีความสำคัญต่อ Big Data ในฐานะที่เป็นเครื่องมือในการบันทึก เก็บ วิเคราะห์ ประมวลข้อมูลต่างๆ แต่ผมว่าความสำคัญนั้นอยู่ที่ตัวผู้บริหารเองครับว่าเห็นความสำคัญของอภิมหาข้อมูลเหล่านี้หรือไม่
ตัวอย่างหนึ่งที่อาจจะกระทบต่อผู้บริหารคือวิธีการตัดสินใจครับ ในอดีตในยุคที่เรายังไม่มีข้อมูลในการตัดสินใจ ส่วนใหญ่เราก็อาศัยสัญชาตญาณหรือที่เรียกว่า Intuition เข้ามาช่วย โดยเฉพาะอย่างยิ่งตัวผู้บริหารระดับสูงหรือผู้อาวุโสที่อยู่มานาน ท่านเหล่านี้ก็จะมีประสบการณ์ที่มากและทำให้สัญชาตญาณของท่านก็แก่กล้าไปด้วย แต่เมื่อเรามีข้อมูลมากขึ้น และถ้าผู้บริหารรู้จักที่จะใช้ข้อมูลเหล่านี้ในการตัดสินใจมากขึ้น เราอาจจะพบว่าประสบการณ์หรือสัญชาตญาณอาจจะสู้การมีข้อมูลที่พร้อมเพรียงและรวดเร็วในการตัดสินใจไม่ได้ ซึ่งประเด็นดังกล่าวไม่ใช่เรื่องของเทคโนโลยีแล้วครับ แต่เป็นเรื่องของการปรับเปลี่ยนวัฒนธรรมและรูปแบบในการตัดสินใจมากกว่าครับ
Big Data ไม่ใช่เรื่องไกลตัวเรานะครับ เราพบเจอเรื่องของ Big Data ในชีวิตประจำวันมากขึ้น เช่น จะพาครอบครัวไปหาอาหารอร่อยกิน เราก็ไม่ได้อาศัยสัญชาตญาณที่ขับรถผ่านแล้วบอกว่า "ร้านนี้น่าจะอร่อย" อีกต่อไป แต่เราต้องหาข้อมูล ดูรีวิว ดูรูป ฯลฯ เกี่ยวกับร้านที่ต้องการจะไปมากขึ้น เช่นเดียวกันครับ สำหรับชาวกรุงเทพทุกท่าน เราลองใช้ประโยชน์จาก Big Data ในการหาผู้สมัครที่เหมาะสมที่สุดที่จะมาเป็นผู้ว่าฯ กทม.กันเถอะครับ
มาดูกันหน่อยว่าข้อมูลถูกสร้างมาจากไหนบ้างล่ะ ?[8]
ตัวอย่างข้อมูลที่ทำให้เกิด Big Data[10]
- ปูมบันทึกการใช้งานเว็บ (Web log)
- ข้อมูลจาก RFID
- เครือข่ายเซ็นเซอร์,
- เครือข่ายสังคม, ข้อมูลสังคม (social data),
- เอกสารและข้อความบนอินเทอร์เน็ต, การทำดัชนีค้นหาอินเทอร์เน็ต,
- บันทึกการรับโทรศัพท์,
- ดาราศาสตร์, วิทยาศาสตร์สภาพอากาศ, จีโนมิคส์,
- การวิจัยทางชีวธรณีเคมี ชีววิทยา และการวิจัยทางวิทยาศาสตร์ที่ซับซ้อน
- การสอดส่องทางการทหาร, เวชระเบียน, คลังภาพถ่าย, คลังภาพเคลื่อนไหว, และพาณิชย์อิเล็กทรอนิกส์ขนาดใหญ่
อ้างอิง
[1] "Big Data คืออะไร ? | 9Expert Training." 29 Aug. 2016 <http://www.9experttraining.com/articles/big-data-%E0%B8%84%E0%B8%B7%E0%B8%AD%E0%B8%AD%E0%B8%B0%E0%B9%84%E0%B8%A3>
[2] "องค์ประกอบของ BIG DATA | BIG DATA." 2016. 29 Aug. 2016 <http://narakk1994.blogspot.com/2016/05/big-data_34.html>
[3] "เทคโนโลยีสำหรับประมวลผล BIG DATA | BIG DATA." 2016. 29 Aug. 2016 <http://narakk1994.blogspot.com/2016/05/big-data_75.html>
[4] "ตัวอย่าง BIG DATA | BIG DATA." 2016. 29 Aug. 2016 <http://narakk1994.blogspot.com/2016/05/big-data_87.html>
[5] "BIG DATA มีประโยชน์ต่อองค์กรอย่างไร | BIG DATA." 2016. 29 Aug. 2016 <http://narakk1994.blogspot.com/2016/05/big-data_16.html>
[6] "Big Data และเทคโนโลยี Hadoop กับการพัฒนาองค์กรด้านการวิเคราะห์ข้อมูล
| BIG DATA." 2016. 29 Aug. 2016 <<https://thanachart.org/2013/10/05/big-data-%E0%B9%81%E0%B8%A5%E0%B8%B0%E0%B9%80%E0%B8%97%E0%B8%84%E0%B9%82%E0%B8%99%E0%B9%82%E0%B8%A5%E0%B8%A2%E0%B8%B5-hadoop-%E0%B8%81%E0%B8%B1%E0%B8%9A%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B8%9E%E0%B8%B1/>>
[7] "Big Data หรือ อภิมหาข้อมูล / รศ.ดร.พสุ เดชะรินทร์." 2013. 29 Aug. 2016 <http://library.acc.chula.ac.th/PageController.php?page=FindInformation/ArticleACC/2556/Pasu/BangkokBiznews/B2901131>
[8] "อธิบาย Big Data ด้วย 5V + 1C - cc :: somkiat." 2015. 29 Aug. 2016 <http://www.somkiat.cc/describe-big-data-with-5v-1c/>
[9] "What is Big Data and how does it work? - YouTube." 2013. 29 Aug. 2016 <https://www.youtube.com/watch?v=TzxmjbL-i4Y>
[10] "1.what is Big Data - ITIL Foundation Certification and workshop." 2013. 29 Aug. 2016 <http://www.cyberthai.com/index.php/knowledge-center/97-what-big-data>
[6] "Big Data และเทคโนโลยี Hadoop กับการพัฒนาองค์กรด้านการวิเคราะห์ข้อมูล
| BIG DATA." 2016. 29 Aug. 2016 <<https://thanachart.org/2013/10/05/big-data-%E0%B9%81%E0%B8%A5%E0%B8%B0%E0%B9%80%E0%B8%97%E0%B8%84%E0%B9%82%E0%B8%99%E0%B9%82%E0%B8%A5%E0%B8%A2%E0%B8%B5-hadoop-%E0%B8%81%E0%B8%B1%E0%B8%9A%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B8%9E%E0%B8%B1/>>
[7] "Big Data หรือ อภิมหาข้อมูล / รศ.ดร.พสุ เดชะรินทร์." 2013. 29 Aug. 2016 <http://library.acc.chula.ac.th/PageController.php?page=FindInformation/ArticleACC/2556/Pasu/BangkokBiznews/B2901131>
[8] "อธิบาย Big Data ด้วย 5V + 1C - cc :: somkiat." 2015. 29 Aug. 2016 <http://www.somkiat.cc/describe-big-data-with-5v-1c/>
[9] "What is Big Data and how does it work? - YouTube." 2013. 29 Aug. 2016 <https://www.youtube.com/watch?v=TzxmjbL-i4Y>
[10] "1.what is Big Data - ITIL Foundation Certification and workshop." 2013. 29 Aug. 2016 <http://www.cyberthai.com/index.php/knowledge-center/97-what-big-data>
ไม่มีความคิดเห็น:
แสดงความคิดเห็น