Big Data Ecosystem คืออะไร

Big Data Ecosystem คืออะไร
Big Data Ecosystem จะเป็นภาพใหญ่ของการทำงานกับ Big Data เริ่มตั้งแต่การเก็บข้อมูล ประมวลผล วิเคราะห์ และ แสดงผลข้อมูล โดยที่เริ่มด้วยโครงสร้างพื้นฐาน (Infrastructure) และการเลือกเครื่องมือที่เหมาะสมในการจัดเก็บ ประมวลผลและวิเคราะห์ (Process/Analytics) ซึ่ง Report/Application ดังกล่าวจะเป็นส่วนสำคัญ ที่จะเป็นส่วนของ Big Data ecosystem
หลักการทำงานของ Big Data
- การจัดเก็บรวมรวมข้อมูล (Ingest)
- การประมวลผล (Process)
- การเผยแพร่ (Publish)
- รายงาน (Report)

บุคลาการในแต่ละด้านมีดังนี้

ผลลัพธ์ที่จะได้ในรูปแบบของ Report/Insight อาจจะเป็นรูปแบบต่าง ๆ
- Custom Dashboards
- Self-Service Dashboards
- Interactive Analysis
- Production Reporting
Big Data Ecosystem ซึ่งเป็นเทคโนโลยีที่มีความเกี่ยวข้องกับข้อมูล ซึ่งมีเทคโนโลยีที่ต้องพิจารณาดังนี้

ซึ่งสามารถเปรียบเทียบเทคโนโลยีที่เหมาะสมได้ตาม Matrix for Analytics Performance ในตารางด้านล่างนี้

แหล่งที่มา : https://www.pentahoworld.com
หรือในภาพของเทคโนโลยีนั้นนำเสนอด้วยภาพนี้

แหล่งที่มา : https://www.datameer.com/blog/big-data-ecosystem/
ส่วนประกอบที่สำคัญของ Big Data Ecosystem
- Infrastructure
- Analytics
- Application
Infrastructure
เทคโนโลยีของโครงสร้างพื้นฐานถือเป็นเครื่องสำคัญใน Big Data ecosystem โดยจะทำการประมวลผล จัดเก็บ และวิเคราะห์ข้อมูล โดยในทศวรรษ ที่ผ่านผ่าน ฐานข้อมูลเชิงสัมพันธ์ (Relational Database) จะใช้ในการเก็บข้อมูลที่มีโครงสร้าง (Structured Data) แต่เนื่องจากข้อมูลปัจจุบัน ในลักษณะสำคัญ คือ 3 V ดังนี้
- Volume (Data Size): ข้อมูลมีปริมาณมาก ๆ ข้อมูลที่เพิ่มมากขึ้นเรื่อย ๆ มีระบบที่เก็บข้อมูลมากขึ้นเรื่อย ๆ ดังนั้นปริมาณข้อมูลจึงมีจำนวนมาก และมีแนวโน้มการใช้พื้นที่ ๆ มากขึ้นเรื่อย ๆ เช่นกัน
- Variety (Data Type): ข้อมูลมีรูปแบบที่หลากหลาย มีทั้งข้อมูลที่มีโครงสร้าง (Structured) และไม่มีโครงสร้าง (Unstructured)
- Velocity (Processing): ข้อมูลจะมีการเปลี่ยนแปลงตลอดเวลาและรวดเร็ว จะมีทั้งข้อมูลที่เป็น Batch จึงถึงข้อมูลที่เป็นลักษณะ Streaming
ซึ่ง ฐานข้อมูลเชิงสัมพันธ์ (Relational Database) นั้นเหมาะกับข้อมูลปริมาณที่ไม่มาก และยังเป็นข้อมูลที่มีโครงสร้าง (Structured) แต่หากเป็น Big Data นั้นไม่สามารถรับมือกับข้อมูลดังกล่าวได้ ทั้งจำนวนที่มากขึ้น หลากหลาย และไม่มีโครงสร้าง (Unstructured) การเพิ่มของข้อมูลนั้น ไม่สามารถของได้ด้วยความเป็น ตาราง (Table) ที่เก็บข้อมูลเป็นแถว (Row) ได้ ดังนั้นเทคโนโลยีของโครงสร้างพื้นฐานนั้น จะต้องสามารถทำงานกับข้อมูลที่มีความหลากหลายได้ และทำการใช้งาน Application จำนวนมาก ๆ ได้ เพื่อให้เข้าถึงข้อมูลจำนวนหลายๆ Terabytes ได้
ตัวอย่างของเทคโนโลยีของ Infrastructure
- Hadoop – เป็นเทคโนโลยีทั้งหมดของระบบ ที่ออกแบบมา เพื่อจัดเก็บ ประมวลผล และวิเคราะห์ข้อมูล โดยหลักการสำคัญของเทคโนโลยี Hadoop คือ การทำงานบนหลักการของแยกและกระจายข้อมูลเป็นส่วนๆ
- NoSQL – ใช้สำหรับทำงานในการประมวลผลข้อมูลจำนวนมาก ๆ ของข้อมูลที่มีโครงสร้างหลากหลาย โดยฐานข้อมูล NoSQL ส่วนใหญ่นั้นจะทำงานกับข้อมูลที่ไม่ต่อเนื่อง กับข้อมูลที่มีโครงสร้างหลากหลาย และบางตัวยังสามารถทำกงานกับ Hadoop ได้อีกด้วย
- Massively Parallel Processing (MPP) Databases – ฐานข้อมูล MPP ทำกงานกับข้อมูลที่เป็นส่วน ๆ ข้ามโหนดต่าง ๆ และประมวลผลข้อมูลแบบขนาน และใช้ SQL โดย MPP จะทำกงานบนฮาร์ดแวร์ที่ราคาแพง
Analytics/Process
- เทคโนโลยีในส่วนของการวิเคราะห์ข้อมูล โดยจะมีส่วนย่อยของงานในส่วนนี้ดังนี้
- Analytics Platforms – ทำหน้าที่รวบรวมและวิเคราะห์ข้อมูลไปเป็นรายงาน เพื่อช่วยในการตัดสินใจ เน้นเฉพาะเรื่องที่เราสนใจและนำเสนอข้อมูลเชิงลึกเพื่อให้ผู้ใช้ปลายทางสามารถใช้งานได้อย่างทันท่วงทีที่สุด
- Visualization Platform – เพื่อออกแบบนำเสนอในรูปแบบที่ซับซ้อน จากข้อมูลดิบ เพื่ออธิบายข้อมูลได้
- Business Intelligence (BI) Platforms – ใช้การบูรณาการและวิเคราะห์ข้อมูลทางธุรกิจ ซึ่ง BI Platform ใช้วิเคราะห์ข้อมูลจากหลายแหล่ง เพื่อนำส่งบริการ ทั้ง Business Intelligence Report, Dashboard และ Visualization
- Machine Learning - เป็นส่วนของการเรียนรู้จากข้อมูล ความสัมพันธ์ต่าง ๆ ของข้อมูลที่เกิดขึ้น ด้วยตัวเอง เพื่อใช้ในการตอบคำถามต่าง ๆ ในอนาคต
Application
Application เป็นเครื่องมือที่จะช่วยให้ผู้ใช้งาน สามารถวิเคราะห์ Big Data เพื่อให้ได้มาซึ่งข้อมูลเชิงลึก ซึ่งจะมีตัวอย่าง Application ในด้านต่าง ๆ ดังนี้
- ด้านสุขภาพ นั้น Minitabs เป็น Application ที่สรุปของการสแกนสมองแบบ 3 มิติและข้อมูลเกี่ยวกับระบบประสาทที่สามารถเข้าถึงได้โดยนักประสาทวิทยาจากทั่วโลกและช่วยในการวินิจฉัยการพยากรณ์โรคและการรักษาผู้ป่วยโรคสมองเสื่อม
- ด้านค้าปลีก นั้น Avansera สามารถเอาแอพพลิเคชันการช็อปปิ้งบนมือถือที่นำเสนอข้อมูลเชิงลึกสำหรับ บริษัท ผู้ผลิตอาหารเป็นตัวแปรที่มีผลต่อการซื้ออาหารเช่นความภักดีของแบรนด์และความยืดหยุ่นของราคา
- ด้านพลังงาน นั้น AutoGrid ใช้ข้อมูลจากสมาร์ทเมตรระบบการจัดการอาคารตัวควบคุมแรงดันไฟฟ้าและเครื่องควบคุมอุณหภูมิเพื่อช่วยให้ผู้บริโภคติดตามและลดการใช้พลังงานลดของเสียสมดุลระบบกริดปรับปรุงการดำเนินงานของระบบและคาดการณ์การบริโภคในอนาคตได้
เครื่องมือต่าง ๆ ที่เกี่ยวข้องกับ Big Data Ecosystem ที่สามารถศึกษา และ Download ได้
ดูได้ที่ http://bigdata.andreamostosi.name/
Big Data ในมุมมองผู้บริหาร
- การ Capture ข้อมูลที่เกิดขึ้นอาจจะเป็นในรูปแบบ Real-time ย่อมจะทำให้เราได้รับรู้ข้อมูลในมิติต่างๆ ได้ ซึ่งข้อมูลเหล่านี้มีคุณสมบัติที่เป็น Big Data คือมีทั้ง Volume, Variety และ Velocity
- เนื่องจากเทคโนโลยีเกี่ยวกับข้อมูลมีจำนวนมากขึ้น การเลือกใช้เทคโนโลยีเดิม อาจจะไม่เพียงพอที่จะนำเอาข้อมูลที่ได้มาใช้ประโยชน์เพื่อตอบโจทย์ธุรกิจขององค์กรได้ ดังนั้นต้องเลือกใช้เทคโนโลยีให้เหมาะสม
- การนำเอาเทคโนโลยีใหม่ๆ มาวิเคราะห์ Big Data เพื่อให้ทราบพฤติกรรมและความต้องการที่แท้จริงของผู้บริโภค โดยใช้เครื่องมือที่มีประสิทธิภาพ ย่อมทำให้เราสามารถชิงความได้เปรียบในการแข่งขันยิ่งขึ้น
- การส่งบุคลากรมาฝึกอบรม ให้ความรู้ กับบุคลากรในองค์กรให้มีความรู้ความเข้าใจในเรื่อง Big Data, Cloud Computing และ Deep Analytical เพื่อเป็นบุคลากรในการนำข้อมูลมาใช้งานได้อย่างดี จะช่วยให้ข้อมูลที่เก็บมาใช้ได้อย่างดี มีประสิทธิผลมากยิ่งขึ้น
Reference
1. Big Data Technology Ecosystem, Mark Burnette
2. The Big Data Ecosystem is Too Damn Big
3. Dataconomy