ข้อมูลที่เรามีนี่มัน Big Data รึเปล่านะ?

เห็นคนนั้นก็ Big Data คนนี้ก็ Big Data แล้ว Data ของฉันมัน Big กะเขาบ้างหรือยัง?” พอพูดถึง Big Data หลายๆคนก็คงจะนึกถึงปัจจัยสามอย่าง (3V) ที่ถูกสอนตามๆกันมาว่านี่แหละ ที่ทำให้ข้อมูลมันบิ๊กนัก Volume ปริมาณข้อมูลที่ต้องเก็บ เช่น อยากรู้ว่าคนเข้ามาดูเว็บเราทำอะไรบ้าง จึงเก็บบันทึกกิจกรรมที่ผู้ใช้แต่ละคนทำไว้หมด ยิ่งเก็บละเอียดมากเราก็มีข้อมูลไปวิเคราะห์มาก แต่ก็กินที่เก็บมากขึ้น…

API คืออะไร? อธิบายแบบคนไม่เขียนโปรแกรมรู้เรื่องได้มั้ย?

server-client-model

ก่อนอื่นต้องทำความเข้าใจก่อนว่าแอพต่างๆหรือหน้าเว็บที่เราเห็นกันทุกวันนี้ การทำงานทุกอย่างไม่ได้อยู่ในแอพ Facebook ที่คุณลงไว้ในมือถือ หรือหน้าเว็บ facebook.com ที่คุณเปิดขึ้นมา

นิทานเรื่อง big data กับหนังสือในห้องสมุด

Child looking at bookshelf

สมศรีเป็นคนชอบอ่านหนังสือ เธอเริ่มสะสมหนังสือทีละเล่มจนเต็มชั้นวาง หนังสือเหล่านี้เธอสามารถหยิบมาเปิดดูเมื่อไหร่ก็ได้ จะบอกว่าเธอเคยอ่านหนังสือทุกเล่มบนนั้นก็ไม่ผิด เมื่อมีใครถามเกี่ยวกับเนื้อหาในหนังสือเหล่านั้น เธอตอบได้แทบจะทันที เพื่อนๆจึงชอบถามสมศรีเมื่อมีคำถาม

ข้อมูลมันสกปรกอะไรขนาดนั้น ทำไมต้องเสียเวลามากมายทำความสะอาด?

cleaning materials

เป็นเรื่องที่รู้กันในวงการ data science ว่าการทำความสะอาดข้อมูลนั้นกินเวลาถึง 70–80% ของการทำงาน นักวิทยาศาสตร์ข้อมูล (data scientist) หลายคนถึงกับบอกว่าตัวเองเป็น data janitor หรือภารโรงข้อมูล ซะมากกว่า

เมื่อไหร่จึงควรใช้แผนภูมิวงกลม (Pie chart)

pie chart

Pie chart (แผนภูมิวงกลม) หรือวงกลมที่แตกเป็นเสี่ยงๆ (เหมือนการแบ่งพายหรือพิซซ่าเป็นชิ้นๆ) นั้นแสดงถึงส่วนประกอบหลายๆส่วนที่รวมกันเป็นหนึ่ง โดยขนาดของแต่ละชิ้นก็เป็นสัดส่วนกับปริมาณของส่วนประกอบนั้น