Data

ข้อมูลที่เรามีนี่มัน Big Data รึเปล่านะ?

เห็นคนนั้นก็ Big Data คนนี้ก็ Big Data แล้ว Data ของฉันมัน Big กะเขาบ้างหรือยัง?”

พอพูดถึง Big Data หลายๆคนก็คงจะนึกถึงปัจจัยสามอย่าง (3V) ที่ถูกสอนตามๆกันมาว่านี่แหละ ที่ทำให้ข้อมูลมันบิ๊กนัก

  1. Volume ปริมาณข้อมูลที่ต้องเก็บ เช่น อยากรู้ว่าคนเข้ามาดูเว็บเราทำอะไรบ้าง จึงเก็บบันทึกกิจกรรมที่ผู้ใช้แต่ละคนทำไว้หมด ยิ่งเก็บละเอียดมากเราก็มีข้อมูลไปวิเคราะห์มาก แต่ก็กินที่เก็บมากขึ้น แล้วจะเก็บข้อมูลย้อนหลังกี่วัน ถ้าเก็บไม่กี่วันทิ้งบ่อยๆก็ไม่ใหญ่เท่าไหร่ ถ้าเก็บนานก็กินที่เยอะหน่อย
  2. Variety ความหลากหลาย เช่น นอกจากตัวหนังสือล้วนๆแล้ว อาจจะมีรูปภาพ วีดีโอ เสียง ฯลฯ
  3. Velocity ความถี่ในการเก็บข้อมูล เช่น พวกข้อมูล sensor จากดาวเทียมที่ส่งมารัวๆก็ทำให้เก็บข้อมูลแป๊บเดียวก็ใหญ่มาก

แล้ว V เท่าไหร่ถึงจะบิ๊กล่ะ? เออ นั่นสินะ… 🤔

Big Data ที่เขาว่ากัน…

ในทางปฏิบัติ Big Data มักหมายถึงข้อมูลที่ใหญ่จนจำเป็น (ขอย้ำว่าจำเป็น) ต้องใช้เทคโนโลยีที่ออกแบบมาพิเศษเพื่อการประมวลผลข้อมูลขนาดใหญ่ (เช่น MapReduce) ตัวซอฟท์แวร์ยอดฮิตที่ใช้กันแพร่หลายก็คือ Apache Hadoop หลังๆมานี้ก็มี Apache Spark อีกตัว

ซึ่ง Hadoop หรือ Spark นั้นทำอะไรได้น้อยกว่าบรรดา พวกเทคโนโลยีดั้งเดิม (สำหรับ “small data”) แต่มีจุดแข็งอยู่ข้อเดียวคือจัดการกับข้อมูลได้ปริมาณเยอะกว่า (เน้นถึกครับ 🐃) ถ้ามีทางเลือกอื่น ก็ไม่ใช้ดีกว่า

เอาเข้าจริงในช่วงหลายๆปีที่ผ่านมา การถามว่าบริษัทใช้ Big Data รึเปล่าก็เหมือนถามว่า บริษัทใช้ Hadoop รึเปล่าล่ะ แค่นั้นแหละ ทีนี้ก็เลยมีบางองค์กรอยากใช้ Hadoop เพื่อจะได้ Big Data กะเขาบ้าง ทั้งที่ข้อมูลไม่ได้ใหญ่โตอะไร 🤦

ดังนั้น Big Data ของจริงก็อาจจะต้องวัดจากว่า จำเป็นต้องใช้ Hadoop จริงๆรึเปล่านะ

เมื่อไหร่ถึงต้องใช้ Hadoop จริงๆ?

ข้อมูลขนาด 600 MB ใหญ่พอมั้ย?

เสียใจด้วยครับ คุณสามารถจัดการทุกอย่างได้ในคอมเครื่องเดียว ไม่ต้องถึงมือ Hadoop หรอก ใช้ Python, R, Matlab ได้สบาย เช่น สั่งคำสั่ง panda.read_csv ก็อ่านไฟล์เข้าไปอยู่ในหน่วยความจำของเครื่อง (RAM) หมดแล้ว

บางคนอาจเถียงว่า “แต่ว่า Excel โหลดไม่ได้นะ!” เสียใจด้วยครับ Excel นั้นดีสำหรับทำอะไรหลายๆอย่าง แต่ไม่ใช่สำหรับไฟล์ใหญ่ๆ แค่นั้นเอง 🐼

แล้วถ้าข้อมูลเพิ่มเป็น 10 GB?

เสียใจด้วยครับ เครื่องทั่วๆไปอาจมี RAM ไม่เกิน 4 GB ฟังดูเหมือน 10 GB คงใส่ไม่พอสินะ บังเอิญว่า RAM 16 GB ก็ไม่ได้แพงมากนะครับ ไปซื้อมาเปลี่ยนเลย ไฟล์แค่ 10 GB เอาใส่แรมยังเหลือที่ใส่อย่างอื่นเยอะแยะตั้ง 6 GB ประหยัดเงินและแรงงานกว่าตั้ง Hadoop cluster แน่นอน 💸

แล้วข้อมูลขนาด 100 GB / 500 GB / 1 TB ล่ะ?

เกือบมีลุ้น แต่ก็ยังคงเสียใจด้วยครับ ข้อมูลขนาดนี้เริ่มยากขึ้นนิดนึงเพราะว่าคงยัดใส่ RAM ไม่ได้แล้ว ก่อนอื่นก็ต้องให้คอมเก็บข้อมูลทั้งหมดได้ก่อน ซื้อ Hard disk 2 TB หรือ 4 TB มาเสียบสบายๆ หลังจากนั้นก็ลง Database เช่น MySQL หรือ Postgres ครับ ทีนี้ก็สามารถใช้ SQL ได้แล้ว

ความสามารถในการวิเคราะห์ข้อมูลด้วย Python, R, Matlab หรือ SQL นี่สะดวกและรวดเร็วกว่า Hadoop อยู่มากทีเดียว 🚀

ยังไม่ยอมแพ้ ถ้าข้อมูล 5 TB หรือมากกว่าล่ะ?

โอเค ยินดีด้วยครับ 🎉 ยินดีต้อนรับสู่ Hadoop แทนที่จะทำทุกอย่างได้เร็วๆง่ายๆบนเครื่องเดียว คุณต้องเอาข้อมูลไปเก็บไกลๆในเครื่องหลายๆเครื่อง จะทำอะไรก็ขั้นตอนมากขึ้น แถมได้ฝึกความอดทนเป็นของแถม เพราะทุกอย่างจะช้าไปหมด 🐢

Big แล้วนะ ดีใจหรือยัง… 😂

ส่งท้าย

สุดท้ายผู้เขียนก็อยากจะเรียนว่า เรียกว่า Big หรือไม่มันอาจไม่ได้สำคัญขนาดนั้น ก็พอเข้าใจได้ว่าอยากจะใช้ buzzword กับเขาบ้าง บางครั้งก็แอบยิ้มเล็กๆ เวลาเห็นพาดหัวข่าวใช้ Big Data ทำนู่นทำนี่ แล้วพออ่านเนื้อข่าวจริงๆนี่ข้อมูลอยู่ใน Excel นี่นา ก็เอาเป็นว่าข้อมูลจะเล็กหรือใหญ่สำคัญว่าเอาไปทำประโยชน์ได้ก็แล้วกันครับ 👍

เอกสารอ้างอิง

เนื้อหาบางส่วนแปลและดัดแปลงมาจากบทความนี้ครับ

“Don’t use Hadoop — your data isn’t that big” https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

You may also like

Web Scraping คืออะไร?
Data

Web Scraping คืออะไร? ไม่เก่งเขียน Code สามารถทำได้ไหม?

ในปัจจุบันที่โลกก้าวสู่ยุค Digital และมีความเติบโตของจำนวนผู้ใช้อินเตอร์เน็ตจำนวนมาก ไม่ว่าจะเป็น การค้นหาข้อมูลข่าวสาร, ซื้อขายสินค้า หรือเป็นแหล่งชุมชน Community และอื่นๆ อีกมากมายอยู่บนเว็บไซต์ กลายเป็นแหล่งข้อมูล (Data Source) ชั้นดี สำหรับธุรกิจต่างๆ ...
แนะนำเครื่องมือดึงข้อมูลฟรี Webscraper.io
Data

แนะนำเครื่องมือดึงข้อมูลจากเว็บไซต์ฟรี !! WebScraper.io

ปัจจุบัน ‘เว็บไซต์’ ถือว่าเป็นแหล่งข้อมูลชั้นดี (Data source) และมีบทบาทความสำคัญในการขับเคลื่อนธุรกิจทุกระดับไม่ว่าจะเป็นธุรกิจขนาดเล็กหรือขนาดใหญ่ แต่การดึงข้อมูลบนเว็บไซต์ (Web Scraping) อาจจะฟังดูเป็นเรื่องไกลตัวสำหรับผู้ที่ไม่ใช่โปรแกรมเมอร์ที่สามารถเขียนโค้ดโปรแกรมดึงข้อมูลออกมาใช้งานได้ 😎 จะดีกว่ามั้ย!? ถ้าคุณสามารถใช้เครื่องมือดึงข้อมูลที่สนใจบนเว็บไซต์ได้ด้วยตัวเอง ถึงแม้ว่าคุณอาจจะเขียนโปรแกรมไม่เก่งก็สามารถทำได้ ฟรี ...

More in:Data

Data

Apache Airflow คืออะไร แล้วทำไมองค์กรชั้นนำส่วนใหญ่ถึงเลือกใช้

Apache Airflow คือ 1 ใน Workflow Management ที่ได้รับความนิยม และองค์กรชั้นนำระดับโลกหลายๆ องค์กรเลือกใช้ โดยเฉพาะอย่างยิ่งในการสร้าง Data Pipelines เพื่อจัดการกับข้อมูลจำนวนมหาศาล ส่วนหนึ่งเพราะองค์กรต่าง ...
Performance Marketing คืออะไร Business

Performance Marketing คืออะไร? รู้จักวิธีการทำการตลาดแบบวัดผลได้

ถ้าให้คุณจ่ายเงินเกินสิ่งที่ได้รับ หรือจ่ายไปโดยไม่รู้ด้วยซ้ำว่าได้ผลหรือเปล่า คุณจะยอมไหม? แน่นอนว่าคุณคงไม่แฮปปี้ แต่นี่แหละคือ ‘วิธีทำการตลาด’ ที่หลาย ๆ บริษัทกำลังทำอยู่ แล้วจะดีแค่ไหน หากเราสามารถเลือกใช้เงินเฉพาะกับผลลัพธ์ที่เราได้รับเท่านั้น ซึ่งทั้งหมดนี้คืองาน Performance Marketing การทำธุรกิจเปลี่ยนไปอย่างรวดเร็วตั้งแต่อินเตอร์เน็ตเข้ามามีบทบาทกับพฤติกรรมของมนุษย์ ...
data-driven-with-moneyball-theory Data

MoneyBall Theory ถอดบทเรียนชัยชนะแห่งศตวรรษด้วย Data

สำหรับใครหลายๆ คนมักจะคิดว่าการใช้ Data นั้นจะถูกจำกัดไว้อยู่เพียงแค่กับการทำธุรกิจ หรือการทำวิจัยเท่านั้น แต่ความเป็นจริงแล้วข้อมูลสามารถใช้ในการวิเคราะห์ได้หลากหลายสิ่งมากๆ และอยู่ได้ในแทบทุกวงการ แม้กระทั่งกับวงการกีฬาเองที่การวิเคราะห์ข้อมูล และใช้ Data ก็สามารถทำให้ทีมได้ชัยชนะได้ไม่ยาก ย้อนกลับไปในช่วงก่อนปี 2002 วงการเบสบอลในสหรัฐอเมริกาจะมีแมวมองไปดูตามโรงเรียนมัธยมต่าง ๆ ...
Data

สร้าง Profile สาย Data ยังไงดี เมื่อบริษัทไม่ได้มองหาแค่คนมีสกิล?

อยากทำงานสายงาน Data Analyst แต่ไม่มีประสบการณ์ จะเก็บโปรไฟล์ยังไงดี? หลายคนที่กำลังเรียน หรือกำลังสนใจจะเรียน Data Analytics อาจมีความกังวล เพราะแม้เราจะมีสกิลครบตามตำแหน่งงาน (SQL, Spreadsheets, Business Intelligence ...

Comments are closed.