Exploratory Data Analysis คืออะไร?

พูดกันจังว่า ‘บริษัทเราจะต้อง Data-Driven’ แต่มีคนวิเคราะห์ Data เป็นจริงๆ กี่คน?

หลายคนคงเคยเจอหัวหน้าขอให้นำ Data ไปใช้ทำแคมเปญเจ๋งๆ ออกฟีเจอร์ใหม่ๆ หรือขอให้วิเคราะห์ข้อมูลเพื่อดูเทรนด์ต่างๆ 

ที่จริงแล้วการนำข้อมูลไปใช้ไม่ใช่เรื่องยาก สิ่งที่ยากคือ จะเริ่มยังไง? ในบทความนี้ เราจึงอยากแนะนำให้ทุกคนรู้จักกระบวนการวิเคราะห์ข้อมูลที่เรียกว่า Exploratory Data Analysis เพื่อเริ่มวิเคราะห์ข้อมูลกันอย่างถูกต้อง และง่ายดาย

Exploratory Data Analysis คืออะไร?

Exploratory Data Analysis หรือ EDA คือกระบวนการตรวจสอบ สำรวจข้อมูลเบื้องต้น เพื่อตั้งสมมติฐานให้ได้ว่า เราสนใจอยากจะเปรียบเทียบตัวเลขอะไร เปรียบเทียบไปทำไม และอะไรบ้างที่ควรจะถูกนำมาเปรียบเทียบ? ก่อนนำไปทดสอบสมมติฐาน วิเคราะห์ข้อมูลอย่างละเอียด หรือสร้างแบบจำลองทางสถิติ (Statistical Modeling) ต่อไป

ประโยชน์ของการทำ EDA

  • ช่วยให้เราสร้างความรู้ความเข้าใจพื้นฐานเกี่ยวกับข้อมูลนั้นๆ
  • ตรวจสอบสมมติฐานเบื้องต้น ตรวจความผิดพลาดของชุดข้อมูลได้
  • ทำให้เราเห็น Outlier หรือค่าที่โดดออกมาจากค่าปกติ เพื่อป้องกันความผิดเพี้ยนตอนนำข้อมูลไปคำนวณ
  • เข้าใจข้อมูล มองเห็น Trends, Patterns หรือ Insights ต่างๆ เพื่อนำไป Take Action หรือต่อยอดธุรกิจได้เร็ว

Exploratory Data Analysis เป็นกระบวนการวิเคราะห์ข้อมูลที่ให้ความสำคัญกับการสำรวจข้อมูล

ส่วนใหญ่เวลาเราได้ชุดข้อมูลมา เราอาจจะยังไม่รู้ว่าข้อมูลเหล่านี้มีความสัมพันธ์กันอย่างไร ต้องตั้งคำถามแบบไหน มีอะไรที่น่าสนใจบ้าง

แต่ถ้าเราค่อยๆ สำรวจข้อมูล ค่อยๆ เจอสิ่งที่น่าสนใจ แล้วตั้งสมมติฐาน ทำการวิเคราะห์เจาะลึกลงไป เราก็จะได้สิ่งที่น่าสนใจจากข้อมูลออกมา ดังนั้น Exploratory Data Analysis หรือ EDA จึงเป็นกระบวนการที่คนนิยมนำมาใช้ เมื่อต้องเริ่มต้นวิเคราะห์ข้อมูลดิบ ที่ยังไม่มีสมมติฐานใดๆ

กระบวนการ EDA เริ่มตั้งแต่

1. เริ่มจากการทำ Data Transformation

ข้อมูลดิบก็เหมือนน้ำมันดิบ ถึงจะมีค่ามาก แต่ถ้ายังไม่ได้ถูกนำมาแปลงและวิเคราะห์อย่างเหมาะสม ก็แทบจะไม่มีค่าเลย การที่เราจะนำข้อมูลไปวิเคราะห์หรือสร้างแบบจำลองทางสถิติต่อได้ง่าย ต้องผ่านการเตรียมข้อมูล หรือ Data Cleansing ให้พร้อมก่อน โดยขั้นตอนการทำความสะอาดข้อมูลนี้ถือเป็นขั้นตอนที่ต้องใช้เวลามาก และสำคัญที่สุด

ตัวอย่างการเตรียมข้อมูลเช่น

  • Remove extra white spaces คือการลบ space ในข้อมูลที่เกินมา
  • Normalize values หรือการทำให้ค่าทั้งหมดอยู่ในมาตราฐานเดียวกัน
  • Pre-process text ตัดแต่งข้อความ (text) บางส่วนที่ต้องการใช้ ออกมาจากข้อความยาวๆ 
  • การเปลี่ยน Common Data types ให้เหมาะสม
  • Handle missing values จัดการกับแถวที่มีข้อมูลหายไป ด้วยการลบหรือเติมค่าลงไปให้เหมาะสม

โดยองค์ประกอบหลักของข้อมูลที่สะอาด พร้อมใช้งาน มีดังนี้

  • แต่ละตัวแปร (variable) ควรมีคอลัมน์ (column) ของตัวเอง 
  • ข้อมูลแต่ละ Data point หรือข้อสังเกต (Observation) ควรอยู่ในแถวเดียวกัน
  • ข้อมูลแต่ละค่า (value) ต้องอยู่ในช่องของตัวเอง (cell) ไม่ควร Merge cell

2. ต่อด้วยการวิเคราะห์ข้อมูล หรือ Data Analysis

เมื่อเราเตรียมข้อมูลพร้อมแล้ว เราต้องวิเคราะห์เพื่อหา Insight มาต่อยอด ไม่ว่าจะเป็น

  • ความสัมพันธ์ต่างๆ ของตัวแปร
  • Patterns ที่ปรากฏ
  • การคำนวณค่าสถิติต่างๆ

โดยเราสามารถวิเคราะห์ข้อมูลได้หลายวิธี ไม่ว่าจะผ่านโปรแกรมพื้นฐานอย่าง Microsoft Excel หรือ Google Sheets ไปจนถึงการเขียนภาษาโปรแกรมต่างๆ เช่น SQL, R หรือ Python ขึ้นอยู่กับความถนัด และความชอบของแต่ละคน หรือความยาก-ง่าย ของการวิเคราะห์ข้อมูลที่เราต้องการทำ

3. Data Visualization แสดงข้อมูลให้เข้าใจง่ายๆ

สุดท้ายแล้ว เมื่อเราวิเคราะห์ข้อมูลออกมาได้ สิ่งสำคัญคือการสื่อสารออกไปให้คนอื่นในทีมเห็นเป็นภาพเดียวกัน การทำ Data Visualization คือการสร้างกราฟ หรือ Chart ต่างๆ เพื่อให้เราเข้าใจ insights ได้ง่ายขึ้น จากการแปลงข้อมูลให้เป็นภาพ มองปราดเดียวแล้วเข้าใจง่ายทันที

ซึ่งเครื่องมือที่จะช่วยให้คุณเริ่มต้นทำ Data Visualization ได้เองง่ายๆ มีมากมายในปัจจุบัน หรือใช้เครื่องมือยอดนิยมอย่าง Microsoft Excel หรือ Google Sheets ก็ทำกราฟออกมาสื่อสารได้ไม่ยาก 

และนี่ก็คือ 3 ขั้นตอนง่ายๆ ของการทำ Exploratory Data Analysis ที่ทุกคนสามารถเริ่มต้นวิเคราะห์ข้อมูลได้ด้วยตัวเอง ส่วนใครที่ยังไม่รู้ว่าจะนำข้อมูลมาจากไหน เก็บข้อมูลอย่างไร อ่านเพิ่มเติมได้ที่ 3 สิ่งที่ต้องรู้! ช่วยธุรกิจดีขึ้น ด้วยข้อมูลรอบตัว

สำหรับคนที่ยังไม่เคยใช้ Google Sheets หรือ Microsoft Excel ในการวิเคราะห์ข้อมูล อาจจะลองเริ่มนำขั้นตอนเหล่านี้ไปปรับใช้ เพื่อเรียนรู้สูตรและฟังก์ชันต่างๆ ในการจัดการข้อมูล 

แล้วคุณเองก็จะกลายเป็นคนที่ Data-Driven สุดเจ๋งในองค์กร ที่ใครๆ ก็จับตามอง


หากคุณสนใจเริ่มทำ Data Analysis ล่ะก็  Skooldio มีคอร์สออนไลน์ที่จะช่วยให้คุณได้เริ่มต้นทำ Data Analysis จาก Google Sheets – โปรแกรม spreadsheets ที่ทำได้ในเว็บเบราว์เซอร์ – ทำตามง่าย ไม่ต้องมีพื้นฐานก็เรียนได้ สมัครวันนี้ลดทันที 500 บาท เพียงกรอกโค้ด EDASHEETS500 ข้อมูลเพิ่มเติมที่นี่