ทุกคนล้วนพอจะรู้ว่า ประโยคที่ว่า “บริษัทเราจะต้อง Data-Driven” แทบจะเป็นประโยคที่ฮิตมาก ๆ ในปัจจุบันนี้ หลายคนคงเคยได้ฟัง หรือได้เห็น บริษัทที่นำ Data ไปใช้เพื่อสร้างสร้างแคมเปญการตลาดที่ประสบความสำเร็จ หรือบริษัทที่นำ Data มาวิเคราะห์ดูเทรนด์ เพื่อหากลยุทธ์พลิกเกมธุรกิจแย่งชิงส่วนแบ่งตลาดจากคู่แข่ง หรือแม้กระทั่งภาพยนตร์ ที่สร้างขึ้นถึงเรื่องราวที่เกิดขึ้นจริงในวงการกีฬาเบสบอลของประเทศสหรัฐอเมริกา ที่ Data มีส่วนทำให้ทีมมีชัยชนะต่อเนื่องสูงสุดถึง 20 ครั้ง
แต่แล้วพอหันกลับมาดู Data ที่บริษัทตัวเองมี ความตื่นเต้นหรือแรงผลักดันต่าง ๆ ที่จะนำ Data ไปสร้างปาฏิหาริย์ก็ถึงกับต้องหยุดลง พร้อมกับคำถามในหัวที่ตะโกนเสียงอย่างดังว่า
“เอ.. แล้วมันต้องเริ่มยังไงนะ?”
ก่อนอื่นเลย ก่อนที่เราจะเริ่มเข้าสู่ขั้นตอนต่าง ๆ อย่างแรก เราอยากให้คุณทำความรู้จักกับคำว่า Exploratory Data Analysis กันเสียก่อน โดยในบทความนี้เราจะพูดถึงคำนี้แบบย่อ ๆ ว่า EDA ซึ่งถึงแม้คำนี้จะฟังดูยิ่งใหญ่และยากมาก แต่เราเชื่อมั่นว่า หลังจากคุณอ่านบทความนี้จบ คุณจะเข้าใจถึงกระบวนการ EDA และสามารถนำเอาไปปรับใช้ต่อยอดกับ Data ที่มีอยู่ไม่มากก็น้อยได้แน่นอน
แต่ถึงตรงนี้แล้ว ใครที่มั่นใจแล้วว่า ตอนนี้ถ้ารู้วิธีวิเคราะห์ Data ได้ จะทำให้บริษัทเจอทางออกของปัญหาที่เจออยู่แน่ ๆ แต่รู้ตัวว่าไม่ใช่สายอ่านแล้วไปทำเอง แต่เป็นคนสายที่จะเรียนรู้ได้ดีและเข้าใจเร็วกว่า ถ้ามีคนค่อย ๆ อธิบายแล้วทำตาม ทางเราก็มีแพ็กเกจคอร์สออนไลน์ From Analytics to Visualization ที่ได้ ดร. ต้า หรือ ดร. วิโรจน์ จิรพัฒนกุล ผู้ร่วมก่อตั้ง Skooldio และ อดีต Data Scientist ที่ Facebook มานำทีมสอนคุณอย่างละเอียด แบบค่อยเป็นค่อยไปและเข้าใจง่าย นำไปปรับใช้ได้โดยที่คุณไม่ต้องมานั่งงมเองให้เสียเวลา
สำหรับใครที่อยากลุยกันต่อกับบทความนี้ เราไปทำความรู้จัก EDA กันเลยดีกว่า
Table of Contents
Exploratory Data Analysis คืออะไร?
Exploratory Data Analysis หรือ EDA คือกระบวนการตรวจสอบ สำรวจข้อมูลเบื้องต้น เพื่อตั้งสมมติฐานให้ได้ว่า เราสนใจอยากจะเปรียบเทียบตัวเลขอะไร เปรียบเทียบไปทำไม และอะไรบ้างที่ควรจะถูกนำมาเปรียบเทียบ? ก่อนนำไปทดสอบสมมติฐาน วิเคราะห์ข้อมูลอย่างละเอียด หรือสร้างแบบจำลองทางสถิติ (Statistical Modeling) ต่อไป
ประโยชน์ของการทำ EDA
- การทำ EDA จะช่วยให้เราสร้างความรู้ความเข้าใจพื้นฐานเกี่ยวกับข้อมูลนั้น ๆ
- ทำให้เราตรวจสอบสมมติฐานเบื้องต้น ตรวจความผิดพลาดของชุดข้อมูลได้
- ทำให้เราเห็นค่าที่โดดออกมาจากค่าปกติ (Outlier) เพื่อป้องกันความผิดเพี้ยนตอนนำข้อมูลไปวิเคราะห์ หรือคำนวณในภายหลัง
- ทำให้เราเข้าใจข้อมูล มองเห็น Trends, Patterns หรือ Insights ต่างๆ เพื่อนำไป Take Action หรือต่อยอดธุรกิจได้อย่างรวดเร็ว
กล่าวคือ Exploratory Data Analysis เป็นกระบวนการวิเคราะห์ข้อมูลที่ให้ความสำคัญกับการสำรวจข้อมูลนั่นเอง เนื่องจากส่วนใหญ่เวลาเราได้ชุดข้อมูลมา เราอาจจะยังไม่รู้ว่า ข้อมูลเหล่านี้มีความสัมพันธ์กันอย่างไร ? ต้องตั้งคำถามแบบไหน ? มีอะไรที่น่าสนใจบ้าง ?
แต่ถ้าเราค่อยๆ สำรวจข้อมูล เราจะค่อยๆ เจอสิ่งที่น่าสนใจ แล้วเราจะสามารถตั้งสมมติฐาน ทำการวิเคราะห์เจาะลึกลงไปได้ ซึ่งจะนำไปสู่การที่เราก็จะได้สิ่งที่น่าสนใจจากข้อมูลนั้นออกมา
ดังนั้น Exploratory Data Analysis หรือ EDA จึงเป็นกระบวนการที่คนนิยมนำมาใช้ เมื่อต้องเริ่มต้นวิเคราะห์ข้อมูลดิบ ที่ยังไม่มีสมมติฐานใด ๆ นั่นเอง
ตัวอย่างการเอา Exploratory Data Analysis ไปปรับใช้ในการเพิ่มยอดขาย
การวิเคราะห์แนวโน้มข้อมูลขาย
การใช้ EDA เพื่อวิเคราะห์แนวโน้มของยอดขายของผลิตภัณฑ์หรือบริการในระยะเวลาที่แตกต่าง เพื่อพบแนวโน้มที่มีการเปลี่ยนแปลงและช่วยในการวางแผนกิจกรรมทางการตลาดในอนาคตเพื่อเพิ่มยอดขายได้
การวิเคราะห์ข้อมูลแหล่งที่มาของลูกค้า
การใช้ EDA เพื่อวิเคราะห์แหล่งที่มาของลูกค้าที่มีอยู่ ซึ่งอาจมาจากแหล่งต่าง ๆ เช่น การค้นหาผ่านเว็บไซต์, โฆษณา, โซเชียลมีเดีย, อีเมล, หรือแหล่งที่มาทางอื่น ๆ โดยสามารถตรวจสอบว่าแหล่งที่มาใดที่มีผลกระทบที่มากที่สุดต่อการดึงดูดลูกค้า และนำข้อมูลนี้มาปรับแผนการตลาดเพื่อดึงดูดลูกค้าใหม่
Segmentation Analysis
EDA ช่วยในการแบ่งกลุ่มข้อมูลลูกค้าตามลักษณะต่าง ๆ เพื่อเข้าใจลักษณะของกลุ่มลูกค้าที่สนใจผลิตภัณฑ์หรือบริการของคุณ และนำข้อมูลนี้มาวิเคราะห์เพื่อปรับแผนการขายและการตลาดให้เหมาะสมกับกลุ่มเป้าหมายนั้น
กระบวนการ EDA มีอะไรบ้าง ?
กระบวนการ EDA จะแบ่งเป็น 3 ขั้นตอน เริ่มตั้งแต่การจัดเตรียมข้อมูล หรือ Data Transformation, การวิเคราะห์ข้อมูล หรือที่เรียกกันว่า Data Analysis จนไปถึงขั้นตอน Data Visualization หรือการนำข้อมูลไปแสดงผลให้เข้าใจง่าย ๆ
1. Data Transformation
ขั้นตอนที่ 1 หรือ ขั้นตอนการทำ Data Transformation นั้นคือการจัดเตรียมข้อมูลเพื่อให้พร้อมและดูเข้าใจสำหรับการวิเคราะห์ เพราะข้อมูลดิบก็เหมือนน้ำมันดิบ ถึงจะมีค่ามาก แต่ถ้ายังไม่ได้ถูกนำมาแปลงและวิเคราะห์อย่างเหมาะสม ก็แทบจะไม่มีค่าเลย การที่เราจะนำข้อมูลไปวิเคราะห์หรือสร้างแบบจำลองทางสถิติต่อได้ง่าย ต้องผ่านการเตรียมข้อมูล หรือ Data Cleansing ให้พร้อมก่อน โดยขั้นตอนการทำความสะอาดข้อมูลนี้ถือเป็นขั้นตอนที่ต้องใช้เวลามาก แต่เป็นขั้นตอนที่สำคัญที่สุด
ตัวอย่างการเตรียมข้อมูลเช่น
- การลบ space ในข้อมูลที่เกินมา (Remove extra white spaces)
- การทำให้ค่าทั้งหมดอยู่ในมาตราฐานเดียวกัน หรือที่เรียกว่าการ Normalize values
- การตัดแต่งข้อความ (text) บางส่วนที่ต้องการใช้ ออกมาจากข้อความยาวๆ (Pre-process text)
- การเปลี่ยน Common Data types ให้เหมาะสม
- การจัดการกับแถวที่มีข้อมูลหายไป ด้วยการลบหรือเติมค่าลงไปให้เหมาะสม (Handle missing values)
โดยองค์ประกอบหลักของข้อมูลที่สะอาด พร้อมใช้งาน มีดังนี้
- แต่ละตัวแปร (variable) ควรมีคอลัมน์ (column) ของตัวเอง
- ข้อมูลแต่ละ Data point หรือข้อสังเกต (Observation) ควรอยู่ในแถวเดียวกัน
- ข้อมูลแต่ละค่า (value) ต้องอยู่ในช่องของตัวเอง (cell) ไม่ควร Merge cell
2. Data Analysis
ต่อด้วยการวิเคราะห์ข้อมูล หรือ Data Analysis ซึ่งเป็นขั้นตอนที่ 2 ของกระบวนการของเรา โดยเมื่อเราเตรียมข้อมูลพร้อมแล้ว เราต้องวิเคราะห์เพื่อหา Insight มาต่อยอด ไม่ว่าจะเป็น
- ความสัมพันธ์ต่างๆ ของตัวแปร
- Patterns ที่ปรากฏขึ้นมา
- การคำนวณค่าสถิติต่างๆ
โดยเราสามารถวิเคราะห์ข้อมูลได้หลายวิธี ไม่ว่าจะผ่านโปรแกรมพื้นฐานอย่าง Microsoft Excel หรือ Google Sheets ไปจนถึงการเขียนภาษาโปรแกรมต่างๆ เช่น SQL, R หรือ Python ขึ้นอยู่กับความถนัด และความชอบของแต่ละคน หรือความยาก-ง่าย ของการวิเคราะห์ข้อมูลที่เราต้องการทำ
มาถึงตรงนี้ใครกำลังมองหาแบบทดสอบ SQL เพื่อไปวัดผล เช็คทักษะด้าน SQL เราขอแนะนำ แบบทดสอบ SQL โดย Skillscore by Skooldio โดยตัวแบบทดสอบจะครอบคลุมเนื้อหาตั้งแต่ SQL พื้นฐานไปจนถึงการทำ Data Transformation ให้คุณได้ลองฝึกทักษะ วัดผลกันดู โดยใช้เวลาไม่เกิน 20 นาทีเท่านั้นขั้นตอนที่ 3 Data Visualization แสดงข้อมูลให้เข้าใจง่ายๆ
3. Data Visualization
ขั้นตอนที่ 3 หรือ ขั้นตอนสุดท้ายนี้ จะเป็นขั้นตอนของการทำ Data Visualization หรือการนำข้อมูลออกมาแสดงให้ทั้งเราและคนที่เกี่ยวข้องเข้าใจกันได้ง่าย ๆ เพราะก็จะปฏิเสธไม่ได้เลยว่าเมื่อเราวิเคราะห์ข้อมูลออกมาได้แล้วนั้น สิ่งที่สำคัญมาก ๆ ต่อมาก็คือ การสื่อสารออกไปให้คนอื่นในทีมเห็นเป็นภาพเดียวกัน การทำ Data Visualization คือการสร้างกราฟ หรือ Chart ต่าง ๆ เพื่อให้เรานำเสนอข้อมูลในรูปแบบที่เข้าใจ insights ได้ง่ายขึ้น เป็นการแปลงข้อมูลให้เป็นภาพ ที่แค่มองครั้งแรกก็เข้าใจถึงสิ่งที่ต้องการจะสื่ออย่างชัดเจนเลย
ซึ่งเครื่องมือที่จะช่วยให้คุณเริ่มต้นทำ Data Visualization ได้เองง่ายๆ มีมากมายในปัจจุบัน หรือแม้กระทั่งเครื่องมือยอดนิยมอย่าง Microsoft Excel หรือ Google Sheets ก็ทำกราฟ เพื่อนำข้อมูลออกมาสื่อสารได้ไม่ยาก
และนี่ก็คือ 3 ขั้นตอน ของการทำ Exploratory Data Analysis ที่จะทำให้ทุกคนสามารถเริ่มต้นวิเคราะห์ข้อมูลได้ด้วยตัวเอง ส่วนใครที่ยังไม่รู้ว่าจะนำข้อมูลมาจากไหน เก็บข้อมูลอย่างไร ก็สามารถเข้าไปอ่านเพิ่มเติมได้ที่ 3 สิ่งที่ต้องรู้! ช่วยธุรกิจดีขึ้น ด้วยข้อมูลรอบตัว
สำหรับคนที่ยังไม่เคยใช้ Google Sheets หรือ Microsoft Excel ในการวิเคราะห์ข้อมูลมาก่อนเลย อาจจะลองเริ่มนำขั้นตอนเหล่านี้ไปปรับใช้ เพื่อเรียนรู้สูตรและฟังก์ชันต่างๆ ในการจัดการข้อมูล
หรือถ้าใครที่อ่านมาถึงตรงนี้แล้วรู้สึกว่า แม้จะเข้าใจหลักการ หรือ กระบวนการของการทำ Exploratory Data Analysis แล้ว แต่ก็ยังคงนึกภาพไม่ออกอยู่ดีว่าจะไปปรับใช้กับ Data ที่บริษัทอย่างไรดี ทาง Skooldio มีตัวช่วยให้คุณตอนนี้อย่างน้อย 2 ทาง
- ลงทะเบียนเรียนแพ็กเกจคอร์สออนไลน์ From Analytics to Visualization รวมสองคอร์สออนไลน์ที่ตั้งใจออกแบบมาเพื่อพาคุณเริ่มต้นนำ Data มาปรับใช้ในธุรกิจได้จริง ๆ พร้อมตัวอย่างต่าง ๆ ที่ดร. ต้า จะมาเล่าให้คุณฟังในคอร์ส
- ให้ทาง Skooldio พาดร. ต้า วิโรจน์ หรือผู้เชี่ยวชาญท่านอื่น ๆ ไปจัด Workshop ให้กับบริษัท หรือทีมของคุณ อย่างใกล้ชิดเลย ให้คนในองค์กรช่วยกันเรียนรู้ไปพร้อม ๆ กัน ข้อดีคือเมื่อมีข้อสงสัยตรงไหน ก็ถามได้ตรงนั้นเลย เพียงแค่คุณกรอกฟอร์มในหน้านี้ เพื่อให้ทีมงาน Skooldio ติดต่อกลับ
สุดท้ายนี้ เราหวังว่าคุณจะเริ่มมองหาวิธีการนำ Data ที่มีอยู่ไปต่อยอดใช้ประโยชน์ได้ในอนาคตอันใกล้ แล้วคุณอาจจะเป็นคนต่อไปที่นำ Data ไปสร้างปาฏิหาริย์ให้กับทีม