ข้อมูลไม่เคยโกหก...แต่ “Correlation Doesn’t Imply Causation”

หลายๆ คนอาจจะคุ้นเคยกับประโยคนี้กันดีอยู่แล้ว ว่าการที่ตัวแปรสองตัวมีความสัมพันธ์กัน (correlation) อาจจะไม่ได้แปลว่ามันเป็นเหตุผลซึ่งกันและกัน (causation) แต่คนก็ยังมักจะสับสนระหว่างสองสิ่งนี้อยู่เสมอ

“คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ … ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

“รูป Instagram ที่แคปชันยาว มักจะได้ไลค์น้อย … เราควรจะเขียนแคปชันให้สั้นลงเพื่อเพิ่ม engagement”

“คนที่ติดตาม Facebook Page เรา มักจะซื้อของจากเราด้วย … ทำอย่างไรให้คนกดไลค์เพจเรามากขึ้นเพื่อเพิ่มยอดขาย”

ดูเผินๆ ข้อสังเกตเหล่านี้ดูเหมือน insights จากข้อมูลที่เป็นประโยชน์ต่อธุรกิจ ทั้งการเพิ่ม retention, engagement, หรือยอดขาย ถ้าคุณอ่านแล้วคล้อยตาม แปลว่าคุณเผลอสรุปว่าเหตุการณ์ที่สัมพันธ์กัน (correlation) เกิดจากการที่เหตุการณ์หนึ่งเป็นเหตุให้เกิดอีกเหตุการณ์หนึ่ง (causation) ไปเรียบร้อยแล้ว!!

Correlation และ Causation

ข้อความข้างต้นทั้งหมด มีโครงสร้างที่คล้ายๆ กันคือ (1) “เมื่อเกิดเหตุการณ์ X มักจะเกิดเหตุการณ์ Y” และ (2) “ทำอย่างไรให้เกิด X เพื่อเพิ่ม Y”

ข้อความในส่วนแรกนั้น เป็นการบอกว่า X กับ Y มีความสัมพันธ์กัน (Correlation) นั่นคือ ถ้าค่า X มากขึ้น ค่า Y ก็มักจะมากขึ้นตามด้วย (ในกรณีของความสัมพันธ์เชิงลบ หรือ Negative Correlation ค่า Y อาจจะลดลงตามค่า X ที่เพิ่มขึ้น) โดยความสัมพันธ์เหล่านี้ เราสามารถบอกได้โดยตรงจากข้อมูล

ในขณะที่ข้อความในส่วนที่สองนั้น เป็นข้อเสนอแนะที่เกิดจากอนุมานว่า X เป็นสาเหตุที่ทำให้เกิด Y (Causation) ถ้าเราสามารถกระตุ้นให้เกิด X ได้ Y ก็จะเกิดขึ้นตามมาด้วย

ตัวอย่างเช่น ข้อสังเกตที่ว่า “คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ” เป็นการระบุความสัมพันธ์ระหว่างการกดปุ่ม (????) กับการกลับมาใช้งาน (✅) ซึ่งอาจจะทำให้เราทึกทักว่า การกดปุ่มเป็นสาเหตุให้ User กลับมาใช้งานแอปของเราเป็นประจำ (????→ ✅) ถ้าไม่กด โอกาสที่ User จะกลับมาก็ลดลง ซึ่งนำไปสู่ข้อเสนอแนะที่ว่า “ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

ข้อสรุปข้างต้นอาจจะจริงหรือเท็จก็ได้ ถ้าเป็นปุ่มธรรมดาๆ ทั่วๆ ไป ก็มีโอกาสสูงว่าเรามโนไปเอง แต่ถ้าเป็นปุ่มที่ก่อให้เกิด interactions อื่นๆ ตามมา เช่น มีเพื่อนมาตอบโต้ หรือได้รับ notification แจ้งเตือน ก็เป็นไปได้ว่าการกดปุ่มจะส่งผลต่อการเปิดแอปอีกครั้งจริง

Causal Relationships

การที่ตัวแปร X และ Y มีความสัมพันธ์กัน (Correlation) อาจเกิดจากความสัมพันธ์เชิงเหตุผล (Causal Relationships) ได้หลายรูปแบบ

1. Direct Causation

กลับมาที่ตัวอย่างตอนต้นของบทความ ข้อเสนอแนะทั้งหมดเกิดจากการอนุมาน Direct Causation (X → Y)

การกดปุ่ม → User กลับมาใช้งาน
แคปชันสั้น → ไลค์เยอะ
ไลค์เพจ → ซื้อของ

Direct Causation

2.Reverse Causation

เมื่อข้อมูลมีความสัมพันธ์กัน เราไม่สามารถบอกได้ว่าเหตุการณ์ไหนเป็นสาเหตุให้เกิดอีกเหตุการณ์หนึ่ง จริงๆ แล้วเหตุผลอาจจะกลับกันกับที่เราคิดก็ได้ (Y → X) เช่น การไลค์เพจอาจจะไม่ได้เป็นสาเหตุที่ทำให้คนมาซื้อของเรา แต่กลับกันการที่คนซื้อของเราอาจจะเป็นสาเหตุให้คนมากดไลค์เพจเราก็เป็นได้ (เพื่อติดตามข่าวสาร หรือเป็นส่วนหนึ่งของ Community ผู้ใช้งาน)

เพื่อให้เห็นภาพชัดขึ้นไปอีก สมมติเราพบว่าเวลาที่ใช้ในการโหลดเว็บไซต์มีความสัมพันธ์กับปริมาณผู้ใช้งาน แน่นอนว่าการที่เว็บเราโหลดช้าลงไม่น่าจะเป็นสาเหตุให้คนมาใช้เว็บเรามากขึ้น แต่ในทางกลับกันการที่คนมาใช้เว็บเรามากขึ้นน่าจะเป็นสาเหตุที่ทำให้เว็บเราช้าลง

Reverse Causation

3. Bidirectional Causation

บางครั้งความสัมพันธ์เชิงเหตุผลอาจจะเกิดขึ้นทั้งสองทิศทาง เช่น การกดปุ่มบ่อย อาจทำให้คนกลับมาใช้แอปเราบ่อยขึ้น (เช่น การไปกดไลค์ ทำให้เราได้ notification ว่ามีคนอื่นมาคอมเมนต์ในโพสต์นั้น) ซึ่งพอคนกลับมาใช้แอป ก็อาจจะส่งผลให้เค้ากดปุ่มนั้นบ่อยขึ้นอีก เกิดเป็น Positive Reinforcement Loop

Bidirectional Causation

4.Correlation without Causation

สุดท้าย การที่ตัวแปรสองตัวมีความสัมพันธ์กัน อาจจะไม่ได้มีความสัมพันธ์เชิงเหตุผลใดๆ เลยก็ได้

สิ่งหนึ่งที่เป็นไปได้ คือ อาจจะมีตัวแปร Z อีกตัว (หรือที่เรียกว่า Lurking Variable) ที่เป็นสาเหตุให้เกิดทั้ง X และ Y โดยที่ X และ Y ไม่ได้เป็นเหตุผลซึ่งกันและกัน ตัวอย่างเช่น ความยาวของแคปชันอาจจะไม่ได้เป็นสาเหตุให้โพสต์ได้ไลค์น้อยลง แต่การที่เป็นโพสต์ขายของ อาจจะส่งผลให้ทั้งได้ไลค์น้อยและแคปชันยาวเพราะต้องอธิบายรายละเอียดสินค้า (และ Hashtags อีกล้านอัน) … แบบนี้

กางเกงขาสั้น ผ้าฝ้าย ใส่สบาย
ราคา: 399
สี: ขาว เทา กรม ดำ
S 28–30″ | M 30–32″ | L 32–34″
#กางเกงขาสั้น #เสื้อผ้า #แฟชั่น #คุณภาพดี #ขาย #ส่ง #ราคาถูก #พร้อมส่ง

Lurking Variable

หรืออีกตัวอย่างคลาสสิก คือ อัตราการเกิดอาชญากรรมมีความสัมพันธ์กับปริมาณการบริโภคไอศครีม แน่นอนว่าทั้งสองอย่างไม่น่าจะเป็นเหตุผลซึ่งกันและกัน สิ่งที่เกิดขึ้นจริงๆ คือ อากาศร้อน เป็นสาเหตุให้คนหงุดหงิดฉุนเฉียวและก่ออาชญากรรมมากขึ้น และในขณะเดียวกันก็ส่งผลให้คนบริโภคไอศครีมมากขึ้นด้วย

นอกจากนี้บางครั้ง ความสัมพันธ์ของข้อมูลก็อาจจะเป็นเพียงแค่เรื่องบังเอิญ แบบในตัวอย่างด้านล่างนี้ — การลงทุนในวิทยาศาสตร์ อวกาศ และเทคโนโลยีของสหรัฐอเมริกามีความสัมพันธ์กับจำนวนการฆ่าตัวตายโดยการแขวนคอ รัดคอ และขาดอากาศหายใจ โดยมีค่า Correlation สูงถึง 99.79%

US Spending on science, space, and technology correlates with Suicides by handing, strangulation and suffocation

http://www.tylervigen.com/spurious-correlations

ยิ่งในยุคที่เรามีข้อมูลอยู่เป็นจำนวนมหาศาล โอกาสที่จะเจอความสัมพันธ์ปลอมๆ แบบนี้ (Spurious correlations) ก็ยิ่งมากขึ้นเรื่อยๆ

This is the tragedy of big data: The more variables, the more correlations that can show significance. https://www.wired.com/2013/02/big-data-means-big-errors-people/

แล้วจะบอกได้อย่างไรว่าอะไรเป็นเหตุเป็นผลกัน

วิธีหนึ่งที่จะบอกได้ว่าอะไรเป็นเหตุเป็นผลกัน คือการทดลองแบบสุ่มและมีกลุ่มควบคุม (Randomized Controlled Trial) หรือที่มนุษย์เทคโนโลยีเรียกกันว่า A/B Testing เช่น การจะบอกได้ว่าการกดปุ่มส่งผลต่อการกลับมาใช้งานแอปหรือไม่ เราจะต้องทำการทดลองโดยการสุ่มแบ่งผู้ใช้งานเป็นสองกลุ่ม กลุ่มหนึ่งควบคุมให้ไม่เห็นปุ่ม และอีกกลุ่มหนึ่งให้เห็นปุ่ม เพื่อเปรียบเทียบผลว่าอัตราการกลับมาใช้แอปของทั้งสองกลุ่มมีความแตกต่างกันหรือไม่

รายละเอียดของการทำ A/B Testing เดี๋ยวจะมาเล่าให้ฟังต่อในตอนหน้านะคร้าบ

Ta Virot Chiraphadhanakul

Google Developer Expert in Machine Learning. A data nerd. A design geek. A changemaker. — Chula Intania 87, MIT Alum, Ex-Facebooker | Managing Director at Skooldio | Instructor for many online courses such as Exploratory Data Analysis with Google Sheets, SQL for Data Analytics, Advanced SQL for Data Analytics with BigQuery, Hands-On Power BI, Dashboard Design Principles and Agile Essentials on skooldio.com

ข้อมูลไม่เคยโกหก…แต่ “Correlation Doesn’t Imply Causation”

Correlation และ Causation

Causal Relationships

1. Direct Causation

2.Reverse Causation

3. Bidirectional Causation

4.Correlation without Causation

แล้วจะบอกได้อย่างไรว่าอะไรเป็นเหตุเป็นผลกัน

Information Architecture — เรื่องที่ UX Designer ไม่ควรมองข้าม

เวลาไม่เคยพอ…จริงเหรอ? Pomodoro Technique เปลี่ยนชีวิตให้ productive ใน 25 นาที

More in:Data

ลำดับ Presentation ให้เข้าใจง่ายด้วยเทคนิค Consult มืออาชีพกับ The Pyramid Principle

สรุป 10 เทรนด์ ปี 2026 ที่ธุรกิจขายดี จะมีเหมือน ๆ กัน | The Secret Sauce x Skooldio

เรียนรู้ประเภทของกราฟทั้ง 5 รูปแบบ: เส้นทางสู่คนเก่ง Data Storytelling

ทำความรู้จัก Copilot Power BI: เปลี่ยนจากการลาก-วางกราฟแบบเดิมสู่การ “คุยกับข้อมูล”

รวมหลักสูตรมือใหม่สายวิเคราะห์: Data Analytics (Excel) Pack

Most Read

Looker Studio (Data Studio) คืออะไร เจ๋งยังไง ใช้ทำอะไรได้บ้าง

Service Design คืออะไร? ทำความรู้จักเครื่องมือที่จะช่วยออกแบบธุรกิจให้เป็นที่รัก

Product Manager คืออะไร? ตำแหน่งงานสุดฮอตที่เป็นเหมือน Mini-CEO

Data Analyst คือใคร รวมทุกแง่มุมของสายอาชีพ และทักษะที่สำคัญ

10 คลังความรู้และตัวอย่างการออกแบบ UX / UI ไม่มีพื้นฐาน ก็เข้าใจได้!

Correlation และ Causation

Causal Relationships

1. Direct Causation

2.Reverse Causation

3. Bidirectional Causation

4.Correlation without Causation

แล้วจะบอกได้อย่างไรว่าอะไรเป็นเหตุเป็นผลกัน

Share

More in:Data

รวมหลักสูตรมือใหม่สายวิเคราะห์: Data Analytics (Excel) Pack

Most Read

บทความล่าสุด