ข้อมูลไม่เคยโกหก...แต่ “Correlation Doesn’t Imply Causation”

หลายๆ คนอาจจะคุ้นเคยกับประโยคนี้กันดีอยู่แล้ว ว่าการที่ตัวแปรสองตัวมีความสัมพันธ์กัน (correlation) อาจจะไม่ได้แปลว่ามันเป็นเหตุผลซึ่งกันและกัน (causation) แต่คนก็ยังมักจะสับสนระหว่างสองสิ่งนี้อยู่เสมอ

“คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ … ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

“รูป Instagram ที่แคปชันยาว มักจะได้ไลค์น้อย … เราควรจะเขียนแคปชันให้สั้นลงเพื่อเพิ่ม engagement”

“คนที่ติดตาม Facebook Page เรา มักจะซื้อของจากเราด้วย … ทำอย่างไรให้คนกดไลค์เพจเรามากขึ้นเพื่อเพิ่มยอดขาย”

ดูเผินๆ ข้อสังเกตเหล่านี้ดูเหมือน insights จากข้อมูลที่เป็นประโยชน์ต่อธุรกิจ ทั้งการเพิ่ม retention, engagement, หรือยอดขาย ถ้าคุณอ่านแล้วคล้อยตาม แปลว่าคุณเผลอสรุปว่าเหตุการณ์ที่สัมพันธ์กัน (correlation) เกิดจากการที่เหตุการณ์หนึ่งเป็นเหตุให้เกิดอีกเหตุการณ์หนึ่ง (causation) ไปเรียบร้อยแล้ว!!

Correlation และ Causation

ข้อความข้างต้นทั้งหมด มีโครงสร้างที่คล้ายๆ กันคือ (1) “เมื่อเกิดเหตุการณ์ X มักจะเกิดเหตุการณ์ Y” และ (2) “ทำอย่างไรให้เกิด X เพื่อเพิ่ม Y”

ข้อความในส่วนแรกนั้น เป็นการบอกว่า X กับ Y มีความสัมพันธ์กัน (Correlation) นั่นคือ ถ้าค่า X มากขึ้น ค่า Y ก็มักจะมากขึ้นตามด้วย (ในกรณีของความสัมพันธ์เชิงลบ หรือ Negative Correlation ค่า Y อาจจะลดลงตามค่า X ที่เพิ่มขึ้น) โดยความสัมพันธ์เหล่านี้ เราสามารถบอกได้โดยตรงจากข้อมูล

ในขณะที่ข้อความในส่วนที่สองนั้น เป็นข้อเสนอแนะที่เกิดจากอนุมานว่า X เป็นสาเหตุที่ทำให้เกิด Y (Causation) ถ้าเราสามารถกระตุ้นให้เกิด X ได้ Y ก็จะเกิดขึ้นตามมาด้วย

ตัวอย่างเช่น ข้อสังเกตที่ว่า “คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ” เป็นการระบุความสัมพันธ์ระหว่างการกดปุ่ม (????) กับการกลับมาใช้งาน (✅) ซึ่งอาจจะทำให้เราทึกทักว่า การกดปุ่มเป็นสาเหตุให้ User กลับมาใช้งานแอปของเราเป็นประจำ (????→ ✅) ถ้าไม่กด โอกาสที่ User จะกลับมาก็ลดลง ซึ่งนำไปสู่ข้อเสนอแนะที่ว่า “ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

ข้อสรุปข้างต้นอาจจะจริงหรือเท็จก็ได้ ถ้าเป็นปุ่มธรรมดาๆ ทั่วๆ ไป ก็มีโอกาสสูงว่าเรามโนไปเอง แต่ถ้าเป็นปุ่มที่ก่อให้เกิด interactions อื่นๆ ตามมา เช่น มีเพื่อนมาตอบโต้ หรือได้รับ notification แจ้งเตือน ก็เป็นไปได้ว่าการกดปุ่มจะส่งผลต่อการเปิดแอปอีกครั้งจริง

Causal Relationships

การที่ตัวแปร X และ Y มีความสัมพันธ์กัน (Correlation) อาจเกิดจากความสัมพันธ์เชิงเหตุผล (Causal Relationships) ได้หลายรูปแบบ

1. Direct Causation

กลับมาที่ตัวอย่างตอนต้นของบทความ ข้อเสนอแนะทั้งหมดเกิดจากการอนุมาน Direct Causation (X → Y)

การกดปุ่ม → User กลับมาใช้งาน
แคปชันสั้น → ไลค์เยอะ
ไลค์เพจ → ซื้อของ

Direct Causation

2.Reverse Causation

เมื่อข้อมูลมีความสัมพันธ์กัน เราไม่สามารถบอกได้ว่าเหตุการณ์ไหนเป็นสาเหตุให้เกิดอีกเหตุการณ์หนึ่ง จริงๆ แล้วเหตุผลอาจจะกลับกันกับที่เราคิดก็ได้ (Y → X) เช่น การไลค์เพจอาจจะไม่ได้เป็นสาเหตุที่ทำให้คนมาซื้อของเรา แต่กลับกันการที่คนซื้อของเราอาจจะเป็นสาเหตุให้คนมากดไลค์เพจเราก็เป็นได้ (เพื่อติดตามข่าวสาร หรือเป็นส่วนหนึ่งของ Community ผู้ใช้งาน)

เพื่อให้เห็นภาพชัดขึ้นไปอีก สมมติเราพบว่าเวลาที่ใช้ในการโหลดเว็บไซต์มีความสัมพันธ์กับปริมาณผู้ใช้งาน แน่นอนว่าการที่เว็บเราโหลดช้าลงไม่น่าจะเป็นสาเหตุให้คนมาใช้เว็บเรามากขึ้น แต่ในทางกลับกันการที่คนมาใช้เว็บเรามากขึ้นน่าจะเป็นสาเหตุที่ทำให้เว็บเราช้าลง

Reverse Causation

3. Bidirectional Causation

บางครั้งความสัมพันธ์เชิงเหตุผลอาจจะเกิดขึ้นทั้งสองทิศทาง เช่น การกดปุ่มบ่อย อาจทำให้คนกลับมาใช้แอปเราบ่อยขึ้น (เช่น การไปกดไลค์ ทำให้เราได้ notification ว่ามีคนอื่นมาคอมเมนต์ในโพสต์นั้น) ซึ่งพอคนกลับมาใช้แอป ก็อาจจะส่งผลให้เค้ากดปุ่มนั้นบ่อยขึ้นอีก เกิดเป็น Positive Reinforcement Loop

Bidirectional Causation

4.Correlation without Causation

สุดท้าย การที่ตัวแปรสองตัวมีความสัมพันธ์กัน อาจจะไม่ได้มีความสัมพันธ์เชิงเหตุผลใดๆ เลยก็ได้

สิ่งหนึ่งที่เป็นไปได้ คือ อาจจะมีตัวแปร Z อีกตัว (หรือที่เรียกว่า Lurking Variable) ที่เป็นสาเหตุให้เกิดทั้ง X และ Y โดยที่ X และ Y ไม่ได้เป็นเหตุผลซึ่งกันและกัน ตัวอย่างเช่น ความยาวของแคปชันอาจจะไม่ได้เป็นสาเหตุให้โพสต์ได้ไลค์น้อยลง แต่การที่เป็นโพสต์ขายของ อาจจะส่งผลให้ทั้งได้ไลค์น้อยและแคปชันยาวเพราะต้องอธิบายรายละเอียดสินค้า (และ Hashtags อีกล้านอัน) … แบบนี้

กางเกงขาสั้น ผ้าฝ้าย ใส่สบาย
ราคา: 399
สี: ขาว เทา กรม ดำ
S 28–30″ | M 30–32″ | L 32–34″
#กางเกงขาสั้น #เสื้อผ้า #แฟชั่น #คุณภาพดี #ขาย #ส่ง #ราคาถูก #พร้อมส่ง

Lurking Variable

หรืออีกตัวอย่างคลาสสิก คือ อัตราการเกิดอาชญากรรมมีความสัมพันธ์กับปริมาณการบริโภคไอศครีม แน่นอนว่าทั้งสองอย่างไม่น่าจะเป็นเหตุผลซึ่งกันและกัน สิ่งที่เกิดขึ้นจริงๆ คือ อากาศร้อน เป็นสาเหตุให้คนหงุดหงิดฉุนเฉียวและก่ออาชญากรรมมากขึ้น และในขณะเดียวกันก็ส่งผลให้คนบริโภคไอศครีมมากขึ้นด้วย

นอกจากนี้บางครั้ง ความสัมพันธ์ของข้อมูลก็อาจจะเป็นเพียงแค่เรื่องบังเอิญ แบบในตัวอย่างด้านล่างนี้ — การลงทุนในวิทยาศาสตร์ อวกาศ และเทคโนโลยีของสหรัฐอเมริกามีความสัมพันธ์กับจำนวนการฆ่าตัวตายโดยการแขวนคอ รัดคอ และขาดอากาศหายใจ โดยมีค่า Correlation สูงถึง 99.79%

US Spending on science, space, and technology correlates with Suicides by handing, strangulation and suffocation

http://www.tylervigen.com/spurious-correlations

ยิ่งในยุคที่เรามีข้อมูลอยู่เป็นจำนวนมหาศาล โอกาสที่จะเจอความสัมพันธ์ปลอมๆ แบบนี้ (Spurious correlations) ก็ยิ่งมากขึ้นเรื่อยๆ

This is the tragedy of big data: The more variables, the more correlations that can show significance. https://www.wired.com/2013/02/big-data-means-big-errors-people/

แล้วจะบอกได้อย่างไรว่าอะไรเป็นเหตุเป็นผลกัน

วิธีหนึ่งที่จะบอกได้ว่าอะไรเป็นเหตุเป็นผลกัน คือการทดลองแบบสุ่มและมีกลุ่มควบคุม (Randomized Controlled Trial) หรือที่มนุษย์เทคโนโลยีเรียกกันว่า A/B Testing เช่น การจะบอกได้ว่าการกดปุ่มส่งผลต่อการกลับมาใช้งานแอปหรือไม่ เราจะต้องทำการทดลองโดยการสุ่มแบ่งผู้ใช้งานเป็นสองกลุ่ม กลุ่มหนึ่งควบคุมให้ไม่เห็นปุ่ม และอีกกลุ่มหนึ่งให้เห็นปุ่ม เพื่อเปรียบเทียบผลว่าอัตราการกลับมาใช้แอปของทั้งสองกลุ่มมีความแตกต่างกันหรือไม่

รายละเอียดของการทำ A/B Testing เดี๋ยวจะมาเล่าให้ฟังต่อในตอนหน้านะคร้าบ

Ta Virot Chiraphadhanakul

Google Developer Expert in Machine Learning. A data nerd. A design geek. A changemaker. — Chula Intania 87, MIT Alum, Ex-Facebooker | Managing Director at Skooldio | Instructor for many online courses such as Exploratory Data Analysis with Google Sheets, SQL for Data Analytics, Advanced SQL for Data Analytics with BigQuery, Hands-On Power BI, Dashboard Design Principles and Agile Essentials on skooldio.com