Data

ข้อมูลไม่เคยโกหก…แต่คุณอาจจะ: “Correlation Doesn’t Imply Causation” ท่องไว้ให้ขึ้นใจ

หลายๆ คนอาจจะคุ้นเคยกับประโยคนี้กันดีอยู่แล้ว ว่าการที่ตัวแปรสองตัวมีความสัมพันธ์กัน (correlation) อาจจะไม่ได้แปลว่ามันเป็นเหตุผลซึ่งกันและกัน (causation) แต่คนก็ยังมักจะสับสนระหว่างสองสิ่งนี้อยู่เสมอ

“คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ … ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

“รูป Instagram ที่แคปชันยาว มักจะได้ไลค์น้อย … เราควรจะเขียนแคปชันให้สั้นลงเพื่อเพิ่ม engagement”

“คนที่ติดตาม Facebook Page เรา มักจะซื้อของจากเราด้วย … ทำอย่างไรให้คนกดไลค์เพจเรามากขึ้นเพื่อเพิ่มยอดขาย”

ดูเผินๆ ข้อสังเกตเหล่านี้ดูเหมือน insights จากข้อมูลที่เป็นประโยชน์ต่อธุรกิจ ทั้งการเพิ่ม retention, engagement, หรือยอดขาย ถ้าคุณอ่านแล้วคล้อยตาม แปลว่าคุณเผลอสรุปว่าเหตุการณ์ที่สัมพันธ์กัน (correlation) เกิดจากการที่เหตุการณ์หนึ่งเป็นเหตุให้เกิดอีกเหตุการณ์หนึ่ง (causation) ไปเรียบร้อยแล้ว!!

 

Correlation และ Causation

ข้อความข้างต้นทั้งหมด มีโครงสร้างที่คล้ายๆ กันคือ​ (1) “เมื่อเกิดเหตุการณ์ X มักจะเกิดเหตุการณ์ Y” และ (2) “ทำอย่างไรให้เกิด X เพื่อเพิ่ม Y”

ข้อความในส่วนแรกนั้น เป็นการบอกว่า X กับ Y มีความสัมพันธ์กัน (Correlation) นั่นคือ ถ้าค่า X มากขึ้น ค่า Y ก็มักจะมากขึ้นตามด้วย (ในกรณีของความสัมพันธ์เชิงลบ หรือ Negative Correlation ค่า Y อาจจะลดลงตามค่า X ที่เพิ่มขึ้น) โดยความสัมพันธ์เหล่านี้ เราสามารถบอกได้โดยตรงจากข้อมูล

ในขณะที่ข้อความในส่วนที่สองนั้น เป็นข้อเสนอแนะที่เกิดจากอนุมานว่า X เป็นสาเหตุที่ทำให้เกิด Y (Causation) ถ้าเราสามารถกระตุ้นให้เกิด X ได้ Y ก็จะเกิดขึ้นตามมาด้วย

ตัวอย่างเช่น ข้อสังเกตที่ว่า “คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ” เป็นการระบุความสัมพันธ์ระหว่างการกดปุ่ม (????) กับการกลับมาใช้งาน (✅) ซึ่งอาจจะทำให้เราทึกทักว่า การกดปุ่มเป็นสาเหตุให้ User กลับมาใช้งานแอปของเราเป็นประจำ (????→ ✅) ถ้าไม่กด โอกาสที่ User จะกลับมาก็ลดลง ซึ่งนำไปสู่ข้อเสนอแนะที่ว่า “ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

ข้อสรุปข้างต้นอาจจะจริงหรือเท็จก็ได้ ถ้าเป็นปุ่มธรรมดาๆ ทั่วๆ ไป ก็มีโอกาสสูงว่าเรามโนไปเอง แต่ถ้าเป็นปุ่มที่ก่อให้เกิด interactions อื่นๆ ตามมา เช่น มีเพื่อนมาตอบโต้ หรือได้รับ notification แจ้งเตือน ก็เป็นไปได้ว่าการกดปุ่มจะส่งผลต่อการเปิดแอปอีกครั้งจริง

Causal Relationships

การที่ตัวแปร X และ Y มีความสัมพันธ์กัน (Correlation) อาจเกิดจากความสัมพันธ์เชิงเหตุผล (Causal Relationships) ได้หลายรูปแบบ

1. Direct Causation

กลับมาที่ตัวอย่างตอนต้นของบทความ ข้อเสนอแนะทั้งหมดเกิดจากการอนุมาน Direct Causation (X → Y)

  • การกดปุ่ม → User กลับมาใช้งาน
  • แคปชันสั้น → ไลค์เยอะ
  • ไลค์เพจ → ซื้อของ

Direct Causation

2.Reverse Causation

เมื่อข้อมูลมีความสัมพันธ์กัน เราไม่สามารถบอกได้ว่าเหตุการณ์ไหนเป็นสาเหตุให้เกิดอีกเหตุการณ์หนึ่ง จริงๆ แล้วเหตุผลอาจจะกลับกันกับที่เราคิดก็ได้ (Y → X) เช่น การไลค์เพจอาจจะไม่ได้เป็นสาเหตุที่ทำให้คนมาซื้อของเรา แต่กลับกันการที่คนซื้อของเราอาจจะเป็นสาเหตุให้คนมากดไลค์เพจเราก็เป็นได้ (เพื่อติดตามข่าวสาร หรือเป็นส่วนหนึ่งของ Community ผู้ใช้งาน)

เพื่อให้เห็นภาพชัดขึ้นไปอีก สมมติเราพบว่าเวลาที่ใช้ในการโหลดเว็บไซต์มีความสัมพันธ์กับปริมาณผู้ใช้งาน แน่นอนว่าการที่เว็บเราโหลดช้าลงไม่น่าจะเป็นสาเหตุให้คนมาใช้เว็บเรามากขึ้น แต่ในทางกลับกันการที่คนมาใช้เว็บเรามากขึ้นน่าจะเป็นสาเหตุที่ทำให้เว็บเราช้าลง

Reverse Causation

3. Bidirectional Causation

บางครั้งความสัมพันธ์เชิงเหตุผลอาจจะเกิดขึ้นทั้งสองทิศทาง เช่น การกดปุ่มบ่อย อาจทำให้คนกลับมาใช้แอปเราบ่อยขึ้น (เช่น การไปกดไลค์ ทำให้เราได้ notification ว่ามีคนอื่นมาคอมเมนต์ในโพสต์นั้น) ซึ่งพอคนกลับมาใช้แอป ก็อาจจะส่งผลให้เค้ากดปุ่มนั้นบ่อยขึ้นอีก เกิดเป็น Positive Reinforcement Loop

Bidirectional Causation

4.Correlation without Causation

สุดท้าย การที่ตัวแปรสองตัวมีความสัมพันธ์กัน อาจจะไม่ได้มีความสัมพันธ์เชิงเหตุผลใดๆ เลยก็ได้

สิ่งหนึ่งที่เป็นไปได้ คือ อาจจะมีตัวแปร Z อีกตัว (หรือที่เรียกว่า Lurking Variable) ที่เป็นสาเหตุให้เกิดทั้ง X และ Y โดยที่ X และ Y ไม่ได้เป็นเหตุผลซึ่งกันและกัน ตัวอย่างเช่น ความยาวของแคปชันอาจจะไม่ได้เป็นสาเหตุให้โพสต์ได้ไลค์น้อยลง แต่การที่เป็นโพสต์ขายของ อาจจะส่งผลให้ทั้งได้ไลค์น้อยและแคปชันยาวเพราะต้องอธิบายรายละเอียดสินค้า (และ Hashtags อีกล้านอัน) … แบบนี้

กางเกงขาสั้น ผ้าฝ้าย ใส่สบาย
ราคา: 399
สี: ขาว เทา กรม ดำ
S 28–30″ | M 30–32″ | L 32–34″
#กางเกงขาสั้น #เสื้อผ้า #แฟชั่น #คุณภาพดี #ขาย #ส่ง #ราคาถูก #พร้อมส่ง

Lurking Variable

หรืออีกตัวอย่างคลาสสิก คือ อัตราการเกิดอาชญากรรมมีความสัมพันธ์กับปริมาณการบริโภคไอศครีม แน่นอนว่าทั้งสองอย่างไม่น่าจะเป็นเหตุผลซึ่งกันและกัน สิ่งที่เกิดขึ้นจริงๆ คือ อากาศร้อน เป็นสาเหตุให้คนหงุดหงิดฉุนเฉียวและก่ออาชญากรรมมากขึ้น และในขณะเดียวกันก็ส่งผลให้คนบริโภคไอศครีมมากขึ้นด้วย

นอกจากนี้บางครั้ง ความสัมพันธ์ของข้อมูลก็อาจจะเป็นเพียงแค่เรื่องบังเอิญ แบบในตัวอย่างด้านล่างนี้ — การลงทุนในวิทยาศาสตร์ อวกาศ และเทคโนโลยีของสหรัฐอเมริกามีความสัมพันธ์กับจำนวนการฆ่าตัวตายโดยการแขวนคอ รัดคอ และขาดอากาศหายใจ โดยมีค่า Correlation สูงถึง 99.79%

ยิ่งในยุคที่เรามีข้อมูลอยู่เป็นจำนวนมหาศาล โอกาสที่จะเจอความสัมพันธ์ปลอมๆ แบบนี้ (Spurious correlations) ก็ยิ่งมากขึ้นเรื่อยๆ

 

Spurious Crrelations

This is the tragedy of big data: The more variables, the more correlations that can show significance. https://www.wired.com/2013/02/big-data-means-big-errors-people/

แล้วจะบอกได้อย่างไรว่าอะไรเป็นเหตุเป็นผลกัน

วิธีหนึ่งที่จะบอกได้ว่าอะไรเป็นเหตุเป็นผลกัน คือการทดลองแบบสุ่มและมีกลุ่มควบคุม (Randomized Controlled Trial) หรือที่มนุษย์เทคโนโลยีเรียกกันว่า A/B Testing เช่น การจะบอกได้ว่าการกดปุ่มส่งผลต่อการกลับมาใช้งานแอปหรือไม่ เราจะต้องทำการทดลองโดยการสุ่มแบ่งผู้ใช้งานเป็นสองกลุ่ม กลุ่มหนึ่งควบคุมให้ไม่เห็นปุ่ม และอีกกลุ่มหนึ่งให้เห็นปุ่ม เพื่อเปรียบเทียบผลว่าอัตราการกลับมาใช้แอปของทั้งสองกลุ่มมีความแตกต่างกันหรือไม่

รายละเอียดของการทำ A/B Testing เดี๋ยวจะมาเล่าให้ฟังต่อในตอนหน้านะคร้าบ

Ta Virot Chiraphadhanakul
Google Developer Expert in Machine Learning. A data nerd. A design geek. A changemaker.  —  Chula Intania 87, MIT Alum, Ex-Facebooker

    You may also like

    Skooldio blog 3 ข้อดี ทำไมคนเป็นหมอ ควรเขียนโค้ดเป็น | Header
    Technology

    3 ข้อดี ทำไมคนเป็นหมอ ควรเขียนโค้ดเป็น?

    แพทยศาสตร์ ยังคงเป็นหนึ่งในสายการเรียนยอดฮิตในหมู่นักเรียนสายวิทย์ในปัจจุบัน ถึงแม้ว่าเทคโนโลยี จะมาสร้างความเปลี่ยนแปลงในโลกนี้อย่างมากมาย แต่อาชีพหมอ ก็ยังเป็นอาชีพที่ขาดไม่ได้ และเป็นอาชีพที่หลายๆ คนหมายปอง เมื่อเห็นคำว่า “โปรแกรมเมอร์” หรือการ “เขียนโค้ด” น้องๆ หลายคน คงนึกถึงการเป็นวิศวกร ...
    Data-Driven พารุ่งหรือพาร่วง?
    Data

    Data-Driven พารุ่งหรือพาร่วง?

    เกือบทุกเพจการตลาดในไทย(หรือในโลกก็ตาม) ต้องเคยทำคอนเทนต์เกี่ยวกับช่วงเวลาที่ดีที่สุดที่ควรโพสต์บนแต่ละ Social Media และคอนเทนต์เหล่านี้มักจะได้รับความนิยมสูงมาก เพราะใครๆ ก็พากันกดแชร์ กด Retweet กด Tag เพื่อนมาดู ด้วยความรู้สึกตื่นเต้นราวกับได้เครื่องรางของคลัง ที่จะช่วยให้โพสต์ของพวกเขาไม่กริบอีกต่อไป ผมเชื่อว่าทุกเพจมีเจตนาที่ดีที่จะนำเสนอข้อมูลที่น่าสนใจ ...

    More in:Data

    subquery คืออะไร Data

    Subquery เทคนิคง่ายๆ ช่วย query สบายกว่าที่เคย

    SQL Subqueries Subquery คืออะไร? Subquery เหมือนกับการ Query ในภาษา SQL หรือคือการเขียน SELECT Statement เพื่อทำการดึงข้อมูลในคอลัมน์หรือค่าในคอลัมน์จากตารางหรือฐานข้อมูลที่เราต้องการ เพื่อนำไปใช้ประโยชน์ต่อไป แต่ ...
    Data

    Data Visualization คืออะไร? แล้วทำไม Google Data Studio ถึงตอบโจทย์กับธุรกิจยุคใหม่

    ในยุค Big Data ที่มีข้อมูลดิบอยู่มหาศาล องค์กรหรือบริษัทแแทบทุกที่ต่างก็อยากเก็บข้อมูลให้มากที่สุด หลายๆ คนชอบคิดว่ายิ่งเก็บข้อมูลได้เยอะเท่าไหร่ ยิ่งดีเท่านั้น เพราะน่าจะช่วยเพิ่มโอกาสในการใช้ข้อมูลตัดสินใจทางธุรกิจได้ถูกต้องและแม่นยำยิ่งขึ้น แต่จริงๆ แล้วการเก็บข้อมูลยิ่งเยอะเท่าไหร่ ไม่ได้แปลว่ายิ่งดีขึ้นเสมอไป และนอกเหนือจากการเก็บข้อมูลแล้ว คนในองค์กรหรือบริษัทยังจะต้องสามารถในการเข้าถึงข้อมูล ผ่านเครื่องมือที่เหมาะสม ...
    Data

    7 ขั้นตอนจัดระเบียบ Data ในองค์กรให้ต่อยอดง่าย ๆ สไตล์ Marie Kondo

    เชื่อหรือไม่ว่าการจัดระเบียบข้อมูลภายในองค์กรนั้น ต้องเจอปัญหาเดียวกับเจ้าของบ้านที่จัดการของในบ้านตนเอง เพียงแต่ปัญหานั้นใหญ่ และซับซ้อนกว่ากันมาก ในปัจจุบัน องค์กรเป็นจำนวมากเก็บข้อมูลที่ไร้ประโยชน์ ไม่ว่าจะเป็น Web Log, อีเมลเก่า ๆ, หรือข้อมูลลูกค้าที่ out of date ...
    Design

    เรียนรู้ตำแหน่งงานหลักใน Tech StartUp ผ่านตัวละครจากซีรีส์เรื่องดัง

    ผ่านไป 8 ตอนแล้วกับ Start-up ซีรี่ส์มาแรงส่งตรงจากเกาหลี เรื่องราวของเหล่าวัยรุ่นที่มีความฝันอยากจะปั้น Startup ของตัวเองให้ขึ้นมาเป็นบริษัทเทคชั้นนำแบบ Silicon Valley สาขาเกาหลี ตลอดทั้งเรื่องที่ผ่านมา เราได้เห็นการแข่งขันที่เข้มข้น ความยากลำบากในการสร้าง Startup ...

    Comments are closed.