US Spending on science, space, and technology correlates with Suicides by handing, strangulation and suffocation
Data

ข้อมูลไม่เคยโกหก…แต่คุณอาจจะ: “Correlation Doesn’t Imply Causation” ท่องไว้ให้ขึ้นใจ

หลายๆ คนอาจจะคุ้นเคยกับประโยคนี้กันดีอยู่แล้ว ว่าการที่ตัวแปรสองตัวมีความสัมพันธ์กัน (correlation) อาจจะไม่ได้แปลว่ามันเป็นเหตุผลซึ่งกันและกัน (causation) แต่คนก็ยังมักจะสับสนระหว่างสองสิ่งนี้อยู่เสมอ

“คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ … ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

“รูป Instagram ที่แคปชันยาว มักจะได้ไลค์น้อย … เราควรจะเขียนแคปชันให้สั้นลงเพื่อเพิ่ม engagement”

“คนที่ติดตาม Facebook Page เรา มักจะซื้อของจากเราด้วย … ทำอย่างไรให้คนกดไลค์เพจเรามากขึ้นเพื่อเพิ่มยอดขาย”

ดูเผินๆ ข้อสังเกตเหล่านี้ดูเหมือน insights จากข้อมูลที่เป็นประโยชน์ต่อธุรกิจ ทั้งการเพิ่ม retention, engagement, หรือยอดขาย ถ้าคุณอ่านแล้วคล้อยตาม แปลว่าคุณเผลอสรุปว่าเหตุการณ์ที่สัมพันธ์กัน (correlation) เกิดจากการที่เหตุการณ์หนึ่งเป็นเหตุให้เกิดอีกเหตุการณ์หนึ่ง (causation) ไปเรียบร้อยแล้ว!!

 

Correlation และ Causation

ข้อความข้างต้นทั้งหมด มีโครงสร้างที่คล้ายๆ กันคือ​ (1) “เมื่อเกิดเหตุการณ์ X มักจะเกิดเหตุการณ์ Y” และ (2) “ทำอย่างไรให้เกิด X เพื่อเพิ่ม Y”

ข้อความในส่วนแรกนั้น เป็นการบอกว่า X กับ Y มีความสัมพันธ์กัน (Correlation) นั่นคือ ถ้าค่า X มากขึ้น ค่า Y ก็มักจะมากขึ้นตามด้วย (ในกรณีของความสัมพันธ์เชิงลบ หรือ Negative Correlation ค่า Y อาจจะลดลงตามค่า X ที่เพิ่มขึ้น) โดยความสัมพันธ์เหล่านี้ เราสามารถบอกได้โดยตรงจากข้อมูล

ในขณะที่ข้อความในส่วนที่สองนั้น เป็นข้อเสนอแนะที่เกิดจากอนุมานว่า X เป็นสาเหตุที่ทำให้เกิด Y (Causation) ถ้าเราสามารถกระตุ้นให้เกิด X ได้ Y ก็จะเกิดขึ้นตามมาด้วย

ตัวอย่างเช่น ข้อสังเกตที่ว่า “คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ” เป็นการระบุความสัมพันธ์ระหว่างการกดปุ่ม (????) กับการกลับมาใช้งาน (✅) ซึ่งอาจจะทำให้เราทึกทักว่า การกดปุ่มเป็นสาเหตุให้ User กลับมาใช้งานแอปของเราเป็นประจำ (????→ ✅) ถ้าไม่กด โอกาสที่ User จะกลับมาก็ลดลง ซึ่งนำไปสู่ข้อเสนอแนะที่ว่า “ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

ข้อสรุปข้างต้นอาจจะจริงหรือเท็จก็ได้ ถ้าเป็นปุ่มธรรมดาๆ ทั่วๆ ไป ก็มีโอกาสสูงว่าเรามโนไปเอง แต่ถ้าเป็นปุ่มที่ก่อให้เกิด interactions อื่นๆ ตามมา เช่น มีเพื่อนมาตอบโต้ หรือได้รับ notification แจ้งเตือน ก็เป็นไปได้ว่าการกดปุ่มจะส่งผลต่อการเปิดแอปอีกครั้งจริง

Causal Relationships

การที่ตัวแปร X และ Y มีความสัมพันธ์กัน (Correlation) อาจเกิดจากความสัมพันธ์เชิงเหตุผล (Causal Relationships) ได้หลายรูปแบบ

1. Direct Causation

กลับมาที่ตัวอย่างตอนต้นของบทความ ข้อเสนอแนะทั้งหมดเกิดจากการอนุมาน Direct Causation (X → Y)

  • การกดปุ่ม → User กลับมาใช้งาน
  • แคปชันสั้น → ไลค์เยอะ
  • ไลค์เพจ → ซื้อของ

Direct Causation

2.Reverse Causation

เมื่อข้อมูลมีความสัมพันธ์กัน เราไม่สามารถบอกได้ว่าเหตุการณ์ไหนเป็นสาเหตุให้เกิดอีกเหตุการณ์หนึ่ง จริงๆ แล้วเหตุผลอาจจะกลับกันกับที่เราคิดก็ได้ (Y → X) เช่น การไลค์เพจอาจจะไม่ได้เป็นสาเหตุที่ทำให้คนมาซื้อของเรา แต่กลับกันการที่คนซื้อของเราอาจจะเป็นสาเหตุให้คนมากดไลค์เพจเราก็เป็นได้ (เพื่อติดตามข่าวสาร หรือเป็นส่วนหนึ่งของ Community ผู้ใช้งาน)

เพื่อให้เห็นภาพชัดขึ้นไปอีก สมมติเราพบว่าเวลาที่ใช้ในการโหลดเว็บไซต์มีความสัมพันธ์กับปริมาณผู้ใช้งาน แน่นอนว่าการที่เว็บเราโหลดช้าลงไม่น่าจะเป็นสาเหตุให้คนมาใช้เว็บเรามากขึ้น แต่ในทางกลับกันการที่คนมาใช้เว็บเรามากขึ้นน่าจะเป็นสาเหตุที่ทำให้เว็บเราช้าลง

Reverse Causation

3. Bidirectional Causation

บางครั้งความสัมพันธ์เชิงเหตุผลอาจจะเกิดขึ้นทั้งสองทิศทาง เช่น การกดปุ่มบ่อย อาจทำให้คนกลับมาใช้แอปเราบ่อยขึ้น (เช่น การไปกดไลค์ ทำให้เราได้ notification ว่ามีคนอื่นมาคอมเมนต์ในโพสต์นั้น) ซึ่งพอคนกลับมาใช้แอป ก็อาจจะส่งผลให้เค้ากดปุ่มนั้นบ่อยขึ้นอีก เกิดเป็น Positive Reinforcement Loop

Bidirectional Causation

4.Correlation without Causation

สุดท้าย การที่ตัวแปรสองตัวมีความสัมพันธ์กัน อาจจะไม่ได้มีความสัมพันธ์เชิงเหตุผลใดๆ เลยก็ได้

สิ่งหนึ่งที่เป็นไปได้ คือ อาจจะมีตัวแปร Z อีกตัว (หรือที่เรียกว่า Lurking Variable) ที่เป็นสาเหตุให้เกิดทั้ง X และ Y โดยที่ X และ Y ไม่ได้เป็นเหตุผลซึ่งกันและกัน ตัวอย่างเช่น ความยาวของแคปชันอาจจะไม่ได้เป็นสาเหตุให้โพสต์ได้ไลค์น้อยลง แต่การที่เป็นโพสต์ขายของ อาจจะส่งผลให้ทั้งได้ไลค์น้อยและแคปชันยาวเพราะต้องอธิบายรายละเอียดสินค้า (และ Hashtags อีกล้านอัน) … แบบนี้

กางเกงขาสั้น ผ้าฝ้าย ใส่สบาย
ราคา: 399
สี: ขาว เทา กรม ดำ
S 28–30″ | M 30–32″ | L 32–34″
#กางเกงขาสั้น #เสื้อผ้า #แฟชั่น #คุณภาพดี #ขาย #ส่ง #ราคาถูก #พร้อมส่ง

Lurking Variable

หรืออีกตัวอย่างคลาสสิก คือ อัตราการเกิดอาชญากรรมมีความสัมพันธ์กับปริมาณการบริโภคไอศครีม แน่นอนว่าทั้งสองอย่างไม่น่าจะเป็นเหตุผลซึ่งกันและกัน สิ่งที่เกิดขึ้นจริงๆ คือ อากาศร้อน เป็นสาเหตุให้คนหงุดหงิดฉุนเฉียวและก่ออาชญากรรมมากขึ้น และในขณะเดียวกันก็ส่งผลให้คนบริโภคไอศครีมมากขึ้นด้วย

นอกจากนี้บางครั้ง ความสัมพันธ์ของข้อมูลก็อาจจะเป็นเพียงแค่เรื่องบังเอิญ แบบในตัวอย่างด้านล่างนี้ — การลงทุนในวิทยาศาสตร์ อวกาศ และเทคโนโลยีของสหรัฐอเมริกามีความสัมพันธ์กับจำนวนการฆ่าตัวตายโดยการแขวนคอ รัดคอ และขาดอากาศหายใจ โดยมีค่า Correlation สูงถึง 99.79%

ยิ่งในยุคที่เรามีข้อมูลอยู่เป็นจำนวนมหาศาล โอกาสที่จะเจอความสัมพันธ์ปลอมๆ แบบนี้ (Spurious correlations) ก็ยิ่งมากขึ้นเรื่อยๆ

 

Spurious Crrelations

This is the tragedy of big data: The more variables, the more correlations that can show significance. https://www.wired.com/2013/02/big-data-means-big-errors-people/

แล้วจะบอกได้อย่างไรว่าอะไรเป็นเหตุเป็นผลกัน

วิธีหนึ่งที่จะบอกได้ว่าอะไรเป็นเหตุเป็นผลกัน คือการทดลองแบบสุ่มและมีกลุ่มควบคุม (Randomized Controlled Trial) หรือที่มนุษย์เทคโนโลยีเรียกกันว่า A/B Testing เช่น การจะบอกได้ว่าการกดปุ่มส่งผลต่อการกลับมาใช้งานแอปหรือไม่ เราจะต้องทำการทดลองโดยการสุ่มแบ่งผู้ใช้งานเป็นสองกลุ่ม กลุ่มหนึ่งควบคุมให้ไม่เห็นปุ่ม และอีกกลุ่มหนึ่งให้เห็นปุ่ม เพื่อเปรียบเทียบผลว่าอัตราการกลับมาใช้แอปของทั้งสองกลุ่มมีความแตกต่างกันหรือไม่

รายละเอียดของการทำ A/B Testing เดี๋ยวจะมาเล่าให้ฟังต่อในตอนหน้านะคร้าบ

Ta Virot Chiraphadhanakul
Google Developer Expert in Machine Learning. A data nerd. A design geek. A changemaker.  —  Chula Intania 87, MIT Alum, Ex-Facebooker

    You may also like

    Business

    4 ขั้นตอนการทำ Marketing Analytics ผ่าน Google Analytics 4

    Marketing Analytics ถือเป็นหนึ่งหัวใจสำคัญของการทำ Performance Marketing และหากพูดถึงคำว่า Analytics นั้น หลายคนมักจะโฟกัสที่การวิเคราะห์ข้อมูล แต่ที่จริงขั้นตอนการตั้งคำถามและเก็บข้อมูลก็เป็นส่วนที่สำคัญไม่แพ้กัน เพราะถ้าตั้งคำถามและเก็บข้อมูลได้ไม่ถูกจุดแล้ว อาจทำให้เกิดการวิเคราะห์ข้อมูลและการตัดสินใจที่ผิดพลาดได้ในที่สุด  สำหรับผู้ที่สนใจอยากเริ่มทำ Marketing Analytics ...
    Web Scraping คืออะไร?
    Data

    Web Scraping คืออะไร? ไม่เก่งเขียน Code สามารถทำได้ไหม?

    ในปัจจุบันที่โลกก้าวสู่ยุค Digital และมีความเติบโตของจำนวนผู้ใช้อินเตอร์เน็ตจำนวนมาก ไม่ว่าจะเป็น การค้นหาข้อมูลข่าวสาร, ซื้อขายสินค้า หรือเป็นแหล่งชุมชน Community และอื่นๆ อีกมากมายอยู่บนเว็บไซต์ กลายเป็นแหล่งข้อมูล (Data Source) ชั้นดี สำหรับธุรกิจต่างๆ ...

    More in:Data

    แนะนำเครื่องมือดึงข้อมูลฟรี Webscraper.io Data

    แนะนำเครื่องมือดึงข้อมูลจากเว็บไซต์ฟรี !! WebScraper.io

    ปัจจุบัน ‘เว็บไซต์’ ถือว่าเป็นแหล่งข้อมูลชั้นดี (Data source) และมีบทบาทความสำคัญในการขับเคลื่อนธุรกิจทุกระดับไม่ว่าจะเป็นธุรกิจขนาดเล็กหรือขนาดใหญ่ แต่การดึงข้อมูลบนเว็บไซต์ (Web Scraping) อาจจะฟังดูเป็นเรื่องไกลตัวสำหรับผู้ที่ไม่ใช่โปรแกรมเมอร์ที่สามารถเขียนโค้ดโปรแกรมดึงข้อมูลออกมาใช้งานได้ 😎 จะดีกว่ามั้ย!? ถ้าคุณสามารถใช้เครื่องมือดึงข้อมูลที่สนใจบนเว็บไซต์ได้ด้วยตัวเอง ถึงแม้ว่าคุณอาจจะเขียนโปรแกรมไม่เก่งก็สามารถทำได้ ฟรี ...
    Data

    Apache Airflow คืออะไร แล้วทำไมองค์กรชั้นนำส่วนใหญ่ถึงเลือกใช้

    Apache Airflow คือ 1 ใน Workflow Management ที่ได้รับความนิยม และองค์กรชั้นนำระดับโลกหลายๆ องค์กรเลือกใช้ โดยเฉพาะอย่างยิ่งในการสร้าง Data Pipelines เพื่อจัดการกับข้อมูลจำนวนมหาศาล ส่วนหนึ่งเพราะองค์กรต่าง ...
    Performance Marketing คืออะไร Business

    Performance Marketing คืออะไร? รู้จักวิธีการทำการตลาดแบบวัดผลได้

    ถ้าให้คุณจ่ายเงินเกินสิ่งที่ได้รับ หรือจ่ายไปโดยไม่รู้ด้วยซ้ำว่าได้ผลหรือเปล่า คุณจะยอมไหม? แน่นอนว่าคุณคงไม่แฮปปี้ แต่นี่แหละคือ ‘วิธีทำการตลาด’ ที่หลาย ๆ บริษัทกำลังทำอยู่ แล้วจะดีแค่ไหน หากเราสามารถเลือกใช้เงินเฉพาะกับผลลัพธ์ที่เราได้รับเท่านั้น ซึ่งทั้งหมดนี้คืองาน Performance Marketing การทำธุรกิจเปลี่ยนไปอย่างรวดเร็วตั้งแต่อินเตอร์เน็ตเข้ามามีบทบาทกับพฤติกรรมของมนุษย์ ...
    data-driven-with-moneyball-theory Data

    MoneyBall Theory ถอดบทเรียนชัยชนะแห่งศตวรรษด้วย Data

    สำหรับใครหลายๆ คนมักจะคิดว่าการใช้ Data นั้นจะถูกจำกัดไว้อยู่เพียงแค่กับการทำธุรกิจ หรือการทำวิจัยเท่านั้น แต่ความเป็นจริงแล้วข้อมูลสามารถใช้ในการวิเคราะห์ได้หลากหลายสิ่งมากๆ และอยู่ได้ในแทบทุกวงการ แม้กระทั่งกับวงการกีฬาเองที่การวิเคราะห์ข้อมูล และใช้ Data ก็สามารถทำให้ทีมได้ชัยชนะได้ไม่ยาก ย้อนกลับไปในช่วงก่อนปี 2002 วงการเบสบอลในสหรัฐอเมริกาจะมีแมวมองไปดูตามโรงเรียนมัธยมต่าง ๆ ...

    Comments are closed.