US Spending on science, space, and technology correlates with Suicides by handing, strangulation and suffocation
Data

ข้อมูลไม่เคยโกหก…แต่คุณอาจจะ: “Correlation Doesn’t Imply Causation” ท่องไว้ให้ขึ้นใจ

หลายๆ คนอาจจะคุ้นเคยกับประโยคนี้กันดีอยู่แล้ว ว่าการที่ตัวแปรสองตัวมีความสัมพันธ์กัน (correlation) อาจจะไม่ได้แปลว่ามันเป็นเหตุผลซึ่งกันและกัน (causation) แต่คนก็ยังมักจะสับสนระหว่างสองสิ่งนี้อยู่เสมอ

“คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ … ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

“รูป Instagram ที่แคปชันยาว มักจะได้ไลค์น้อย … เราควรจะเขียนแคปชันให้สั้นลงเพื่อเพิ่ม engagement”

“คนที่ติดตาม Facebook Page เรา มักจะซื้อของจากเราด้วย … ทำอย่างไรให้คนกดไลค์เพจเรามากขึ้นเพื่อเพิ่มยอดขาย”

ดูเผินๆ ข้อสังเกตเหล่านี้ดูเหมือน insights จากข้อมูลที่เป็นประโยชน์ต่อธุรกิจ ทั้งการเพิ่ม retention, engagement, หรือยอดขาย ถ้าคุณอ่านแล้วคล้อยตาม แปลว่าคุณเผลอสรุปว่าเหตุการณ์ที่สัมพันธ์กัน (correlation) เกิดจากการที่เหตุการณ์หนึ่งเป็นเหตุให้เกิดอีกเหตุการณ์หนึ่ง (causation) ไปเรียบร้อยแล้ว!!

 

Correlation และ Causation

ข้อความข้างต้นทั้งหมด มีโครงสร้างที่คล้ายๆ กันคือ​ (1) “เมื่อเกิดเหตุการณ์ X มักจะเกิดเหตุการณ์ Y” และ (2) “ทำอย่างไรให้เกิด X เพื่อเพิ่ม Y”

ข้อความในส่วนแรกนั้น เป็นการบอกว่า X กับ Y มีความสัมพันธ์กัน (Correlation) นั่นคือ ถ้าค่า X มากขึ้น ค่า Y ก็มักจะมากขึ้นตามด้วย (ในกรณีของความสัมพันธ์เชิงลบ หรือ Negative Correlation ค่า Y อาจจะลดลงตามค่า X ที่เพิ่มขึ้น) โดยความสัมพันธ์เหล่านี้ เราสามารถบอกได้โดยตรงจากข้อมูล

ในขณะที่ข้อความในส่วนที่สองนั้น เป็นข้อเสนอแนะที่เกิดจากอนุมานว่า X เป็นสาเหตุที่ทำให้เกิด Y (Causation) ถ้าเราสามารถกระตุ้นให้เกิด X ได้ Y ก็จะเกิดขึ้นตามมาด้วย

ตัวอย่างเช่น ข้อสังเกตที่ว่า “คนที่กดปุ่มนี้บ่อย มักจะกลับมาใช้แอปเราเป็นประจำ” เป็นการระบุความสัมพันธ์ระหว่างการกดปุ่ม (????) กับการกลับมาใช้งาน (✅) ซึ่งอาจจะทำให้เราทึกทักว่า การกดปุ่มเป็นสาเหตุให้ User กลับมาใช้งานแอปของเราเป็นประจำ (????→ ✅) ถ้าไม่กด โอกาสที่ User จะกลับมาก็ลดลง ซึ่งนำไปสู่ข้อเสนอแนะที่ว่า “ทำอย่างไรให้คนกดปุ่มนี้เยอะขึ้นเพื่อเพิ่ม retention”

ข้อสรุปข้างต้นอาจจะจริงหรือเท็จก็ได้ ถ้าเป็นปุ่มธรรมดาๆ ทั่วๆ ไป ก็มีโอกาสสูงว่าเรามโนไปเอง แต่ถ้าเป็นปุ่มที่ก่อให้เกิด interactions อื่นๆ ตามมา เช่น มีเพื่อนมาตอบโต้ หรือได้รับ notification แจ้งเตือน ก็เป็นไปได้ว่าการกดปุ่มจะส่งผลต่อการเปิดแอปอีกครั้งจริง

Causal Relationships

การที่ตัวแปร X และ Y มีความสัมพันธ์กัน (Correlation) อาจเกิดจากความสัมพันธ์เชิงเหตุผล (Causal Relationships) ได้หลายรูปแบบ

1. Direct Causation

กลับมาที่ตัวอย่างตอนต้นของบทความ ข้อเสนอแนะทั้งหมดเกิดจากการอนุมาน Direct Causation (X → Y)

  • การกดปุ่ม → User กลับมาใช้งาน
  • แคปชันสั้น → ไลค์เยอะ
  • ไลค์เพจ → ซื้อของ

Direct Causation

2.Reverse Causation

เมื่อข้อมูลมีความสัมพันธ์กัน เราไม่สามารถบอกได้ว่าเหตุการณ์ไหนเป็นสาเหตุให้เกิดอีกเหตุการณ์หนึ่ง จริงๆ แล้วเหตุผลอาจจะกลับกันกับที่เราคิดก็ได้ (Y → X) เช่น การไลค์เพจอาจจะไม่ได้เป็นสาเหตุที่ทำให้คนมาซื้อของเรา แต่กลับกันการที่คนซื้อของเราอาจจะเป็นสาเหตุให้คนมากดไลค์เพจเราก็เป็นได้ (เพื่อติดตามข่าวสาร หรือเป็นส่วนหนึ่งของ Community ผู้ใช้งาน)

เพื่อให้เห็นภาพชัดขึ้นไปอีก สมมติเราพบว่าเวลาที่ใช้ในการโหลดเว็บไซต์มีความสัมพันธ์กับปริมาณผู้ใช้งาน แน่นอนว่าการที่เว็บเราโหลดช้าลงไม่น่าจะเป็นสาเหตุให้คนมาใช้เว็บเรามากขึ้น แต่ในทางกลับกันการที่คนมาใช้เว็บเรามากขึ้นน่าจะเป็นสาเหตุที่ทำให้เว็บเราช้าลง

Reverse Causation

3. Bidirectional Causation

บางครั้งความสัมพันธ์เชิงเหตุผลอาจจะเกิดขึ้นทั้งสองทิศทาง เช่น การกดปุ่มบ่อย อาจทำให้คนกลับมาใช้แอปเราบ่อยขึ้น (เช่น การไปกดไลค์ ทำให้เราได้ notification ว่ามีคนอื่นมาคอมเมนต์ในโพสต์นั้น) ซึ่งพอคนกลับมาใช้แอป ก็อาจจะส่งผลให้เค้ากดปุ่มนั้นบ่อยขึ้นอีก เกิดเป็น Positive Reinforcement Loop

Bidirectional Causation

4.Correlation without Causation

สุดท้าย การที่ตัวแปรสองตัวมีความสัมพันธ์กัน อาจจะไม่ได้มีความสัมพันธ์เชิงเหตุผลใดๆ เลยก็ได้

สิ่งหนึ่งที่เป็นไปได้ คือ อาจจะมีตัวแปร Z อีกตัว (หรือที่เรียกว่า Lurking Variable) ที่เป็นสาเหตุให้เกิดทั้ง X และ Y โดยที่ X และ Y ไม่ได้เป็นเหตุผลซึ่งกันและกัน ตัวอย่างเช่น ความยาวของแคปชันอาจจะไม่ได้เป็นสาเหตุให้โพสต์ได้ไลค์น้อยลง แต่การที่เป็นโพสต์ขายของ อาจจะส่งผลให้ทั้งได้ไลค์น้อยและแคปชันยาวเพราะต้องอธิบายรายละเอียดสินค้า (และ Hashtags อีกล้านอัน) … แบบนี้

กางเกงขาสั้น ผ้าฝ้าย ใส่สบาย
ราคา: 399
สี: ขาว เทา กรม ดำ
S 28–30″ | M 30–32″ | L 32–34″
#กางเกงขาสั้น #เสื้อผ้า #แฟชั่น #คุณภาพดี #ขาย #ส่ง #ราคาถูก #พร้อมส่ง

Lurking Variable

หรืออีกตัวอย่างคลาสสิก คือ อัตราการเกิดอาชญากรรมมีความสัมพันธ์กับปริมาณการบริโภคไอศครีม แน่นอนว่าทั้งสองอย่างไม่น่าจะเป็นเหตุผลซึ่งกันและกัน สิ่งที่เกิดขึ้นจริงๆ คือ อากาศร้อน เป็นสาเหตุให้คนหงุดหงิดฉุนเฉียวและก่ออาชญากรรมมากขึ้น และในขณะเดียวกันก็ส่งผลให้คนบริโภคไอศครีมมากขึ้นด้วย

นอกจากนี้บางครั้ง ความสัมพันธ์ของข้อมูลก็อาจจะเป็นเพียงแค่เรื่องบังเอิญ แบบในตัวอย่างด้านล่างนี้ — การลงทุนในวิทยาศาสตร์ อวกาศ และเทคโนโลยีของสหรัฐอเมริกามีความสัมพันธ์กับจำนวนการฆ่าตัวตายโดยการแขวนคอ รัดคอ และขาดอากาศหายใจ โดยมีค่า Correlation สูงถึง 99.79%

ยิ่งในยุคที่เรามีข้อมูลอยู่เป็นจำนวนมหาศาล โอกาสที่จะเจอความสัมพันธ์ปลอมๆ แบบนี้ (Spurious correlations) ก็ยิ่งมากขึ้นเรื่อยๆ

 

Spurious Crrelations

This is the tragedy of big data: The more variables, the more correlations that can show significance. https://www.wired.com/2013/02/big-data-means-big-errors-people/

แล้วจะบอกได้อย่างไรว่าอะไรเป็นเหตุเป็นผลกัน

วิธีหนึ่งที่จะบอกได้ว่าอะไรเป็นเหตุเป็นผลกัน คือการทดลองแบบสุ่มและมีกลุ่มควบคุม (Randomized Controlled Trial) หรือที่มนุษย์เทคโนโลยีเรียกกันว่า A/B Testing เช่น การจะบอกได้ว่าการกดปุ่มส่งผลต่อการกลับมาใช้งานแอปหรือไม่ เราจะต้องทำการทดลองโดยการสุ่มแบ่งผู้ใช้งานเป็นสองกลุ่ม กลุ่มหนึ่งควบคุมให้ไม่เห็นปุ่ม และอีกกลุ่มหนึ่งให้เห็นปุ่ม เพื่อเปรียบเทียบผลว่าอัตราการกลับมาใช้แอปของทั้งสองกลุ่มมีความแตกต่างกันหรือไม่

รายละเอียดของการทำ A/B Testing เดี๋ยวจะมาเล่าให้ฟังต่อในตอนหน้านะคร้าบ

Ta Virot Chiraphadhanakul
Google Developer Expert in Machine Learning. A data nerd. A design geek. A changemaker.  —  Chula Intania 87, MIT Alum, Ex-Facebooker

    You may also like

    รู้จัก pandas - Library อันดับ 1 สำหรับการทำ Data Analysis | Skooldio Blog
    Data

    รู้จัก pandas – Library อันดับ 1 สำหรับการทำ Data Analysis

    เคยได้ยินคนพูดถึงบ่อยๆ แต่ไม่รู้ว่า pandas คืออะไร? เราไม่อยากให้ความไม่รู้ของคุณทำให้คุณพลาดโอกาสดีๆ ที่จะได้รู้จักกับ Library อันดับ 1 สำหรับการทำ Data Analysis ในบทความนี้ เราจะมาทำความรู้จัก Pandas ...

    More in:Data

    5 Business Metrics ที่คนทำธุรกิจต้องรู้| Skooldio Blog Business

    5 Business Metrics ที่คนทำงานสายธุรกิจต้องรู้!!

    คนทำงานสายธุรกิจยุคใหม่ ไม่ว่าจะเป็นตำแหน่งปฏิบัติการอย่าง Sales, Marketing, Analyst หรือจะเป็นตำแหน่งใหญ่ๆ อย่าง  Project Manager  ถ้าอยากจะทำผลงานให้ได้ดีเหนือคู่แข่ง ก็ต้องมีการใช้ Data ในการวางแผนกลยุทธ์ และวัดผลอยู่ตลอดเวลา เพื่อให้ไม่พลาดทุกโอกาสสำคัญทางธุรกิจ  ...
    ทำไมคนทำงาน Excel ควรรู้จัก Power BI? | Skooldio Blog Data

    ทำไมคนทำงาน Excel ควรรู้จัก Power BI?

    ถ้าพูดถึงโปรแกรมที่ขาดไม่ได้สำหรับคนทำงานในยุคปัจจุบัน Spreadsheet คงเป็นหนึ่งในนั้น และต้องมีชื่อของ Excel ออกมาอย่างแน่นอน เพราะ Excel เป็นโปรแกรมที่สามารถทำได้สารพัดประโยชน์ ตั้งแต่เก็บข้อมูลในตาราง วิเคราะห์ข้อมูล ไปจนถึงการทำ Report และ Dashboard ...
    Excel vs Google Sheets เครื่องมือไหน เหมาะกับงานคุณ? | Skooldio Blog Data

    Excel vs Google Sheets เครื่องมือไหน เหมาะกับงานคุณ?

    โปรแกรม Spreadsheets หรือโปรแกรมที่ใช้ทำงานแบบตาราง เป็นอะไรที่ขาดไม่ได้เลยสำหรับคนทำงาน ซึ่งสองโปรแกรมหลักๆ ที่เป็นที่นิยมใช้กันทั่วโลก ก็คือ Microsoft Excel และ Google Sheets แม้จะเป็นโปรแกรมที่หน้าตาคล้ายๆ กัน แต่ก็มีความแตกต่างกันอยู่พอสมควร ...
    อาชีพที่ทุกบริษัทตามหา! เจาะลึก Marketing Analyst ตำแหน่งงานยุคใหม่มาแรง | Skooldio Blog Data

    อาชีพที่ทุกบริษัทตามหา! เจาะลึก Marketing Analyst ตำแหน่งงานยุคใหม่มาแรง

    เคยสงสัยมั้ย? ทำไม Shopee – Lazada เหมือนมีหูทิพย์แอบฟัง เพราะมักจะยิงแอดสินค้าที่เรากำลังนึกอยากได้ตอนนั้นอยู่พอดี  แล้วทำไม Netflix ถึงรู้ใจเรามากกว่าแฟนที่คบมาหลายปีเสียอีก เหมือนรู้ไปหมดว่าเราอยากดูซีรีส์แนวไหน  ทั้งหมดนี้ไม่ใช่เรื่องบังเอิญ แต่เกิดจากการออกแบบอย่างตั้งใจ ของคนทำงานในบทบาท “Marketing ...

    Comments are closed.