อธิบายความต่างระหว่าง Linear Regression และ Logistic Regression 2 วิธีการทางคณิตศาสตร์ขั้นพื้นฐานที่นิยมในสายงาน Data มาส่องดูกันว่าแต่ละอันใช้งานอย่างไร
ก่อนอื่นต้องอธิบายก่อนว่าเวลาเราต้องการใช้ข้อมูลตอบคำถามแต่ละครั้ง โจทย์ที่เราต้องทำอาจใช้โมเดลในการคำนวณแตกต่างกันไป บางอันต้องการทํานายค่า หรือหาแนวโน้มความสัมพันธ์ จากข้อมูลที่มี ในขณะที่บางอย่างอาจต้องการคำตอบว่าหรือรวมถึงจัดแบ่งหมวดหมู่
Table of Contents
ทั้ง 2 โมเดลคืออะไร ใช้ทำอะไร?
Linear Regression (การถดถอยเชิงเส้น) เป็นวิธีการทางคณิตศาสตร์ที่ใช้รูปแบบของสมการเส้นตรงมาทำนายหรือหาความสัมพันธ์ของผลลัพธ์ จากค่าตัวแปรต่างๆ (คุณอาจคุ้นกับสูตร Y = aX + b) ซึ่ง X แทนค่าตัวแปรต่าง ๆ ที่อาจมีผลต่อผลลัพธ์นั้น ๆ Y
Logistic Regression (การถดถอยโลจิสติกส์) คือเทคนิคการวิเคราะห์ข้อมูลที่ใช้วิชาคณิตศาสตร์ ในการวิเคราะห์ตัวแปรที่มีวัตถุประสงค์เพื่อประมาณค่าหรือทํานายเหตุการณ์ที่สนใจว่าจะเกิดหรือไม่เกิดเหตุการณ์นั้นภายใต้ปัจจัยของตัวแปรเหล่านั้น โดยจะเปลี่ยนจากการทำนายค่าของ Y จาก X เป็นการทำนายโอกาสที่ค่า Y จะเกิดขึ้นจากตัวแปร X แทนนั้นเอง
เหมาะสำหรับงานแบบไหน ผลลัพธ์ที่ได้เป็นอย่างไร
Linear Regrssion เหมาะกับงานที่ต้องใช้ตัวแปรอ้างอิงต่อเนื่องที่คาดการณ์จากขนาดอย่าง น้ำหนัก รายได้ ส่วนสูง หรือคะแนนความพึงพอใจ โดยผลลัพธ์ที่ได้มีโอกาสเป็นน้อยกว่า 0 และมากกว่า 0 เช่นเมื่อทานอาหารที่มีไขมันเพิ่ม 1 หน่วยจะทำให้น้ำหนักตัวเพิ่มขึ้น 25 หน่วย
Logistic Regression เหมาะกับงานที่ต้องใช้ความน่าจะเป็นที่คาดการณ์ของตัวแปรอ้างอิงเชิงกลุ่มที่เกิดขึ้นจากชุดหมวดหมู่แบบคงที่ หรืองาน Binary Classification ที่ตัวแปรตามมีแค่ 2 ค่า (1 และ 0, ใช่/ไม่ใช่, ถูก/ผิด) โดยผลลัพธ์จะมีค่าระหว่าง 0 และ 1 เช่น 076 อาจหมายถึงโอกาส 76% ที่จะสวมเสื้อสีส้ม และ 0.24 อาจหมายถึงโอกาส 24% ที่จะสวมเสื้อสีแดง
การประยุกต์ใช้งาน
Linear Regression ถูกใช้ในหลากหลายโจทย์ที่ต้องการคาดการณ์ หรือทำนายผลลัพธ์ต่างๆ ไม่ว่าจะเป็นการประมาณการยอดขาย โดยอิงจากกลุ่มลูกค้า หรืออิงจากช่วงเวลาของปี เป็นต้น
Logistic Regression ใช้ในการหา Classification เป็นหมวดหมู่ 2 ตัวแปรขึ้นไป อย่างเช่นการระบุโรคว่าเป็น หรือไม่เป็น อิงจากค่าดัชนีมวลกาย หรือการสูบบุหรี่ หรือแม้แต่การประเมินโอกาสการปิดการขายว่าได้หรือไม่ ตามประเภทของธุรกิจ หรือมูลค่าของดีลตามช่วงเวลา เป็นต้น
2 โมเดลนี้สามารถนำไปใช้งานได้ง่าย ทั้งการทํานายได้ทั้งค่าตัวเลข (Linear) และ แบ่งกลุ่ม (Logistics) เพราะมี Library สําเร็จอยู่แล้ว แต่การจะทำให้โมเดลดีขึ้น เบื้องหลังในการเลือกค่าสัมประสิทธ์ให้เหมาะสมกับแต่ละโจทย์ มาจาก Calculus ทั้งนั้น
🚀 เรียนรู้ที่มาที่ไปของ Calculus กับสิ่งเหล่านี้ ให้สามารถไปต่อยอดปรับให้ดีขึ้น หรือสร้างโมเดลได้เองกับคอร์ส Mathematics for Data Science กับคุณกุ๋ย – พรรษ วติวุฒิพงศ์ เจ้าของเพจคณิตศาสตร์อย่างที่ควรจะเป็น
เมื่อเรียนจบคอร์สนี้ คุณจะสามารถ..
✅ เข้าใจ และสามารถเลือกใช้เทคนิคต่าง ๆ ในการจัดการกับข้อมูลเบื้องต้น เพื่อช่วยในการลดทรัพยากรคํานวณของการนําข้อมูลไปใช้งานได้
✅ ประยุกต์ใช้งาน Machine Learning ได้อย่างมีประสิทธิภาพ ผ่านการเข้าใจการทํางานเบื้องหลัง และเข้าใจในความแตกต่างของแต่ละเทคนิคทางคณิตศาสตร์ที่เลือกมาใช้งาน
✅ มีความรู้คณิตศาสตร์พื้นฐานมากเพียงพอในการที่จะศึกษาต่อยอดด้านวิทยาศาสตร์ข้อมูลในเชิงลึกขึ้น ไปจนถึงการสามารถสร้างหรือพัฒนาโมเดล Machine Learning ได้เองในอนาคต
มาปูพื้นฐานให้แน่น และครบครันมากกว่าใคร พร้อมเปิดประตูสู่โลก Data Science สมัครเลย 👉 https://to.skooldio.com/FQ1l5j2enGb