Data Scientist Ultimate Guide

Data Scientist คือ นักวิทยาศาสตร์ข้อมูล มีหน้าที่สร้างมูลค่าจากข้อมูล โดยนำศาสตร์ความรู้จากหลากหลายศาสตร์ เช่น คณิตศาสตร์ และคอมพิวเตอร์ มาประยุกต์เข้ากันแบบบูรณาการ เพื่อวิเคราะห์ และสร้างโมเดล (Model) ในการพยากรณ์หรือตัดสินใจ ให้องค์กรสามารถนำข้อมูลไปใช้ได้ดีมากยิ่งขึ้น

ในบทความนี้ เราจะพาไปทำความรู้จักกับสายงาน Data Scientist ตั้งแต่ต้นจนจบ ตั้งแต่การเข้าใจว่า Data Science คืออะไร? สำคัญอย่างไร? อาชีพ Data Scientist คือใคร? หน้าที่และทักษะที่สำคัญ ไปจนถึงการเตรียมตัวเป็น Data Scientist พร้อมให้คุณนำไปปรับใช้ได้ทันที

ถ้าพร้อมแล้ว ไปลุยกันเลย!


Data Science คืออะไร?

Data Science หรือ วิทยาการข้อมูล คือ กระบวนการนำข้อมูลมาสร้างมูลค่า ผ่านการวิเคราะห์ วิจัย เพื่อทำความเข้าใจข้อมูลว่าข้อมูลในเหล่านี้จะสามารถช่วยธุรกิจในแง่มุมไหนได้บ้าง จากนั้นจึงหยิบข้อมูลเหล่านั้นมาต่อยอดเพื่อสร้างผลประโยชน์กับธุรกิจ

ศาสตร์ของ Data Science จะเน้น “การนำข้อมูลมาสร้างมูลค่าต่อ” ซึ่งจะนิยมสร้างเป็นโมเดล (Model) เช่น โมเดลสำหรับการทำนายผล, โมเดลสำหรับการแบ่งประเภทลูกค้า เป็นต้น


ความสำคัญของ Data Science

    Data Science สำคัญกับธุรกิจอย่างมาก เพราะ Data ทำให้ธุรกิจดีขึ้น สามารถนำข้อมูลมาสร้างโมเดลคำนวณผลต่าง ๆ โดยเฉพาะองค์กรที่ทำงานแบบ Data-Driven ซึ่งการทำ Data Science จะช่วยให้ธุรกิจดีขึ้นได้ในมุมต่อไปนี้

    1. ตัดสินใจได้ดีมากยิ่งขึ้น: การใช้โมเดลในการคำนวณผล ทำให้สามารถคาดการณ์เหตุการณ์ต่าง ๆ ที่อาจเกิดขึ้นในอนาคต และสามารถวางแผนรับมือได้อย่างถูกต้อง
    2. ช่วยลดงาน และเพิ่มประสิทธิภาพในการทำงาน: การใช้โมเดล จะช่วยลดงานเป็นอย่างมาก เพราะทำให้งานบางอย่างสามารถ Automate ได้เอง เช่น การทำ Credit Scoring ของธนาคารเพื่อปล่อยสินเชื่อ จากเดิมที่ต้องให้พนักงานธนาคารประเมิน ก็จะให้โมเดลประเมินเอง ช่วยลดงานได้อย่างมาก
    3. วัดผลได้อย่างถูกต้อง: การทำ Data Science ช่วยให้ธุรกิจสามารถวัดผลได้ดีมากขึ้น จากการเก็บข้อมูลที่มีความถูกต้อง แม่นยำ
    4. ลดความความเสี่ยง และความผิดพลาด: การใช้โมเดลในการคำนวณผล เช่น ทำนายอนาคต มักจะมีความแม่นยำสูงกว่าการใช้คนคำนวณ ดังนั้นจึงช่วยในการตัดสินใจการกระทำต่อไปได้แม่นยำมากขึ้น
    5. ช่วยเพิ่ม Value ให้ลูกค้า: การทำ Data Science ช่วยให้ธุรกิจเก็บข้อมูลได้มากขึ้น ตัดสินใจดีขึ้น จึงสามารส่งมอบ Value ให้กับลูกค้าได้อย่างตรงจุดมากยิ่งขึ้น ผ่านการนำข้อมูลมาสร้างสินค้า/บริการใหม่ หรือพัฒนาประสบการณ์ผู้ใช้

    ถึงแม้จะมีประโยชน์มากสำหรับธุรกิจ แต่ควรคำถึงปัจจัยต่าง ๆ ด้วยว่าการนำ Data Science เช่น Machine Learning มาใช้ จะคุ้มค่าต่อธุรกิจหรือไม่


    Data Scientist คือ

    Data Scientist หรือ นักวิทยาศาสตร์ข้อมูล คือ ผู้ที่สร้างมูลค่าจากข้อมูล เพื่อให้องค์กรสามารถนำข้อมูลไปใช้ในมุมที่หลากหลาย และมีประสิทธิภาพมากขึ้น โดยนำข้อมูลมาวิเคราะห์ในมุมต่าง ๆ, นำข้อมูลมาสร้างเป็นโมเดล (Model) เพื่อใช้ประโยชน์ในมุมต่าง ๆ แต่ทั้งนี้ก็ขึ้นอยู่กับแต่ละองค์กร

    เพื่อให้เห็นภาพมากยิ่งขึ้น หลาย ๆ คนน่าจะเคยได้ยินระบบ Credit Scoring ที่มักจะถูกใช้สำหรับการประเมินการให้สินเชื่อของธนาคาร ระบบนี้จะทำการเก็บข้อมูลลูกค้าที่ต้องการขอสินเชื่อ นำมาผ่านกระบวนการประเมิน และสรุปออกมาเป็นผลว่าลูกค้าคนหนึ่ง ๆ ควรจะได้รับสินเชื่อหรือไม่ หรือว่าควรได้รับการอนุมัติในยอดวงเงินเท่าไหร่ ซึ่งการสร้าง “โมเดลการประเมินนี้” คือหน้าที่ของ Data Scientist นั่นเอง


    หน้าที่ และการทำงานของ Data Scientist

    การทำงานในตำแหน่งนี้ มีเป้าหมายในการวิเคราะห์ข้อมูลให้ออกมาเป็นข้อมูลเชิงลึก (Insight) เพื่อนำไปสร้างเป็นโมเดลสำหรับจุดประสงค์ที่แตกต่างกันไป เพื่อไปถึงเป้าหมายนั้น ทั่วไปแล้วมี 5 ขั้นตอนหลัก ได้แก่ Data Access, Data Wrangling, Exploratory Data Analysis, Modeling และ Deployment

    Data Science Workflow

    Data Science Workflow

    จะเห็นว่ามีส่วนงานที่ทับซ้อนกับ Data Analyst อยู่บ้าง ซึ่งในองค์กรที่มีคนทำงานในทั้งสองตำแหน่ง ก็จะทำงานร่วมกันอยู่เป็นประจำอยู่แล้ว โดย Analyst จะเน้นงานในฝั่งการวิเคราะห์มากกว่า และ Scientist จะเน้นในงานฝั่งที่ต่อเนื่องจากการนำผลการวิเคราะห์ข้อมูลไปใช้ช่วยสร้างโมเดล

    Data Access

    Data Access คือ การเข้าถึง และดึงข้อมูล ซึ่งโดยปกติแล้ว ฐานข้อมูลที่จะเข้าถึงจะมีขนาดใหญ่มาก (Big-Data) จึงจำเป็นต้องใช้การเขียน Code เข้ามาช่วยเพิ่มความรวดเร็ว และความถูกต้องในการดึงข้อมูลนั่นเอง

    Data Wrangling

    Data Wrangling คือ กระบวนการเตรียมข้อมูล เช่น นำข้อมูลมา Clean เพื่อเติมข้อมูลที่ขาดหายไป, ตัดข้อมูลบางตัวที่ไม่สามารถใช้งานได้ หรือเป็นข้อมูลที่ผิดปกติ (Outlier) ซึ่งอาจส่งผลให้การวิเคราะห์ผิดพลาดไปจากความเป็นจริง

    อยากให้ทุกคนลองนึกภาพว่า สมมติเราเก็บข้อมูลน้ำหนักของนักเรียน 5 คน พบว่าน้ำหนักของนักเรียนคือ 40, 42, 39, 150, 41 กิโลกรัม ตามลำดับ ถ้าเราไม่ตัดข้อมูล 150 กิโลกรัมออก จะพบว่าน้ำหนักเฉลี่ยของนักเรียนทั้งหมด คือ 62.4 กิโลกรัม ซึ่งจริง ๆ แล้วน้ำหนักนักเรียนส่วนมากจะอยู่ที่ประมาณ 40 กิโลกรัมเท่านั้น ดังนั้นขั้นตอนนี้จึงมีความสำคัญไม่แพ้กับการวิเคราะห์ข้อมูลเลย 

    Exploratory Data Analysis

    Exploratory Data Analysis (EDA) หรือการวิเคราะห์ข้อมูลเชิงสำรวจ เป็นขั้นตอนการนำข้อมูลมาลอง บิด หมุน เล่น และตรวจสอบในแง่มุมต่าง ๆ เพื่อค้นหาข้อมูลเชิงลึก (Insight) ที่มีประโยชน์ต่อธุรกิจ ประกอบด้วย 3 ส่วนย่อย ๆ คือ Data Transformation, Data Analysis และ Data Visualization

    Exploratory Data Analysis

    Exploratory Data Analysis

    Data Transformation

    Data Transformation คือ กระบวนการนำข้อมูลที่ได้จากการทำ Data Wrangling มาแปลง หรือจัดระเบียบ ให้อยู่ในรูปแบบที่พร้อมใช้งาน เช่น บางครั้งอาจมีการดึงข้อมูลจากหลายแหล่ง ก็อาจจำเป็นต้องนำข้อมูลมารวมกันก่อนที่จะนำไปวิเคราะห์ต่อ

    Data Analysis

    Data Analysis คือ กระบวนการวิเคราะห์ข้อมูล เพื่อดูความสัมพันธ์ของข้อมูลในมุมต่าง ๆ หรือหาความสำคัญของปัจจัยที่ส่งผลกระทบต่อข้อมูล โดยอาจดูจาก Business Metrics เพื่อดูความหมายของผลลัพธ์จากการวิเคราะห์

    Data Visualization

    Data Visualization คือ กระบวนการนำข้อมูลมาแสดงให้เห็นเป็นภาพ เช่น การสร้างกราฟ เพื่อทำให้ผู้วิเคราะห์สามารถเข้าใจข้อมูลได้มากยิ่งขึ้น และใช้สำหรับสื่อสารผลลัพธ์ไปสู่ทีมอื่น ๆ ต่อไป

    Data Visualization

    Data Visualization

    จากภาพหากเรานำข้อมูลไปสร้างสมการเส้นตรงเพื่ออธิบายความสัมพันธ์ของข้อมูล (Linear Regression) ทุกชุดข้อมูลเราจะได้สมการเดียวกัน (สังเกตจากการที่ได้เส้นตรงเหมือนกันเป๊ะ) แต่ถ้าเราลองนำข้อมูลมาทำ Visualization จะเห็นว่าข้อมูลของทั้ง 4 กราฟไม่มีความเหมือนกันเลย ดังนั้นการทำ Data Visualization จะทำให้เห็นภาพของข้อมูลชัดขึ้น เพื่อเลือกวิธีจัดการกับข้อมูลได้ถูกต้องมากยิ่งขึ้น

    ซึ่งทั้ง 3 ขั้นตอนของกระบวนการ EDA นี้ควรทำแบบ Iterative Process หรือเป็นกระบวนการที่วนกลับไปกลับมา เพราะแต่ละขั้นตอนจะทำให้เห็นข้อมูลเชิงลึก (Insight) มากขึ้นเรื่อย ๆ เราต้องบิด หมุน และลองวิเคราะห์ในหลาย ๆ แง่มุม จนถึงขั้นที่ได้รับผลลัพธ์ตามที่คาดหวัง จึงนำผลลัพธ์ดังกล่าวมาเริ่มสร้าง Model ต่อไป

    Modeling

    เป็นกระบวนการสร้างโมเดล (Model) เพื่อใช้ตามแต่ละจุดประสงค์ที่ต่างกันออกไป ซึ่งสามารถทำได้หลายวิธี แต่โดยปกติแล้วจะนิยมใช้ภาษา Python เป็นหลัก ซึ่งโดยทั่วไปจะประกอบด้วย 4 กระบวนการ ได้แก่ Tuning, Model Training, Prediction และ Assessment แต่อาจแตกต่างกันไปตามแต่ละองค์กร และแต่ละสถานการณ์

    Tuning

    เป็นกระบวนการปรับค่าต่าง ๆ ของโมเดล (Model) เพื่อให้เหมาะสมกับการคำนวณในเรื่องที่แตกต่างกัน ในขั้นตอนนี้สามารถทำได้หลายรูปแบบ แต่ละแบบก็จะได้ค่าไม่เหมือนกัน เราจึงต้องมีการ Tuning ไปเรื่อย ๆ เพื่อให้ได้ค่าที่ถูกต้องที่สุด

    การ Tuning เปรียบเสมือนการเดินขึ้นภูเขาเพื่อไปชมวิว ระหว่างทางมีทางแยกมากมาย เราเดินไปจนสุดทาง เราอาจไปถึง หรือไม่ถึงยอดเขาก็ได้ ถ้าไปถึงยอดเขา ยอดเขานั้นอาจไม่ใช่ยอดเขาที่เห็นวิวได้สวยที่สุด (ผลที่ได้อาจยังไม่เป็นที่พอใจ) ดังนั้นสิ่งที่เราต้องทำคือลองเดินทางอื่น ๆ (ปรับแก้การตั้งค่า) เพื่อให้ไปถึงยอดเขาที่สวยที่วิวสวยที่สุดได้นั่นเอง

    Model Training

    กระบวนการ Model Training คือ กระบวนการสอนโมเดล ให้สามารถเอาข้อมูลไปใช้งานได้อย่างถูกต้อง 

    ในกระบวนการนี้ คำที่ทุกคนน่าจะคุ้นเคยกันเป็นอย่างดี คือ Machine Learning และ Deep Learning ซึ่งมีหลักการ คือ ให้ระบบคอมพิวเตอร์ใช้ข้อมูลเพื่อเรียนรู้กระบวนการทำงานบางอย่างด้วยตัวเอง ซึ่งการทำ Machine Learning สามารถทำได้หลายรูปแบบมาก ๆ  แต่จะนิยมแบ่งเป็น 2 แบบหลัก ได้แก่ Supervised Learning และ Unsupervised Learning ซึ่งจะขออธิบายในหัวข้อต่อไป

    เช่น ให้แยกรูปหมา แมว โดยโมเดลก็จะทำการดูรูป จนเห็นความแตกต่างของหมา และแมว จนรู้ว่าการแยกประเภท ควรคำนึงถึงปัจจัยใดบ้าง จนสามารถสร้างออกมาเป็นกระบวนการได้

    หลายคนคงสงสัยว่า “แล้วทำไมถึงต้องให้โมเดลเรียนรู้ด้วยตัวเอง?” หรือ “ทำไมเราไม่เป็นคนคิด Process ไปให้ แล้วให้มันคำนวณผลลัพธ์ออกมา?” คำตอบง่าย ๆ คือ มนุษย์ทำได้ยาก อาจเพราะข้อมูลมีจำนวนมหาศาล, ข้อมูลอยู่ในรูปแบบที่ซับซ้อน จนมนุษย์ไม่สามารถประมวลผลได้อย่างเหมาะสม ทำให้ต้องมีการใช้โมเดลเข้ามาช่วยในการคำนวณนั่นเอง

    ในกระบวนการนี้ ข้อมูลที่เราป้อนให้กับโมเดล เป็นสิ่งที่สำคัญมาก ๆ เพราะหากป้อนข้อมูลที่ผิด โมเดลก็จะเรียนรู้แบบผิด ๆ จนเมื่อเอาโมเดลมาใช้งาน มันก็จะให้คำตอบที่ผิดมา เหมือนดังคำกล่าวที่ว่า “Garbage in, Garbage out” ดังนั้นสิ่งที่สำคัญมาก ๆ ในขั้นตอน Model Training คือการเตรียมข้อมูลให้เหมาะสม และถูกต้องนั่นเอง

    Prediction

    กระบวนการ Prediction คือ กระบวนการทดสอบโมเดลที่ทำการฝึกมา โดยนำข้อมูลที่เรามีคำตอบอยู่แล้ว มาลองใช้งานกับโมเดล เพื่อวัดความแม่นยำของการคำนวณ

    เช่น มี Data Set รถมือสอง 50 คันที่ขายไปแล้ว คือ เรารู้ข้อมูลรถ (Input) และราคาขายที่แน่ชัด เราจึงเอา Input ไปป้อนให้กับโมเดล และให้โมเดลทำนายราคาขายของรถคนนั้น ๆ และนำมาเทียบกับราคาขายจริงที่เกิดขึ้น เพื่อดูความถูกต้องในการคำนวณราคา

    Assessment

    กระบวนการ Assessment คือ กระบวนการประเมินความสามารถของโมเดล โดยดูจากผลลัพธ์ และทำการตรวจสอบปัจจัยต่าง ๆ ที่ส่งผลต่อผลลัพธ์

    เช่น จากกระบวนการ Prediction ทำให้รู้แล้วว่าโมเดลมีความแม่นยำเพียงใด ถ้าเราต้องการปรับปรุง ก็ต้องทำการตรวจสอบก่อนว่าความผิดพลาดมาจากส่วนใด อาจมาจาก Model Training หรือการตั้งค่าต่าง ๆ ในกระบวนการ Tuning ที่ไม่เหมาะสม และไปแก้ไขในส่วนนั้น ๆ

    กระบวนการทั้ง 4 ขั้นตอนของ Modeling นั้นควรมีการทำเป็นแบบ Iterative Process หรือกระบวนการที่วนกลับไปกลับมา เพื่อลองผิดลองถูกไปเรื่อย ๆ จนได้โมเดลที่มีความถูกต้องแม่นยำในระดับที่พอใจ แล้วจึงนำโมเดลนี้ไปทำการส่งต่อให้ฝ่ายอื่น ๆ ได้ใช้งานต่อไป

    Deployment

    Deployment คือ กระบวนการส่งต่อโมเดล ไปให้ฝ่ายอื่น ๆ ใช้ประโยชน์ โดยต้องมีการวัดผล และปรับปรุงแก้ไขอย่างสม่ำเสมอ เพราะข้อมูลมีการเปลี่ยนแปลงไปทุกวัน จึงต้องมีการปรับปรุงตั้งค่าใหม่ ให้ใช้งานได้เหมาะสมอยู่ตลอดเวลา


    Machine Learning

    Machine Learning คือ กระบวนการให้ระบบคอมพิวเตอร์ใช้ข้อมูลเพื่อเรียนรู้กระบวนการทำงานบางอย่างด้วยตัวเอง ซึ่งเป็นหนึ่งในหน้าที่หลักของ Data Scientist ในส่วนการทำ Model Training 

    โดยประเภทของการทำ Machine Learning สามารถแบ่งได้หลากหลายมาก แต่โดยทั่วไปที่นิยมใช้กันมี 3 ประเภท คือ Supervised Learning, Unsupervised Learning และ Reinforcement Learning

    Machine Learning

    ประเภทของ Machine Learning

    Supervised Learning

    Supervised Learning คือ การสอนระบบคอมพิวเตอร์ โดยมีเฉลย เช่น ใส่รูปหมา แล้วบอกว่านี่คือหมา ใส่รูปแมว แล้วบอกว่านี่คือแมว และให้โมเดล (Model) จำว่าอันไหนหมา อันไหนแมวนั่นเอง

    โดยปกติการทำ Machine Learning รูปแบบนี้ จะนิยมใช้ทำโมเดลที่มีจุดประสงค์เพื่อแบ่งประเภท (Classify) และ พยากรณ์ (Forecast)

    Unsupervised Learning

    Unsupervised Learning คือ การสอนระบบคอมพิวเตอร์ โดยไม่มีเฉลย เช่น ใส่รูปหมา รูปแมว โดยไม่บอกว่าอันไหนคือหมา อันไหนคือแมว แล้วให้โมเดล (Model) แบ่งกลุ่มจากความแตกต่างด้วยตัวเอง

    โดยปกติการทำ Machine Learning รูปแบบนี้ จะนิยมใช้ทำโมเดลที่มีจุดประสงค์เพื่อแบ่งกลุ่ม (Clustering) ซึ่งจะแตกต่างจากแบบ Classify ตรงที่ Clustering จะทำได้แค่จับกลุ่ม แต่ไม่ระบุประเภทของกลุ่มนั้น ๆ

    Reinforcement Learning

    Reinforcement Learning คือ การสอนระบบคอมพิวเตอร์ ให้รู้ว่าอะไรดี ไม่ดีผ่านการให้รางวัล เปรียบเหมือนการฝึกน้องหมา ที่เราไม่สามารถสื่อสารกับมันได้ตรง ๆ แต่เราสามารถให้รางวัลในตอนที่ทำดี และทำโทษในตอนที่ทำไม่ดี ให้น้องหมาเรียนรู้ว่าควรทำ หรือไม่ควรทำอะไร


    ทักษะที่ Data Scientist ที่ดีควรมี

    Data Scientist ควรมีทักษะครอบคลุม 3 ด้านหลัก ๆ คือ Computer Science (วิทยาการคอมพิมเตอร์), Math & Statistics (คณิตศาสตร์ และสถิติศาสตร์) และ Domain Expertise (ความรู้ในสายงานนั้น ๆ) รวมถึงทักษะการวิเคราะห์ เพื่อที่จะสามารถวิเคราะห์ข้อมูล และเอามาสร้างเป็นโมเดลที่มีประโยชน์ต่อธุรกิจได้

    ทักษะที่ Data Scientist ควรมี

    ทักษะที่ Data Scientist ควรมี

    ทักษะภาษา Python

    การทำงานในตำแหน่งนี้ ควรใช้งานภาษา Python ได้อย่างคล่องแคล่ว โดยควรมีทักษะการใช้ Python ได้กับกระบวนการ Data Access, Data Wrangling, EDA, Modeling และ Deployment หรือก็คือทุกขั้นตอนของการดำเนินงานนั่นแหละ

    Python Course

    หลายคนอาจสงสัยว่า แล้วกระบวนการ Data Access, Data Wrangling และ EDA ใช้ภาษา SQL ร่วมกับโปรแกรม Spreadsheet ได้ไหม คำตอบคือได้ แต่อาจไม่เป็นที่นิยมในวงการของ Data Science เพราะอย่างที่บอกไปว่า Python ทำได้เยอะกว่า ซับซ้อนกว่า และทำได้ทุกกระบวนการทำงาน จึงไม่ต้องเสียเวลาแปลงข้อมูลไปมาระหว่างโปรแกรม

    ใน Python จะมี Library เพื่ออำนวยความสะดวกในการทำงาน ซึ่ง Python Library ที่นิยม คือ Pandas ซึ่งเป็นตัวช่วยจัดการข้อมูลให้เป็นระเบียบ สามารถนำไปใช้ประโยชน์ในทุกขั้นตอนการทำงานของ Data Scientist

    Pandas Course

    ทักษะภาษา R

    ภาษา R เป็นภาษาตัวเลือกของภาษา Python โดยผู้เชี่ยวชาญหลายท่านให้ความเห็นว่า ภาษา R เป็นภาษาที่เรียนรู้ง่ายกว่า ซับซ้อนน้อยกว่า แต่ความสามารถก็น้อยกว่า Python เล็กน้อยเช่นกัน แต่ทั้งนี้ ภาษา R ก็สามารถใช้เพื่อทำงานในทุกกระบวนการที่เล่ามาได้ทั้งหมด

    จริง ๆ ควรใช้เป็นทั้ง 2 ภาษา แต่จะเน้นภาษาอะไรเป็นหลักก็ขึ้นกับแต่ละคน และองค์กรนั้น ๆ

    ทักษะ Web Scraping

    Web Scraping คือ การดึงข้อมูลจากหน้าเว็บไซต์เพื่อนำมาวิเคราะห์ หากใช้วิธีทั่วไปอาจใช้เวลานานในการดึงข้อมูล แต่การใช้ Web Scraping จะช่วยประหยัดเวลาในการดึงข้อมูลจากเว็บได้อย่างมหาศาล

    ทักษะการใช้โปรแกรม Spreadsheet เช่น Google Sheets หรือ Microsoft Excel

    Microsoft Excel หรือ Google Sheets เป็นโปรแกรมที่มีประโยชน์มากสำหรับขั้นตอน Exploratory Data Analysis (EDA) แต่อย่างที่เล่าไปก่อนหน้าว่า Data Scientist นิยมใช้ Python มากกว่า แต่ก็ควรมีทักษะในการใช้โปรแกรม Spreadsheet ติดตัวไว้ด้วย เผื่อในบางสถานการณ์ที่ข้อมูลอาจไม่เยอะมาก การใช้โปรแกรม Spreadsheet อาจเร็วกว่าการใช้ Python

    ซึ่งโดยปกติแล้วทั้งสองโปรแกรมมีวิธีการใช้งานที่คล้ายกัน กล่าวคือคนที่เก่งโปรแกรมใดโปรแกรมหนึ่งมา ก็สามารถมาใช้อีกโปรแกรมนึงได้ไม่ยาก แต่ความแตกต่างระหว่าง Microsoft Excel และ Google Sheets ก็มีไม่น้อย เหมาะสมต่างกันไปตามแต่ละรูปแบบการทำงาน

    ทักษะการวิเคราะห์

    ในส่วนของขั้นตอน Exploratory Data Analysis (EDA) ผู้วิเคราะห์จะต้องมีไหวพริบและทักษะการคิดวิเคราะห์ที่ดี ต้องสามารถหาข้อมูลเชิงลึก (Insight) เพื่อนำมาต่อยอดสำหรับขั้นตอน Modeling ได้

    การวิเคราะห์ที่แม่นยำเป็นสิ่งที่สำคัญมาก เพราะการวิเคราะห์ที่ผิดเพียงเล็กน้อย อาจนำไปสู่การทำ Modeling ที่ไม่สมควร จนอาจะเสียเวลาอย่างมหาศาล

    ทักษะ Critical Thinking

    ตำแหน่งนี้เป็นผู้ที่อยู่กับข้อมูลเยอะเป็นอันดับต้น ๆ ของบริษัท และเข้าใจข้อมูลมากที่สุด ดังนั้นต้องไม่เพียงแต่ดึงข้อมูล วิเคราะห์ และสร้างโมเดล แต่ควรมีทักษะ Critical Thinking เพื่อสามารถคิดต่อยอดจากข้อมูลดังกล่าวได้ด้วย เช่น ต้องสามารถคิดต่อยอดในมุม Business ได้ เพื่อเข้าใจว่าข้อมูลไหนที่นำมาต่อยอดได้บ้าง

    ทักษะ และความรู้ในสายงานที่ทำ

    การมีความรู้ในสายงานที่ทำอยู่ และเข้าใจธุรกิจ จะทำให้รู้ว่าควรวิเคราะห์ และสร้างโมเดลออกมาในรูปแบบไหนที่จะตอบโจทย์ และสร้างคุณค่าให้กับธุรกิจมากที่สุด

    ทักษะการทำ Data Visualization

    Data Visualization ก็เป็นทักษะที่สำคัญ โดยต้องสามารถนำข้อมูลมาแปลงเป็นภาพ เพื่อช่วยเพิ่มความเร็วในการสำรวจข้อมูล ก่อนการวิเคราะห์ต่อไป โดยสำหรับ Data Scientist นิยม Visualize ด้วย Python ผ่าน Library เช่น Matplotlib มากกว่าการใช้เครื่องมือ Business Intelligence เหมือนกับ Data Analyst

    ทักษะ ความรู้ด้านคณิตศาสตร์ และสถิติศาสตร์

    Data Scientist ควรมีความรู้ในด้านคณิตศาสตร์ (Mathematics) และสถิติศาสตร์ (Statistics) เพราะในขั้นตอนการสร้างโมเดล (Modeling) จะต้องใช้ความรู้นี้เข้ามาประกอบในเกือบทุกขั้นตอน เช่น การสร้างโมเดลเส้นตรง (Linear Regression), การคำนวณความผิดพลาด (Error Measurement)

    จริง ๆ แล้ว Library ใน Python เช่น Pandas จะช่วยเรื่องนี้ในระดับที่ค่อนข้างจะเพียงพออยู่แล้ว แต่หากการมีความรู้ด้านคณิตศาสตร์ และสถิติศาสตร์จะช่วยทำให้คิดได้ครอบคลุม และช่วยในการตัดสินใจได้ดีมากขึ้น

    ทักษะการสื่อสาร

    การสื่อสารเป็นอีกทักษะที่สำคัญ เพราะต้องนำเสนอผลลัพธ์ที่ได้ให้ทีมอื่น ๆ เข้าใจด้วย หากเราไม่สามารถทำให้ทีมอื่นสามารถนำข้อมูลเชิงลึก (Insight) หรือโมเดล (Model) ไปใช้งานต่อได้ ก็ถือว่าการทำงานที่ผ่านมาแทบจะไม่มีความหมายเลย


    Data Scientist เงินเดือนเท่าไร

    เงินเดือนตำแหน่ง Data Scientist ในประเทศไทย สำหรับผู้มีอายุงาน 1-3 ปี จะอยู่ที่ประมาณ 30,000 – 50,000 บาทต่อเดือน และสำหรับผู้ที่มีอายุงานตั้งแต่ 3 ปีขึ้นไป จะได้ค่าแรงจะมากกว่า 70,000 บาทต่อเดือน จนกระทั่งมีประสบการณ์ถึง 7 ปี จะสามารถขึ้นไปถึง 200,000 บาทต่อเดือนได้เลยทีเดียว ทั้งนี้ขึ้นอยู่กับองค์กร และอุตสาหกรรม (ข้อมูลจาก Online Salary Guide 2023 โดย Adecco)


    Data Scientist เรียนจบคณะอะไร

    คณะที่เกี่ยวข้องกับสายงานนี้มากที่สุด คือ คณะที่เรียนเกี่ยวกับสถิติ, คณิตศาสตร์, วิทยาการข้อมูล และภาษาคอมพิมเตอร์ต่าง ๆ เช่น คณะวิศวกรรมศาสตร์, คณะวิทยาศาสตร์, คณะเศรษฐศาสตร์ เป็นต้น

    แต่จริง ๆ แล้วทุกคนสามารถเปลี่ยนสายงานมาเป็น Data Scientist ได้ เพราะคนทำงานสายนี้ สิ่งที่สำคัญนอกจาก Technical Skills แล้ว ทักษะความรู้ในการทำงานด้านที่เกี่ยวข้องก็สำคัญไม่แพ้กัน ดังนั้นไม่ว่าจะมี Background มาอย่างไร ก็สามารถมาเติมทักษะที่ขาดไปได้ทั้งนั้น เช่น เรียนจบสาย Marketing หากเติมความรู้ในด้าน Data ก็สามารถเป็น Data Scientist ที่เน้นสร้างโมเดลในสาย Marketing ได้


    เตรียมพร้อมสมัครงานสาย Data Scientist

    การเตรียมพร้อมสมัครงานในสายนี้ไม่ยากอย่างที่คิด เพียงเก็บความรู้ให้ครบ ลองสร้าง Profile ให้ตัวเอง และไปสมัครงานกันได้เลย โดยขอแนะนำขั้นตอน ดังนี้

    1. หาให้เจอว่าอยากทำงาน Data ด้านไหน: อย่างที่ทุกคนรู้กันว่าสายงาน Data มีอีกหลายตำแหน่งนอกจาก Data Scientist เช่น Data Analyst, Data Engineer ซึ่งความแตกต่างของทั้งสามตำแหน่งนี้จะอยู่ที่หน้าทีการทำงานเป็นหลัก
    2. อ่าน Job Description: ของสายนั้น ๆ เพื่อให้ทราบความรู้ที่ควรหาเพิ่มเติม และสามารถเน้นได้อย่างถูกจุดมากยิ่งขึ้น
    3. ลองทำแบบทดสอบวัดความรู้ Data Science: ทดสอบว่าตอนนี้ตัวเองอยู่ในระดับไหน และต้องพัฒนาส่วนไหนเพิ่มเติมอีกบ้าง
    4. เรียน Data Science เพิ่มเติม: โดยดูจากทักษะที่ต้องการพัฒนา รวมถึงหาความรู้ในด้านอื่น ๆ ที่เกี่ยวข้องควบคู่กันไป
    5. สร้าง Profile เตรียมสมัครงาน: บางครั้งการทำ Resume อาจไม่เพียงพอสำหรับการสมัครงาน เราจึงควรเตรียม Profile สาย Data ไว้เพื่อโชว์ผลงานของเรา จะเป็นสิ่งที่ช่วยเล่าวิธีการคิด การแก้โจทย์ และทักษะของเราได้เป็นอย่างดี
    6. ยื่นสมัครงานกันเลย!

    Data Scientist Career Roundtable


    แนวทางศึกษา Data Science เพิ่มเติม

    อ่านมาถึงตรงนี้ เชื่อว่าทุกคนคงรู้จักตำแหน่งนี้เป็นอย่างดีแล้ว สำหรับผู้ที่สนใจในสายอาชีพนี้ ทางเราขอแนะนำวิธีการศึกษา และพัฒนาทักษะด้าน Data Science เพิ่มเติม ดังนี้

    1. อ่านหนังสือ หรือบทความต่าง ๆ เพิ่มเติม เช่น คลังความรู้ฟรีสำหรับสาย Data, แหล่งข้อมูลทำ Data Visualization ให้ดี
    2. อ่าน Case Study หรือศึกษาผลงานของคนอื่น เพื่อให้เข้าใจวิธีคิด วิเคราะห์ และแก้ปัญหาของผู้อื่น เช่น การวิเคราะห์ข้อมูลการปฏิเสธการขึ้นบิน, วิเคราะห์รายการ The Secret Sauce
    3. ติดตามข่าวสารในวงการ Data
    4. ลงเรียนคอร์ส Data กับทาง Skooldio!
    5. ลองฝึกฝนทำจริง เพื่อเพิ่มทักษะ และยังเป็นการช่วยเตรียม Profile สำหรับสมัครงานอีกด้วย

    Data Science Course


    วัดความรู้ Data Science กับ Skill Score

    คนที่อยากทำงานสายนี้อาจจะยังมีคำถามอยู่ว่าเราจะเหมาะมั้ย เก่งพอหรือยัง หรือคนที่ทำงานสายนี้อยู่แล้วคงอยากจะรู้ว่าตอนนี้ตัวเองต้องพัฒนาทักษะด้านไหนเพิ่มบ้าง

    วัดความรู้ Data Analytics

    วัดความรู้ Data Science กับ Skill Score

    ทุกคนสามารถเข้าไปวัดความรู้กับ Skill Score ได้เลย โดยสำหรับชุดแบบทดสอบความรู้สำหรับ Data Scientist ในช่วงก่อนทำโมเดล สามารถใช้แบบทดสอบชุดเดียวกับ Data Analytics ดังด้านล่างนี้ได้เลย

    และถ้าอยากลองทดสอบด้านการใช้ Spreadsheet Tools ซึ่งเป็นเครื่องมือที่สำคัญสำหรับสายงาน Data Analytics แต่อาจไม่ใช่เครื่องมือหลักสำหรับ Data Science สามารถทดสอบได้ที่

    การทำแบบทดสอบจะได้รู้ว่าส่วนไหนที่ขาด ส่วนไหนที่ดีแล้ว ทุกคนจะได้พัฒนาตัวเองได้อย่างถูกทาง ซึ่ง Skooldio หวังว่าทุกคนจะสามารถพัฒนาเป็นในสิ่งที่ตัวเองอยากเป็นได้ครับ


    และหากไม่อยากพลาด Content ดี ๆ แบบนี้ อย่าลืมติดตามช่องทาง Social Media ของ Skooldio ทั้ง Facebook, Instagram, TikTok และ Skooldio Blog กันไว้ด้วยนะครับ 🤗

    Bhumibhat Imsamran
    Business Development Associate | Skooldio

    More in:Data

    Comments are closed.