Python คือหนึ่งในภาษาการเขียนโปรแกรมที่ได้รับความนิยมไปทั่วโลก เพราะเป็นภาษาที่มีความสามารถรอบด้านไม่ว่าจะเป็นภาษาที่ใช้พัฒนา Web Application, การพัฒนา Backend และอื่นๆ รวมถึงการทำ Data Analytics และ Machine Learning เอง Python ก็สามารถทำได้ แถมยังทำได้ดีเสียด้วย
ภาษาสารพัดประโยชน์อย่าง Python ถ้าจะต้องจำทุกคำสั่งก็คงจะต้องใช้แรงไม่น้อย เลยมีผู้พัฒนาหลายๆ คน พยายามที่จะนำคำสั่งต่างๆ ของ Python มาสร้างเป็นชุดคำสั่ง หรือเป็น Package เพื่อให้สามารถทำงานตามวัตถุประสงค์แต่ละด้านได้อย่างมีประสิทธิภาพมากขึ้น โดยที่เรียกสิ่งที่ว่านี้ว่า “Python Library”
ในบทความนี้ Skooldio จะขอพาทุกคน ไปรู้จักกับ 5 Python Library ที่คนทำงานสาย Data อย่าง Data Analyst หรือ Data Scientist ควรรู้จักกัน
Table of Contents
1.NumPy
มีชื่อเต็มว่า “Numerical Python” ซึ่งแน่นอนว่า ชื่อมาขนาดนี้แล้ว NumPy ต้องโดดเด่นในในด้านการคำนวณ และการทำงานกับตัวเลขอย่างแน่นอน ( NumPy ถือเป็น Scientific Computing Library ที่สำคัญมากของ Python)
นอกจากนี้ NumPy ยังมีความสามารถสำคัญในการสร้าง Array (โครงสร้างข้อมูล) และ Multidimensional Array ได้ ทำให้การคำนวณบน Python มีความรวดเร็วมากขึ้น ซึ่งแม้ Python พื้นฐานเอง จะมี Python list ที่มีความคล้ายคลึงกับ Array แต่ NumPy สามารถจัดการข้อมูลเหล่านี้ได้เร็วกว่าการใช้ Python list ธรรมดาๆ
NumPy จะถูกนำไปใช้พัฒนา Library อื่นอีกด้วย เช่น Matplotlib และ pandas
2.pandas
สุดยอด Library แห่งการจัดการข้อมูล (Data Wrangling/ Data Cleaning) และการวิเคราะห์ข้อมูล (Data Analysis) ถ้าใครที่เคยมีปัญหากับการต้องจัดการกับข้อมูลขนาดใหญ่แล้วละก็ คงจะต้องเคยเจอปัญหา Spreadsheets ช้า หรือไม่เสถียรแน่นอน แต่ถ้าคุณใช้ pandas ซึ่งถูกพัฒนามาเพื่อทำงานกับข้อมูลขนาดใหญ่แล้วละก็ ทุกความยุ่งยาก และปัญหาที่เคยเจอจะหมดไปทันที
pandas จะเข้ามามีบทบาทการทำงานของสายอาชีพ Data โดยเฉพาะอย่างยิ่ง Data Scientist ตั้งแต่เริ่มนำเข้าข้อมูลเลยก็ว่าได้ เพราะ pandas สามารถเชื่อมต่อการแหล่งข้อมูลได้หลากหลาย หลังจากนั้นก็สามารถจัดเตรียมข้อมูล ทำความสะอาด และจัดรูปแบบให้พร้อมกับการนำไปวิเคราะห์ จนถึงแสดงผลเบื้องต้นก็ได้
และหากคุณต้องเจอกับการทำงานรูปแบบซ้ำๆ กัน pandas ก็จะสามารถลดงานคุณได้เพียงคุณเขียน pandas อย่างมีประสิทธิภาพ
3.Matplotlib
เป็น Library อันดับหนึ่งในการสร้างกราฟ และทำ Data Visualization (คล้ายกับ MATLAB ซึ่งมาพร้อมกับ Python) โดยที่ Matplotlib สามารถสร้างกราฟได้หลายประเภทเพื่อตอบโจทย์การทำงานของผู้ใช้ให้ได้หลากหลาย เช่น กราฟเส้น แผนภูมิจุดแบบกระจัดกระจาย (Scatter Plot), กราฟแท่ง และฮิสโตแกรม, แผนภูมิบ็อกซ์และวิสเกอร์ (Box Plot หรือ Whisker Plot) และอื่นๆ
เรียกได้ว่าถ้าคุณต้องการวาด Python ออกมาเป็นรูป Matplotlib คือสิ่งที่คุณต้องมองหา
4.Scikit Learn
เป็น Library ที่ถูกพัฒนาโดยใช้ Library สำคัญอื่นๆ ได้แก่ Numpy, SciPy และ Matplotlib ซึ่งถูกพัฒนาขึ้นเพื่อทำ Machine Learning ทั้งในรูปแบบของ Unsupervised Learning และ Supervised Learning นั่นเอง
ซึ่ง Scikit Learn จะเน้นในส่วนของการสร้างโมเดลเพื่อทำนาย/พยากรณ์ต่างๆ สามารถทำ Spam Detection, Image Recognition, Clustering หรือ Regression ก็ได้ จุดที่ต้องระวังคือ หากคุณต้องการผลที่ถูกต้อง หรือมีประสิทธิภาพสูง น่าเชื่อถือ คุณจำเป็นจะต้องมี Input Data ที่ดีด้วย และ NumPy และ pandas มักเป็น 2 เครื่องมือที่ถูกเลือกใช้ก่อนการป้อนข้อมูลลงใน Model นั่นเอง
5. Tensorflow
สำหรับคนที่อยากเป็น Data Scientist, Machine Learning Engineer หรือ Deep Learning Engineer ต้องรู้จัก Tensorflow เพราะเป็น Library ที่พัฒนาขึ้นเพื่อการทำงาน Machine Learning / AI โดยเฉพาะ (พัฒนาโดยทีม Google Brain Team)
ความสามารถของ TensorFlow จะอยู่ที่การแบ่งแยก (Classification) การรับรู้ และจดจำ (Perception and Understanding) การพยากรณ์ผล (Prediction) เป็นต้น
ซึ่งก่อให้เกิดเทคโนโลยีที่มีความสามารถต่อๆ เช่น
- Voice/ Sound Recognition
- Sentiment Analysis
- Text-Based Apps
- Face Recognition
- Time Series
- Video Detection
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
หากใครที่อ่านแล้วรู้สึกอยากจะอัปสกิล Python โดยเฉพาะอย่างยิ่งด้าน Data แล้วละก็ Skooldio ขอแนะนำคอร์สออนไลน์ที่สอนให้คุณทำงานกับโปรเจกต์จริงตั้งแต่เริ่มต้น จนนำ Ingishts ไปใช้งานได้จริงกับคอร์ส Essential pandas for Data Science ที่ครอบคลุมพื้นฐาน NumPy ที่จำเป็น และเน้น pandas อย่างเข้มข้นตลอด 16 – 18 ชั่วโมง
คอร์สนี้สอนโดย คุณเกรท สรณภพ เทวปฏิคม Data Scientist ที่ INFINITAS by Krungthai ผู้ผ่านประสบการณ์การทำงานกับข้อมูลขนาดใหญ่ และเข้าใจปัญหาที่ Data Scientist ต้องเจอะเจอจริงๆ ที่อาจไม่ได้ถูกเขียนไว้ในตำรา
ดูรายละเอียดคอร์สและสมัครเรียนได้ที่นี่
ที่มา:
- https://towardsdatascience.com/top-10-python-libraries-for-data-science-cd82294ec266
- https://matplotlib.org/stable/plot_types/index.html
- https://www.tensorflow.org/about