ข้อมูลมันสกปรกอะไรขนาดนั้น ทำไมต้องเสียเวลามากมายทำความสะอาด?

cleaning materials

เป็นเรื่องที่รู้กันในวงการ data science ว่าการทำความสะอาดข้อมูลนั้นกินเวลาถึง 70–80% ของการทำงาน นักวิทยาศาสตร์ข้อมูล (data scientist) หลายคนถึงกับบอกว่าตัวเองเป็น data janitor หรือภารโรงข้อมูล ซะมากกว่า

เมื่อไหร่จึงควรใช้แผนภูมิวงกลม (Pie chart)

pie chart

Pie chart (แผนภูมิวงกลม) หรือวงกลมที่แตกเป็นเสี่ยงๆ (เหมือนการแบ่งพายหรือพิซซ่าเป็นชิ้นๆ) นั้นแสดงถึงส่วนประกอบหลายๆส่วนที่รวมกันเป็นหนึ่ง โดยขนาดของแต่ละชิ้นก็เป็นสัดส่วนกับปริมาณของส่วนประกอบนั้น