Show การทำความสะอาดข้อมูล (Data Cleaning) คือขั้นตอนหนึ่งในกระบวนการทำงานด้าน
Data โดยมีจุดประสงค์เพื่อให้ข้อมูลมีความถูกต้อง และเหมาะสมกับโจทย์งานหรือโมเดลที่จะใช้มากยิ่งขึ้น ช่วยให้ได้ผลวิเคราะห์ที่เชื่อถือได้มีประสิทธิภาพหรือได้ AI ที่สามารถทำงานได้ถูกต้องแม่นยำมากขึ้น ซึ่งข้อมูลที่ต้องทำความสะอาดนั้นอาจมีปัญหาหลายเรื่องด้วยกันเช่น ในชุดข้อมูลมีข้อมูลไม่ครบถ้วนขาดหายไปบางช่อง, รูปแบบวันที่ไม่ถูกต้อง, หน่วยของข้อมูลไม่สัมพันธ์กัน, คำผิดถูก, ประเภทของข้อมูล และอื่น ๆ อีกมากมาย
ด้วยปัญหาที่ไม่รู้จบนี้ส่งผลให้งานทำความสะอาดข้อมูลเป็นงานที่ต้องใช้เวลานานมากเพราะกว่าจะหารูปแบบของข้อมูลที่ผิดได้หรือกว่าจะทำความเข้าใจชุดข้อมูลได้นั้นก็กินเวลาอย่าง ตัวอย่างการทำ Data Cleaning เบื้องต้นการจัดการกับค่าว่าง (Missing Values)
การจัดการช่วงของข้อมูล
และการกระจายตัวของข้อมูล (Scaling & Normalization)
การจัดการกับข้อมูลที่เป็นวันที่ (Parsing Dates) การเข้ารหัสตัวอักษร (Character Encodings) Tips ใน python บางครั้ง utf-8 ไม่สามารถใช้เข้ารหัสภาษาไทยได้ ให้ลองใช้เป็น tis-620 แทน รูปแบบของข้อมูลไม่สอดคล้องกัน (Inconsistent Data Entry) ConclusionData Cleaning คือการเพิ่มความถูกต้องให้กับชุดข้อมูล และเตรียมข้อมูลให้เหมาะสมกับงานโดยพื้นฐานแล้วควรเริ่มที่การทำความเข้าใจชุดข้อมูล ทำความเข้าใจโจทย์งาน และดูภาพรวมของข้อมูลแบบเดิมก่อน (Data Profiling) จากนั้นจึงจัดการตามเหมาะสม โดยสิ่งที่มักจะเจอเป็นประจำก็คือตามในหัวข้อที่ 2 ด้านบนนี้หากต้องการเรียนรู้และฝึกฝนเพิ่มเติม สามารถเรียนฟรีได้ที่ Kaggle โดยจะมีทั้งคำอธิบายที่ละเอียดและตัวอย่างข้อมูลให้ได้ทดลองทำกันอีกทั้งเมื่อเรียนจบแล้วยังได้ Certificate อีกด้วย เรียนได้ที่ลิงก์นี้เลย Related Post© 2022 hitexts. All rights reservedการทําความสะอาดข้อมูล(Data Cleansing) ประกอบด้วยอะไรบ้างการทำความสะอาดข้อมูล Data cleansing หรือ data cleaning หรือ data scrubbing คือ กระบวนการตรวจสอบ การแก้ไข หรือการลบ เพื่อให้รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่น ๆ เป็นต้น จึงทำให้ผู้เชี่ยวชาญหลาย ...
ขั้นตอนการทําความสะอาดข้อมูล มี 4 ขั้นตอน อะไรบ้าง4 ขั้นตอนการทำความสะอาดข้อมูล ดังนี้ 1 Parsing คือ การแจกแจงข้อมูล 2 Correcting คือ การแก้ไขข้อมูลที่ผิดพลาด 3 Standardizing คือ การทำข้อมูลให้เป็นรูปแบบเดียวกัน และ 4 Duplicate Elimination คือ การลบชุดข้อความซ้ำซ้อนทิ้ง E0%B8%82%E0%B8%B1%E0%B9%89%E0%B8%99%E0%B8%95%E0%B8%AD%E0%B8%99%E0%B8%81%E0%B8%B2%E0%B8%A3-clean- ...
ขั้นตอน Parsing ของการทำความสะอาดข้อมูล คือข้อใดParsing คือ การแจกแจงข้อมูล หรือการใช้หัวข้อของชุดข้อมูล ความสำคัญของขั้นตอนนี้ไม่ใช่แค่การใช้ Head ของข้อมูล แต่เป็นการทำความเข้าใจว่าคำจำกัดความของชุดข้อมูลนั้นๆ คืออะไร รวมไปถึงเข้าใจค่า และความหมายของมัน เช่น มีค่าสูงสุด หรือ ต่ำสุดเท่าไหร่ เป็นต้น
|