จุดประสงค์ของการเตรียมข้อมูลคืออะไร

Embed from Getty Images

การเตรียมข้อมูล หรือ data preparation หรือบางทีเราอาจจะเรียกว่า data cleaning เป็นงานที่อาจจะน่าเบื่อสำหรับหลายๆ คน ทั้งๆ ที่ถือเป็นกระบวนการที่สำคัญมากอย่างหนึ่งในงาน business intelligence หากการเตรียมข้อมูลทำได้ไม่ดี มีโอกาสสูงที่จะก่อให้เกิดความเสียหายในขั้นตอนอื่นๆ ที่ตามมาได้ อย่างน้อยที่สุดก็อาจทำให้เสียเวลา ต้องทำใหม่ หรือถ้าแย่กว่านั้น อาจส่งผลให้ผลการวิเคราะห์ หรือการตีความจากการนำข้อมูลไปใช้ ผิดเพี้ยนไปจากที่ควรจะเป็น ข้อแนะนำง่ายๆ ในบทความนี้จะช่วยให้คุณสามารถทำการเตรียมข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ลดงานในอนาคต และได้ประโยชน์สูงสุดจากการเตรียมข้อมูลของคุณ

Data Preparation หมายถึงอะไร

การเตรียมข้อมูล หรือ data preparation หมายถึงกระบวนการใดๆ ที่เราจำเป็นต้องทำกับข้อมูลดิบ (raw data) ที่ได้รับมา เพื่อปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่เหมาะสม ที่จะนำไปโหลดเข้าฐานข้อมูล หรือนำไปวิเคราะห์ต่อไป ความหมายที่เจาะจงของการทำ data preparation อาจจะแตกต่างกันไปสำหรับแต่ละระบบ ผลลัพธ์การประมวลผลของระบบหนึ่ง อาจกลายมาเป็นข้อมูลดิบของระบบต่อไป

เราอาจพิจารณาการทำเตรียมข้อมูลเป็นระบบอย่างหนึ่ง ที่มี input เป็นข้อมูลดิบ และมี output เป็นข้อมูลที่อยู่ในรูปแบบที่พร้อมนำไปใช้งานต่อไปได้ทันที (tidy data: ความหมาย) โดยมากแล้ว การนำข้อมูลไปใช้งานต่อมักจะเป็นการนำไปโหลดเข้าฐานข้อมูลหรือนำไปวิเคราะห์หาคำตอบอย่างใดอย่างหนึ่ง บางคนอาจเรียกกระบวนการนี้ว่า data cleaning ซึ่งก็ให้ความหมายคล้ายคลึงกัน

จุดประสงค์ของการเตรียมข้อมูลคืออะไร

การเตรียมข้อมูลที่มีประสิทธิภาพ ควรมีลักษณะสำคัญดังนี้

  • ให้ผลลัพธ์ที่ครบถ้วนสมบูรณ์
  • ให้ความสำคัญกับนิยามข้อมูล
  • จดบันทึกขั้นตอนการเตรียมข้อมูลโดยละเอียด
  • ปรับกระบวนการให้เป็นอัตโนมัติให้มากที่สุด

ผลลัพธ์ที่ครบถ้วนสมบูรณ์

ผลลัพธ์ของการเตรียมข้อมูล ไม่ได้จำกัดอยู่เพียงแค่ตัวข้อมูล output ที่ผ่านการเตรียมแล้วเท่านั้น แต่ควรจะต้องประกอบไปด้วยองค์ประกอบดังนี้

  • ข้อมูลดิบที่เป็นอินพุท
  • ข้อมูล output ที่ผ่านขั้นตอนแล้ว
  • ขั้นตอนการเตรียมข้อมูลโดยละเอียด
  • Code Book หรือเอกสารนิยามข้อมูล

การให้ผลลัพธ์ทั้งหมด จะช่วยให้การนำข้อมูลไปใช้งานต่อไป วางอยู่บนพื้นฐานที่มั่นคง และการทำการเตรียมข้อมูลซ้ำอีกครั้ง สำหรับข้อมูลชุดใหม่ สามารถทำได้รวดเร็วมากขึ้น

ให้ความสำคัญกับนิยามข้อมูล

นิยามข้อมูล หรือที่เราอาจจะเรียกว่า code book หรือ data dictionary เป็นเอกสารที่ใช้อธิบาย รูปแบบ โครงสร้าง และความหมายของผลการเตรียมข้อมูล อ่านนิยามของ code book ได้ที่นี่
เอกสารนี้มีความสำคัญอย่างยิ่ง เพราะจะช่วยให้ผู้ที่จะนำข้อมูลที่ผ่านการเตรียมแล้ว ไปใช้งานต่อ สามารถรู้ได้อย่างชัดเจนว่า ข้อมูลแต่ละคอลัมน์ แต่ละฟิลด์ เป็นข้อมูลอะไร มีความหมายอย่างไร มีหน่วยวัดอย่างไร ผ่านการคำนวณเบื้องต้นมาอย่างไรบ้าง ถ้ามีข้อมูลบางส่วนที่ขาดหายไป จะแสดงผลอย่างไร

การละเลยไม่เขียนเอกสารนิยามข้อมูล จะทำให้ผู้ที่นำข้อมูลไปใช้ต่อไป จำเป็นต้อง “เดา” ความหมายของข้อมูลเอาเอง อาจจะจากชื่อของฟิลด์(ซึ่งก็อาจไม่สื่อความหมายเท่าที่ควร) หรือจากธรรมเนียมปฎิบัติโดยทั่วไป ผลเสียจะเกิดขึ้นเมื่อเดาผิด ส่งผลให้การนำข้อมูลไปใช้ต่อผิดพลาดไปด้วย

จดบันทึกขั้นตอนการเตรียมข้อมูล

การทำบันทึกขั้นตอนการเตรียมข้อมูลโดยละเอียด จะช่วยให้เราสามารถทำซ้ำกระบวนการนั้นได้ โดยไม่จำเป็นต้องมาลองผิดลองถูกอีกครั้ง รายละเอียดการจดบันทึก ควรประกอบไปด้วย

  • ระบบที่ใช้ ใช้ซอฟต์แวร์ตัวใด เวอร์ชันไหน
  • ข้อมูลดิบ ได้มาจากไหน ดาวน์โหลดอย่างไร ใช้โปรแกรมอะไรดาวน์โหลด มีพารามิเตอร์อะไรบ้าง
  • ขั้นตอนโดยละเอียด เช่น มีการเปลี่ยนชื่อไฟล์ มีการแปลงรูปแบบไฟล์ อย่างไรบ้าง
  • รายละเอียดหากมีการเปลี่ยนแปลงข้อมูล เพิ่มหรือลบ ข้อมูลบางแถวหรือบางคอลัมน์

รายละเอียดขั้นตอนเหล่านี้ ควรจะถูกส่งมอบในฐานะส่วนหนึ่งของผลลัพธ์การเตรียมข้อมูลด้วย นอกจากจะเป็นบันทึกความจำที่เราอาจได้ใช้ประโยชน์เองในภายหลัง ที่สำคัญคือ มันเปิดโอกาสให้คนอื่น สามารถทำซ้ำกระบวนการการเตรียมข้อมูลได้เช่นเดียวกับเรา และยังคงได้ผลลัพธ์เช่นเดียวกัน

ปรับให้เป็นกระบวนการอัตโนมัติ

หากเรามีความจำเป็นต้องทำการเตรียมข้อมูลในลักษณะเดียวกันหลายๆ ครั้ง ควรพิจารณาหาวิธีที่จะทำให้กระบวนการ (ที่เราบันทึกไว้) มีความเป็นอัตโนมัติมากที่สุด เพราะจะช่วยให้ประหยัดเวลาได้มากในระยะยาว การปรับกระบวนการให้เป็นอัตโนมัติขึ้นอยู่กับเครื่องมือที่ใช้ อาจเขียนเป็น script หรีอใช้ แมคโคร ขึ้นอยู่กับซอฟต์แวร์ที่เราใช้ในการเตรียมข้อมูลเป็นหลัก

หลักการของการปรับกระบวนการเป็นอัตโนมัติ คือการพยายามลด human interaction หรือความจำเป็นที่จะต้องให้ “คน” ทำอะไรบางอย่างให้ลดน้อยลงให้มากที่สุด

ความท้าทายจะอยู่ตรงที่ การหาจุดคุ้มทุนที่เหมาะสมในการพัฒนาขั้นตอนอัตโนมัติ โดยเทียบกับผลประโยชน์ที่จะได้รับ การพัฒนาขั้นตอนอัตโนมัติมีต้นทุน ต้องมีการพัฒนามีการทดสอบ ต้นทุนเหล่านี้ขึ้นอยู่กับทักษะทางด้านโปรแกรมมิ่งของผู้พัฒนาเอง ผลประโยชน์ที่จะได้รับจะอยู่ในรูปของเวลาที่ประหยัดได้ (โดยที่ผู้ใช้ไม่จำเป็นต้องมาคอย กด หรือคลิ้ก หรือพิมพ์อะไรบางอย่างลงไป) คูณกับ จำนวนครั้งที่จะต้องทำกระบวนการเดิมซ้ำๆ กัน ดังนั้นแล้ว คำถามหนึ่งที่น่าสนใจก็คือ เราคาดว่าจำเป็นจะต้องทำกระบวนการเตรียมข้อมูลซ้ำบ่อยครั้งมากน้อยเท่าใด เทียบเวลาที่ต้องใช้แต่ละครั้ง แล้วคุ้มค่ากับการพัฒนาขั้นตอนอัตโนมัติหรือไม่

สรุป

ขั้นตอนและข้อแนะนำในการเตรียมข้อมูลเหล่านี้ อาจจะดูเผินๆ เหมือนเป็นการเพิ่มงานให้มากขึ้นในตอนแรก แต่คำแนะนำเหล่านี้จะช่วยเพิ่มคุณภาพของข้อมูลผลลัพธ์ ลดและป้องกันปัญหาที่อาจเกิดตามมา และทำให้งาน business intelligence มีประโยชน์มากขึ้นได้

จุดประสงค์ของการเตรียมข้อมูลเพื่ออะไร

การเตรียมข้อมูลเป็นกระบวนการจัดเตรียมข้อมูลดิบเพื่อให้เหมาะกับการประมวลผลและการวิเคราะห์เพิ่มเติม ขั้นตอนที่สำคัญ ได้แก่ การเก็บรวบรวม การทำความสะอาด และการระบุประเภทข้อมูลสำหรับข้อมูลดิบในรูปแบบที่เหมาะสมสำหรับอัลกอริทึมของแมชชีนเลิร์นนิ่ง (ML) แล้วจึงสำรวจและแสดงผลข้อมูลต่อไป การเตรียมข้อมูลอาจใช้เวลาถึง 80% ของเวลา ...

การเตรียมข้อมูลมีความสำคัญอย่างไร

การเตรียมข้อมูล นับเป็นขั้นตอนที่สาคัญมากในกระบวนการของการท างานด้านวิทยาการข้อมูล ซึ่งถ้า การเตรียมข้อมูลทาได้ไม่ดีก็อาจจะส่งผลให้การท างานในขั้นตอนอื่นไม่มีประสิทธิภาพตามไปด้วย โดยผลกระทบ ที่เกิดขึ้นร้ายแรงน้อยที่สุดอาจท าให้เสียเวลา ต้องท าใหม่ หรือถ้าแย่กว่านั้นอาจส่งผลให้ผลการวิเคราะห์ หรือ การตีความจากการน า ...

การเตรียมข้อมูล (Data Preparation) มีประโยชน์อย่างไร

การเตรียมข้อมูล หรือ data preparation หมายถึงกระบวนการใดๆ ที่เราจำเป็นต้องทำกับข้อมูลดิบ (raw data) ที่ได้รับมา เพื่อปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่เหมาะสม ที่จะนำไปโหลดเข้าฐานข้อมูล หรือนำไปวิเคราะห์ต่อไป ความหมายที่เจาะจงของการทำ data preparation อาจจะแตกต่างกันไปสำหรับแต่ละระบบ ผลลัพธ์การประมวลผลของระบบหนึ่ง อาจ ...

ข้อใดคือความหมายของ Data Preparation

2.1.1 Data Preparation หมายถึงกระบวนการใดๆ ที่จ าเป็นต้องท ากับข้อมูลดิบ (raw data) ที่ได้รับมา เพื่อปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่เหมาะสม ที่จะน าไปโหลด เข้าฐานข้อมูล หรือน าไปวิเคราะห์ต่อไป ความหมายที่เจาะจงของการท า Data Preparation อาจจะแตกต่างกันไปส าหรับแต่ละระบบ ผลลัพธ์การประมวลผลของระบบหนึ่ง อาจกลาย มาเป็น ...