อินเทอร์เน็ต

กระบวนการขุดข้อมูลคืออะไร?

กระบวนการขุดข้อมูลเป็นเครื่องมือในการเปิดเผยรูปแบบที่มีนัยสำคัญทางสถิติในข้อมูลจำนวนมากโดยทั่วไปจะเกี่ยวข้องกับห้าขั้นตอนหลักซึ่งรวมถึงการเตรียมการสำรวจข้อมูลการสร้างแบบจำลองการปรับใช้และการตรวจสอบแต่ละขั้นตอนในกระบวนการเกี่ยวข้องกับชุดของเทคนิคที่แตกต่างกัน แต่ส่วนใหญ่ใช้การวิเคราะห์ทางสถิติบางรูปแบบ

ก่อนที่กระบวนการขุดข้อมูลจะเริ่มขึ้นนักวิจัยมักจะกำหนดวัตถุประสงค์การวิจัยขั้นตอนการเตรียมการนี้มักจะกำหนดประเภทของข้อมูลที่จำเป็นต้องศึกษาควรใช้เทคนิคการทำเหมืองข้อมูลใดบ้างและผลลัพธ์ที่จะเกิดขึ้นขั้นตอนเริ่มต้นในกระบวนการนี้อาจมีความสำคัญต่อการรวบรวมข้อมูลที่เป็นประโยชน์

ขั้นตอนต่อไปในกระบวนการขุดข้อมูลคือการสำรวจขั้นตอนนี้มักจะเกี่ยวข้องกับการรวบรวมข้อมูลที่ต้องการจากคลังข้อมูลหรือหน่วยงานรวบรวมจากนั้นผู้เชี่ยวชาญด้านการขุดมักจะเตรียมชุดข้อมูลดิบสำหรับการวิเคราะห์ขั้นตอนนี้มักจะประกอบด้วยการรวบรวมการทำความสะอาดการจัดระเบียบและการตรวจสอบข้อมูลทั้งหมดสำหรับข้อผิดพลาด

ข้อมูลที่เตรียมไว้นี้มักจะเข้าสู่ขั้นตอนที่สามในกระบวนการขุดข้อมูลการสร้างแบบจำลองเพื่อให้บรรลุสิ่งนี้นักวิจัยมักจะใช้ตัวอย่างข้อมูลขนาดเล็กและใช้เทคนิคการขุดข้อมูลที่หลากหลายกับพวกเขาขั้นตอนการสร้างแบบจำลองมักใช้เพื่อกำหนดวิธีที่ดีที่สุดของการวิเคราะห์ทางสถิติที่จำเป็นเพื่อให้ได้ผลลัพธ์ที่ต้องการ

มีสี่เทคนิคหลักที่สามารถนำไปใช้ในกระบวนการขุดข้อมูลครั้งแรกคือการจำแนกประเภทซึ่งจัดเรียงข้อมูลเป็นกลุ่มหรือหมวดหมู่ที่กำหนดไว้ล่วงหน้าในเทคนิคที่สองที่เรียกว่าการจัดกลุ่มนักวิจัยอนุญาตให้คอมพิวเตอร์จัดระเบียบข้อมูลเป็นกลุ่มตามที่เลือกเทคนิคการขุดข้อมูลที่สามแสวงหาความสัมพันธ์ระหว่างตัวแปรโดยทั่วไปแล้วที่สี่จะมองหารูปแบบลำดับในข้อมูลที่อาจใช้ในการทำนายแนวโน้มในอนาคต

ขั้นตอนสุดท้ายในกระบวนการขุดข้อมูลคือการปรับใช้ในการทำเช่นนี้เทคนิคที่เลือกในแบบจำลองจะถูกนำไปใช้กับชุดข้อมูลขนาดใหญ่และวิเคราะห์ผลลัพธ์รายงานที่มาจากขั้นตอนนี้มักจะแสดงรูปแบบที่พบในกระบวนการทั้งหมดรวมถึงการจำแนกประเภทกลุ่มการเชื่อมโยงหรือรูปแบบตามลำดับที่มีอยู่ภายในชุดข้อมูล

การตรวจสอบมักเป็นขั้นตอนสุดท้ายที่สำคัญขั้นตอนนี้ในกระบวนการมักจะเกี่ยวข้องกับการทำซ้ำโมเดลการขุดด้วยชุดข้อมูลใหม่เพื่อให้แน่ใจว่าชุดหลักเป็นตัวแทนของประชากรทั้งหมดของข้อมูลผลลัพธ์ไม่สามารถทำนายแนวโน้มในประชากรที่มีขนาดใหญ่กว่าได้หากตัวอย่างข้อมูลไม่ได้เป็นตัวแทนอย่างถูกต้อง