การจำแนกประเภทการทำเหมืองข้อมูลคืออะไร?

การจำแนกการขุดข้อมูลเป็นขั้นตอนเดียวในกระบวนการขุดข้อมูล มันถูกใช้เพื่อจัดกลุ่มรายการตามลักษณะสำคัญบางอย่าง มีเทคนิคหลายอย่างที่ใช้สำหรับการจำแนกการทำเหมืองข้อมูลรวมถึงการจำแนกเพื่อนบ้านที่ใกล้ที่สุดการเรียนรู้ต้นไม้ตัดสินใจและการสนับสนุนเครื่องเวกเตอร์

Data mining เป็นวิธีที่นักวิจัยใช้ในการดึงรูปแบบจากข้อมูล โดยทั่วไปตัวอย่างตัวแทนจะถูกเลือกจากแหล่งข้อมูลจากนั้นจัดการและวิเคราะห์เพื่อหารูปแบบ นอกเหนือจากการจำแนกการทำเหมืองข้อมูลนักวิจัยอาจใช้การจัดกลุ่มการถดถอยและการเรียนรู้กฎเพื่อวิเคราะห์ข้อมูล

มีอัลกอริธึมหลายอย่างที่สามารถใช้ในการจำแนกประเภทการทำเหมืองข้อมูล การจำแนกเพื่อนบ้านที่ใกล้ที่สุดคือหนึ่งในอัลกอริธึมการจำแนกประเภทข้อมูลที่ง่ายที่สุด มันขึ้นอยู่กับชุดฝึกอบรม ชุดฝึกอบรมเป็นชุดข้อมูลที่ใช้ในการฝึกอบรมคอมพิวเตอร์ให้ใส่ใจกับตัวแปรบางตัว ในการจำแนกเพื่อนบ้านที่ใกล้ที่สุดคอมพิวเตอร์เพียงแค่จัดประเภทข้อมูลทั้งหมดเป็นส่วนหนึ่งของกลุ่มที่มีข้อมูลที่ใกล้เคียงที่สุดในการป้อนข้อมูล

การเรียนรู้ต้นไม้ตัดสินใจใช้รูปแบบการแตกแขนงเพื่อจำแนกข้อมูล คอมพิวเตอร์จะถามคำถามเกี่ยวกับข้อมูลเป็นชุด หากคำตอบของคำถามแรกเป็นจริงคำถามนั้นจะถามคำถาม 2a หากคำตอบเป็นเท็จก็จะถามคำถาม 2b เมื่อดึงออกมาวิธีการนี้จะสร้างแผนภูมิของเส้นทางการแตกแขนง

การจัดหมวดหมู่ Naive Bayes อาศัยความน่าจะเป็น มันถามชุดคำถามเกี่ยวกับข้อมูลแต่ละส่วนแล้วใช้คำตอบเพื่อกำหนดความน่าจะเป็นที่ข้อมูลอยู่ในการจำแนกประเภทเฉพาะ สิ่งนี้แตกต่างจากการเรียนรู้ต้นไม้ตัดสินใจเพราะคำตอบของคำถามแรกไม่ได้มีอิทธิพลต่อคำถามใดที่จะถามต่อไป

วิธีการที่ซับซ้อนยิ่งขึ้นของการจำแนกประเภทการขุดข้อมูลรวมถึงเครือข่ายประสาทเทียมและเครื่องเวกเตอร์สนับสนุน วิธีการเหล่านี้เป็นแบบจำลองที่ใช้คอมพิวเตอร์ซึ่งจะทำได้ยากด้วยมือ เครือข่ายประสาทมักใช้ในการเขียนโปรแกรมปัญญาประดิษฐ์เพราะมันเลียนแบบสมองมนุษย์ มันกรองข้อมูลผ่านชุดของโหนดที่ค้นหารูปแบบแล้วจำแนกข้อมูล

เครื่องเวกเตอร์สนับสนุนใช้ตัวอย่างการฝึกอบรมเพื่อสร้างแบบจำลองที่จะจำแนกข้อมูลซึ่งปกติจะมองเห็นเป็นพล็อตกระจายที่มีช่องว่างกว้างระหว่างหมวดหมู่ เมื่อข้อมูลใหม่ถูกป้อนเข้าสู่เครื่องข้อมูลจะถูกลงจุดบนกราฟ ข้อมูลจะถูกจัดประเภทตามประเภทของข้อมูลที่ใกล้เคียงที่สุดบนกราฟ วิธีนี้ใช้ได้เฉพาะเมื่อมีสองตัวเลือกให้เลือก