Skip to main content

การขุดข้อมูลทางสถิติคืออะไร?

การขุดข้อมูลทางสถิติหรือที่เรียกว่าความรู้หรือการค้นพบข้อมูลเป็นวิธีการคอมพิวเตอร์ในการรวบรวมและวิเคราะห์ข้อมูลเครื่องมือการขุดข้อมูลใช้ข้อมูลและจัดหมวดหมู่ข้อมูลเพื่อค้นหารูปแบบหรือความสัมพันธ์ที่สามารถใช้ในแอพพลิเคชั่นที่สำคัญเช่นยาการเขียนโปรแกรมคอมพิวเตอร์การส่งเสริมธุรกิจและการออกแบบหุ่นยนต์เทคนิคการขุดข้อมูลทางสถิติใช้คณิตศาสตร์ที่ซับซ้อนและกระบวนการทางสถิติที่ซับซ้อนเพื่อสร้างการวิเคราะห์

การขุดข้อมูลเกี่ยวข้องกับห้าขั้นตอนสำคัญแอปพลิเคชันการขุดข้อมูลครั้งแรกรวบรวมข้อมูลทางสถิติและวางข้อมูลในโปรแกรมประเภทคลังสินค้าถัดไปข้อมูลในคลังสินค้าจะถูกจัดระเบียบและสร้างระบบการจัดการขั้นตอนต่อไปสร้างวิธีในการเข้าถึงข้อมูลที่มีการจัดการจากนั้นขั้นตอนที่สี่พัฒนาซอฟต์แวร์เพื่อวิเคราะห์ข้อมูลหรือที่เรียกว่าการถดถอยการขุดข้อมูลในขณะที่ขั้นตอนสุดท้ายอำนวยความสะดวกในการใช้หรือตีความข้อมูลทางสถิติในทางปฏิบัติ

โดยทั่วไปเทคนิคการขุดข้อมูลรวมระบบการวิเคราะห์และการทำธุรกรรมซอฟต์แวร์วิเคราะห์เรียงลำดับผ่านระบบข้อมูลทั้งสองประเภทโดยใช้คำถามผู้ใช้ปลายเปิดคำถามปลายเปิดอนุญาตให้มีคำตอบนับไม่ถ้วนดังนั้นโปรแกรมเมอร์จะไม่ส่งผลต่อผลลัพธ์ของการเรียงลำดับโปรแกรมเมอร์สร้างรายการคำถามเพื่อช่วยในการจัดหมวดหมู่ข้อมูลโดยใช้การโฟกัสโดยรวม

การเรียงลำดับจะขึ้นอยู่กับการพัฒนาคลาสและกลุ่มข้อมูลการเชื่อมโยงที่พบในข้อมูลและพยายามกำหนดรูปแบบและแนวโน้มตามความสัมพันธ์ตัวอย่างเช่น Google รวบรวมข้อมูลเกี่ยวกับผู้ใช้ที่ซื้อนิสัยเพื่อช่วยในการวางโฆษณาออนไลน์คำถามปลายเปิดที่ใช้ในการเรียงลำดับข้อมูลผู้ซื้อนี้มุ่งเน้นไปที่การซื้อการตั้งค่าหรือการดูนิสัยของผู้ใช้อินเทอร์เน็ต

นักวิทยาศาสตร์คอมพิวเตอร์และโปรแกรมเมอร์มุ่งเน้นไปที่การวิเคราะห์ข้อมูลทางสถิติที่รวบรวมการสร้างต้นไม้ตัดสินใจ, เครือข่ายประสาทเทียม, วิธีเพื่อนบ้านที่ใกล้ที่สุด, การเหนี่ยวนำกฎ, การสร้างภาพข้อมูลและอัลกอริทึมทางพันธุกรรมทั้งหมดใช้ข้อมูลที่ทำด้วยสถิติระบบการจำแนกประเภทเหล่านี้ช่วยในการตีความความสัมพันธ์ที่ค้นพบโดยโปรแกรมข้อมูลการวิเคราะห์การขุดข้อมูลทางสถิติเกี่ยวข้องกับโครงการขนาดเล็กที่สามารถทำได้ในขนาดเล็กในคอมพิวเตอร์ที่บ้าน แต่ชุดสมาคมการขุดข้อมูลส่วนใหญ่มีขนาดใหญ่มากและการถดถอยการขุดข้อมูลจึงซับซ้อนจนต้องใช้ซูเปอร์คอมพิวเตอร์หรือเครือข่ายคอมพิวเตอร์ความเร็วสูง

การขุดข้อมูลทางสถิติรวบรวมข้อมูลทั่วไปสามประเภทรวมถึงข้อมูลการดำเนินงานข้อมูลที่ไม่ใช่การทำงานและข้อมูลเมตาในร้านขายเสื้อผ้าข้อมูลการดำเนินงานเป็นข้อมูลพื้นฐานที่ใช้ในการดำเนินธุรกิจเช่นการบัญชีการขายและการควบคุมสินค้าคงคลังข้อมูลที่ไม่ใช่การดำเนินงานซึ่งเกี่ยวข้องกับธุรกิจโดยอ้อมรวมถึงการประมาณการการขายในอนาคตและข้อมูลทั่วไปเกี่ยวกับตลาดเสื้อผ้าแห่งชาติข้อมูลเมตาเกี่ยวข้องกับข้อมูลเองโปรแกรมที่ใช้ข้อมูลเมตาอาจเรียงลำดับลูกค้าจัดเก็บเป็นประเภทตามเพศหรือที่ตั้งทางภูมิศาสตร์ของผู้ซื้อเสื้อผ้าหรือลูกค้าสีโปรดหากมีการรวบรวมข้อมูล

แอปพลิเคชันการขุดข้อมูลอาจมีความซับซ้อนอย่างมากมีแอพพลิเคชั่นที่ใช้งานได้อย่างกว้างขวางการศึกษาการระบาดของโรคเป็นตัวอย่างหนึ่งโครงการขุดข้อมูล 2000 วิเคราะห์การระบาดของโรคของ cryptosporidium ในออนแทรีโอประเทศแคนาดาเพื่อตรวจสอบสาเหตุของการเพิ่มขึ้นของผู้ป่วยโรคผลลัพธ์ของการขุดข้อมูลช่วยในการเชื่อมโยงการระบาดของแบคทีเรียกับสภาพน้ำในท้องถิ่นและการขาดการบำบัดน้ำของเทศบาลที่เหมาะสมสนามที่เรียกว่า biosurveillance ใช้การขุดข้อมูลทางระบาดวิทยาเพื่อระบุการระบาดของโรคเดียว

โปรแกรมเมอร์คอมพิวเตอร์และนักออกแบบยังใช้การศึกษาความน่าจะเป็นและการวิเคราะห์ข้อมูลทางสถิติเพื่อพัฒนาเครื่องจักรและโปรแกรมคอมพิวเตอร์เครื่องมือค้นหาของ Google Internet ได้รับการออกแบบโดยใช้ข้อมูลทางสถิติ MIหนิงGoogle ยังคงรวบรวมและใช้การขุดข้อมูลเพื่อสร้างการอัปเดตและแอปพลิเคชันโปรแกรม