การทำเหมืองข้อมูลเชิงสถิติคืออะไร?

การทำเหมืองข้อมูลเชิงสถิติหรือที่เรียกว่าความรู้หรือการค้นพบข้อมูลเป็นวิธีการทางคอมพิวเตอร์ในการรวบรวมและวิเคราะห์ข้อมูล เครื่องมือขุดข้อมูลใช้ข้อมูลและจัดหมวดหมู่ข้อมูลเพื่อค้นหารูปแบบหรือความสัมพันธ์ที่สามารถใช้ในแอปพลิเคชันที่สำคัญเช่นยาการเขียนโปรแกรมคอมพิวเตอร์การส่งเสริมธุรกิจและการออกแบบหุ่นยนต์ เทคนิคการทำเหมืองข้อมูลทางสถิติใช้คณิตศาสตร์ที่ซับซ้อนและกระบวนการทางสถิติที่ซับซ้อนเพื่อสร้างการวิเคราะห์

การขุดข้อมูลมีห้าขั้นตอนหลัก แอ็พพลิเคชัน data mining แรกรวบรวมข้อมูลสถิติและวางข้อมูลในโปรแกรมชนิดคลังเก็บ ถัดไปข้อมูลในคลังสินค้าจะถูกจัดระเบียบและสร้างระบบการจัดการ ขั้นตอนถัดไปสร้างวิธีการเข้าถึงข้อมูลที่มีการจัดการ จากนั้นขั้นตอนที่สี่พัฒนาซอฟต์แวร์เพื่อวิเคราะห์ข้อมูลหรือที่เรียกว่าการถดถอยของการขุดข้อมูลในขณะที่ขั้นตอนสุดท้ายช่วยให้การใช้หรือการตีความข้อมูลทางสถิติเป็นไปในทางปฏิบัติ

โดยทั่วไปเทคนิคการขุดข้อมูลจะรวมระบบการวิเคราะห์และธุรกรรมเข้าด้วยกัน ซอฟต์แวร์วิเคราะห์จัดเรียงตามระบบข้อมูลทั้งสองประเภทโดยใช้คำถามผู้ใช้ปลายเปิด คำถามปลายเปิดอนุญาตให้มีคำตอบมากมายดังนั้นโปรแกรมเมอร์ไม่ได้มีอิทธิพลต่อผลลัพธ์ของการเรียงลำดับ โปรแกรมเมอร์สร้างรายการคำถามเพื่อช่วยในการจัดหมวดหมู่ข้อมูลโดยใช้การโฟกัสโดยรวม

การเรียงลำดับจะขึ้นอยู่กับการพัฒนาคลาสและกลุ่มข้อมูลการเชื่อมโยงที่พบในข้อมูลและพยายามกำหนดรูปแบบและแนวโน้มตามสมาคม ตัวอย่างเช่น Google รวบรวมข้อมูลเกี่ยวกับพฤติกรรมการซื้อของผู้ใช้เพื่อช่วยในการวางโฆษณาออนไลน์ คำถามปลายเปิดใช้ในการจัดเรียงข้อมูลผู้ซื้อมุ่งเน้นไปที่การตั้งค่าการซื้อหรือพฤติกรรมการดูของผู้ใช้อินเทอร์เน็ต

นักวิทยาศาสตร์คอมพิวเตอร์และโปรแกรมเมอร์มุ่งเน้นไปที่การวิเคราะห์ข้อมูลทางสถิติที่เก็บรวบรวม การสร้างต้นไม้ตัดสินใจเครือข่ายประสาทเทียมวิธีเพื่อนบ้านที่ใกล้ที่สุดอุปนัยกฎการสร้างภาพข้อมูลและอัลกอริทึมทางพันธุกรรมทั้งหมดใช้ข้อมูลที่ขุดได้ทางสถิติ ระบบการจำแนกประเภทเหล่านี้ช่วยในการตีความความสัมพันธ์ที่ค้นพบโดยโปรแกรมข้อมูลการวิเคราะห์ การทำเหมืองข้อมูลเชิงสถิติเกี่ยวข้องกับโครงการขนาดเล็กที่สามารถทำได้ในขนาดเล็กบนคอมพิวเตอร์ที่บ้าน แต่ชุดการทำเหมืองข้อมูลส่วนใหญ่มีขนาดใหญ่มากและการถดถอยของการขุดข้อมูลนั้นซับซ้อนจนพวกเขาต้องการซูเปอร์คอมพิวเตอร์หรือเครือข่ายคอมพิวเตอร์ความเร็วสูง

การทำเหมืองข้อมูลเชิงสถิติรวบรวมข้อมูลสามประเภททั่วไปรวมถึงข้อมูลการดำเนินงานข้อมูลที่ไม่ได้ใช้งานและข้อมูลเมตา ในร้านขายเสื้อผ้าข้อมูลการดำเนินงานเป็นข้อมูลพื้นฐานที่ใช้ในการดำเนินธุรกิจเช่นการบัญชีการขายและการควบคุมสินค้าคงคลัง ข้อมูลที่ไม่เกี่ยวกับการดำเนินงานซึ่งมีความสัมพันธ์ทางอ้อมกับธุรกิจนั้นรวมถึงการประมาณการยอดขายในอนาคตและข้อมูลทั่วไปเกี่ยวกับตลาดเสื้อผ้าแห่งชาติ ข้อมูล Meta เกี่ยวข้องกับข้อมูลเอง โปรแกรมที่ใช้ข้อมูลเมตาอาจจัดเรียงลูกค้าในการจำแนกประเภทตามเพศหรือที่ตั้งทางภูมิศาสตร์ของผู้ซื้อเสื้อผ้าหรือสีโปรดของลูกค้าหากมีการรวบรวมข้อมูลนั้น

แอปพลิเคชั่นการขุดข้อมูลอาจมีความซับซ้อนอย่างยิ่งและเครื่องมือการขุดข้อมูลทางสถิติอาจมีการใช้งานจริงอย่างกว้างขวาง การศึกษาการระบาดของโรคเป็นตัวอย่างหนึ่ง โครงการเหมืองข้อมูลปี 2000 วิเคราะห์การระบาดของโรค cryptosporidium ในเมือง Ontario ประเทศแคนาดาเพื่อหาสาเหตุของการเพิ่มขึ้นของผู้ป่วยโรค ผลของการทำเหมืองข้อมูลช่วยในการเชื่อมโยงการระบาดของแบคทีเรียกับสภาพน้ำในท้องถิ่นและการขาดการบำบัดน้ำที่เหมาะสม เขตข้อมูลที่เรียกว่า "ระบบรักษาความปลอดภัยทางชีวภาพ" ใช้การทำเหมืองข้อมูลทางระบาดวิทยาเพื่อระบุการระบาดของโรคเดี่ยว

โปรแกรมเมอร์และนักออกแบบคอมพิวเตอร์ใช้การศึกษาความน่าจะเป็นและการวิเคราะห์ข้อมูลเชิงสถิติเพื่อพัฒนาเครื่องจักรและโปรแกรมคอมพิวเตอร์ เครื่องมือค้นหาอินเทอร์เน็ตของ Google ได้รับการออกแบบโดยใช้การทำเหมืองข้อมูลเชิงสถิติ Google ยังคงรวบรวมและใช้ data mining เพื่อสร้างการอัปเดตโปรแกรมและแอปพลิเคชัน