Skip to main content

Mi az adatbányászati folyamat?

Az adatbányászati folyamat egy eszköz a statisztikailag szignifikáns minták feltárására nagy mennyiségben.Általában öt fő lépést foglal magában, amelyek magukban foglalják az előkészítést, az adatok feltárását, a modellépítést, a telepítést és a felülvizsgálatot.A folyamat minden egyes lépése eltérő technikákat foglal magában, de a legtöbb a statisztikai elemzés valamilyen formáját használja.Ez az előkészítési lépés általában meghatározza, hogy milyen típusú adatokat kell megvizsgálni, milyen adatbányászati technikákat kell alkalmazni, és milyen formát kell alkalmazni az eredmények.A folyamat kezdeti lépése elengedhetetlen lehet a hasznos információk gyűjtéséhez.

Az adatbányászati folyamat következő lépése a feltárás.Ez a lépés általában magában foglalja a szükséges adatok összegyűjtését egy információs raktárból vagy gyűjtő entitásból.Ezután a bányászati szakértők általában elkészítik a nyers adatkészleteket az elemzéshez.Ez a lépés általában az összes adat összegyűjtéséből, tisztításából, szervezéséből és ellenőrzéséből áll.Ennek megvalósításához a kutatók általában kis tesztmintákat vesznek fel, és különféle adatbányászati technikákat alkalmaznak rájuk.A modellezési lépést gyakran használják a kívánt eredmények eléréséhez szükséges statisztikai elemzés legjobb módszerének meghatározására.Az első az osztályozás, amely az adatokat előre definiált csoportokba vagy kategóriákba rendezi.A második technikában, az úgynevezett klaszterezésben a kutatók lehetővé teszik a számítógép számára, hogy az adatokat csoportossá tegye, amint azt választja.A harmadik adatbányászati technika a változók közötti asszociációkat keresi.A negyedik általában az adatok szekvenciális mintáit keresi, amelyek felhasználhatók a jövőbeli trendek előrejelzésére.

Az adatbányászati folyamat utolsó lépése a telepítés.Ehhez a modellben kiválasztott technikákat alkalmazzák a nagyobb adatkészletre, és az eredményeket elemezzük.Az ebből a lépésből származó jelentés általában a teljes folyamatban található mintákat mutatja be, ideértve az osztályozásokat, klasztereket, társulásokat vagy az adatkészletben létező szekvenciális mintákat.

A felülvizsgálat gyakran fontos utolsó lépés.A folyamat ez a szakasza általában magában foglalja a bányászati modellek megismétlését egy új adatkészlettel, hogy megbizonyosodjon arról, hogy a fő halmaz reprezentatív -e a teljes adatpopulációra.Az eredmények nem tudják megjósolni a nagyobb populáció tendenciáit, ha az adatminta nem pontosan képviseli.