Skip to main content

Mi a statisztikai adatbányászat?

A statisztikai adatbányászat, más néven tudás vagy adatfelfedezés, számítógépes módszer az információk gyűjtésére és elemzésére.Az adatbányászati eszköz az adatokat veszi fel, és az információkat olyan minták vagy korrelációk felfedezésére kategorizálja, amelyek felhasználhatók a fontos alkalmazásokban, például az orvostudományban, a számítógépes programozásban, az üzleti promócióban és a robottervezésben.A statisztikai adatbányászati technikák összetett matematikát és bonyolult statisztikai folyamatokat használnak elemzés létrehozásához.

Az adatbányászat öt fő lépést foglal magában.Az első adatbányászati alkalmazás statisztikai adatokat gyűjt, és az információkat egy raktár típusú programba helyezi.Ezután a raktárban szereplő adatok szerveződnek és létrehoznak egy menedzsment rendszert.A következő lépés létrehozza a kezelt adatok elérésének módját.Ezután a negyedik lépés kidolgozza az adatok elemzésére szolgáló szoftvert, más néven adatbányászati regressziót, míg az utolsó lépés elősegíti a statisztikai adatok gyakorlati módon történő felhasználását vagy értelmezését.

Általában az adatbányászati technikák integrálják az analitikai és tranzakciós adatrendszereket.Az analitikai szoftver mindkét típusú adatrendszeren keresztül rendezi a nyílt végű felhasználói kérdéseket.A nyitott kérdések számtalan választ adnak, így a programozók nem befolyásolják a válogatás eredményeit.A programozók olyan kérdések listáját készítik, amelyek elősegítik az információk általános fókuszát felhasználásával.

A rendezés ezután az osztályok és az adatcsoportok kidolgozásán alapul, az adatokban megtalálható asszociációk, valamint a minták és trendek meghatározására tett kísérletek az egyesületek alapján.Például a Google információkat gyűjt a felhasználók vásárlási szokásairól, hogy elősegítse az online hirdetések elhelyezését.A vevői adatok rendezéséhez használt nyílt kérdések az internetes felhasználók preferenciáinak vásárlására vagy megtekintési szokásaira összpontosítanak.

A számítógépes tudósok és a programozók az összegyűjtött statisztikai adatok elemzésére összpontosítanak.Döntési fák, mesterséges ideghálózatok, legközelebbi szomszéd módszer létrehozása, szabály indukciója, adatmegjelenítés és genetikai algoritmusok mind a statisztikailag bányászott adatokat használják.Ezek az osztályozási rendszerek elősegítik az analitikai adatprogramok által felfedezett egyesületek értelmezését.A statisztikai adatbányászat olyan kis projekteket foglal magában, amelyeket kis léptékben lehet otthoni számítógépen elvégezni, de a legtöbb adatbányászati társulás olyan nagy, és az adatbányászat regressziója annyira bonyolult, hogy szuperszámítógépre vagy nagysebességű számítógépek hálózatára van szükség.

A statisztikai adatbányászat három általános adatot gyűjt, beleértve az operatív adatokat, a nem operációs adatokat és a metaadatokat.Egy ruházati áruházban az operatív adatok alapvető adatok az üzleti vállalkozás működtetéséhez, például a számvitel, az értékesítés és a készletvezérlés.A nem operációs adatok, amelyek közvetett módon kapcsolódnak az üzleti vállalkozáshoz, magukban foglalják a jövőbeni értékesítés becsléseit és a nemzeti ruházati piacról szóló általános információkat.A metaadatok magukra vonatkoznak az adatokra.A metaadatokkal rendelkező program az áruház ügyfeleit a ruházati vásárlók vagy az ügyfelek kedvenc színe alapján osztályozhatja az osztályozásokba, ha ezeket az adatokat összegyűjtik.széles körben elterjedt gyakorlati alkalmazásokkal rendelkeznek.Az egyik példa a betegség kitöréseinek vizsgálata.Egy 2000 -es adatbányászati projekt elemezte a kanadai Ontario -i Cryptosporidium betegség kitörését, hogy meghatározza a betegség eseteinek növekedésének okait.Az adatbányászat eredményei elősegítették a baktériumok kitörésének összekapcsolását a helyi vízviszonyokkal és a megfelelő önkormányzati vízkezelés hiányában.A bio -fellendülésnek nevezett mező epidemiológiai adatbányászatot használ az egyetlen betegség kitöréseinek azonosítására.A Google internetes keresőmotorját statisztikai adatok MI -vel terveztékning.A Google továbbra is gyűjti és használja az adatbányászatot a programfrissítések és alkalmazások létrehozásához.