Skip to main content

Ano ang istatistika ng data ng pagmimina?

Ang pagmimina ng data ng istatistika, na kilala rin bilang kaalaman o pagtuklas ng data, ay isang computerized na pamamaraan ng pagkolekta at pagsusuri ng impormasyon.Ang tool ng data-pagmimina ay tumatagal ng data at ikinategorya ang impormasyon upang matuklasan ang mga pattern o ugnayan na maaaring magamit sa mga mahahalagang aplikasyon, tulad ng gamot, computer programming, promosyon sa negosyo, at robotic na disenyo.Ang mga diskarte sa istatistika ng pagmimina ay gumagamit ng kumplikadong matematika at kumplikadong mga proseso ng istatistika upang lumikha ng isang pagsusuri.

Ang pagmimina ng data ay nagsasangkot ng limang pangunahing hakbang.Ang unang application ng data ng pagmimina ay nangongolekta ng data ng istatistika at inilalagay ang impormasyon sa isang programa na uri ng bodega.Susunod, ang data sa bodega ay isinaayos at lumilikha ng isang sistema ng pamamahala.Ang susunod na hakbang ay lumilikha ng isang paraan upang ma -access ang pinamamahalaang data.Pagkatapos, ang ika -apat na hakbang ay bubuo ng software upang pag -aralan ang data, na kilala rin bilang data ng regulasyon ng pagmimina, habang ang pangwakas na hakbang ay nagpapadali sa paggamit o pagbibigay kahulugan sa data ng istatistika sa isang praktikal na paraan. Sa pangkalahatan, ang mga diskarte sa pagmimina ng data ay nagsasama ng mga sistema ng data ng transaksyon at transaksyon.Ang mga analytical software ay nag-uuri sa pamamagitan ng parehong uri ng mga sistema ng data gamit ang mga bukas na tanong ng gumagamit.Pinapayagan ng mga bukas na katanungan ang hindi mabilang na mga sagot upang ang mga programmer ay hindi nakakaimpluwensya sa mga resulta ng pag-uuri.Ang mga programmer ay lumikha ng mga listahan ng mga katanungan upang makatulong sa pag -uuri ng impormasyon gamit ang isang pangkalahatang pokus.Halimbawa, kinokolekta ng Google ang impormasyon sa mga gumagamit ng pagbili ng mga gawi upang makatulong sa paglalagay ng online advertising.Ang mga bukas na tanong na ginamit upang pag-uri-uriin ang data ng mamimili na ito ay nakatuon sa pagbili ng mga kagustuhan o mga gawi sa pagtingin ng mga gumagamit ng Internet.

Ang mga siyentipiko ng computer at mga programa ay nakatuon sa pagsusuri ng data ng istatistika na nakolekta.Ang paglikha ng mga puno ng desisyon, artipisyal na neural network, pinakamalapit na pamamaraan ng kapitbahay, panuntunan sa induction, data visualization, at genetic algorithm lahat ay gumagamit ng data na istatistika.Ang mga sistemang pag -uuri ay tumutulong sa pagbibigay kahulugan sa mga asosasyon na natuklasan ng mga programa ng analytical data.Ang Statistical Data Mining ay nagsasangkot ng mga maliliit na proyekto na maaaring gawin sa isang maliit na sukat sa isang computer sa bahay, ngunit ang karamihan sa mga set ng samahan ng pagmimina ay napakalaki at ang data ng regulasyon ng pagmimina ay kumplikado na nangangailangan sila ng isang supercomputer o isang network ng mga high-speed computer.

Ang istatistikong data ng pagmimina ay nangongolekta ng tatlong pangkalahatang uri ng data, kabilang ang data ng pagpapatakbo, data na hindi pagpapatakbo, at data ng meta.Sa isang tindahan ng damit, ang data ng pagpapatakbo ay pangunahing data na ginamit upang patakbuhin ang negosyo, tulad ng accounting, sales, at control control.Ang data na hindi pagpapatakbo, na hindi tuwirang nauugnay sa negosyo, ay may kasamang mga pagtatantya ng mga benta sa hinaharap at pangkalahatang impormasyon tungkol sa pambansang merkado ng damit.Ang data ng meta ay nag -aalala sa data mismo.Ang isang programa na gumagamit ng data ng meta ay maaaring pag -uri -uriin ang mga customer sa pag -uuri batay sa lokasyon ng kasarian o heograpiya ng mga mamimili ng damit o ang paboritong kulay ng mga customer, kung nakolekta ang data na iyon.may malawak na praktikal na aplikasyon.Ang pag -aaral ng mga pagsiklab ng sakit ay isang halimbawa.Sinuri ng isang 2000 na proyekto ng pagmimina ng data ang pagsiklab ng sakit ng Cryptosporidium sa Ontario, Canada upang matukoy ang mga sanhi ng pagtaas ng mga kaso ng sakit.Ang mga resulta ng data ng pagmimina ay tinulungan sa pag -uugnay ng pagsiklab ng bakterya sa mga lokal na kondisyon ng tubig at ang kakulangan ng wastong paggamot sa munisipyo.Ang isang patlang na tinatawag na Biosurveillance ay gumagamit ng epidemiological data mining upang makilala ang mga pagsiklab ng isang solong sakit.Ang google internet search engine ay dinisenyo gamit ang statistical data mining.Patuloy na kinokolekta at gamitin ng Google ang Data Mining upang lumikha ng mga update at aplikasyon ng programa.