Skip to main content

Hvad er datamining?

Data Mining bruger en relativt stor mængde computerkraft, der fungerer på et stort sæt data til at bestemme regelmæssigheder og forbindelser mellem datapunkter.Algoritmer, der anvender teknikker fra statistik, maskinlæring og mønstergenkendelse bruges automatisk til at søge store databaser.Data mining er også kendt som videnopdagelse i databaser (KDD).

Ligesom udtrykket Kunstig intelligens , er datamining et paraplybegrep, der kan anvendes til en række forskellige aktiviteter.I erhvervslivet bruges datamining hyppigst for at bestemme tendensernes retning og forudsige fremtiden.Det anvendes til at opbygge modeller og beslutningsstøttesystemer, der giver folk information, de kan bruge.Data Mining tager en frontlinjerolle i kampen mod terrorisme.Det blev angiveligt brugt til at bestemme lederen af angrebene den 11. september.

Dataminearbejdere er statistikere, der bruger teknikker med navne som Near Neighbor-modeller , K-middel klynger , Holdout-metode , k-foldKrydsvalidering , efterlade-en-ud-metoden og så videre.Regressionsteknikker bruges til at trække irrelevante mønstre, hvilket kun efterlader nyttige oplysninger.Udtrykket Bayesian ses ofte i marken under henvisning til en klasse af inferensteknikker, der forudsiger sandsynligheden for fremtidige begivenheder ved at kombinere forudgående sandsynligheder og sandsynligheder baseret på betingede begivenheder.Spam -filtrering er uden tvivl en form for datamining, der automatisk bringer relevante meddelelser til overfladen fra et kaotisk hav af phishing -forsøg og viagra -pladser.

Beslutningstræer bruges til at filtrere bjerge af data.I et beslutningstræ passerer alle data gennem en indgangsknudepunkt, hvor de står over for et filter, der adskiller dataene i vandløb afhængigt af dets egenskaber.For eksempel vil data om forbrugeradfærd sandsynligvis blive filtreret baseret på demografiske faktorer.Datamining handler ikke primært om smarte grafer og visualiseringsteknikker, men det bruger dem til at vise, hvad det har fundet.Det er kendt, at vi kan absorbere mere statistiske oplysninger visuelt end verbalt, og dette format til præsentation kan være meget overbevisende og kraftfuld, hvis det bruges i den rigtige kontekst.

Efterhånden som vores civilisation bliver stadig mere mættet og sensorer distribueres i en masse i vores lokaleMiljøer, vi vil utilsigtet opdage ting, der kan gå glip af den første overgang.Data mining vil lade os rette op på disse fejl og opdage ny indsigt baseret på tidligere data, hvilket giver os mere bang for vores datalagringspenge.