Skip to main content

Hva er en klassifisering av data mining?

Data mining klassifisering er et trinn i prosessen med data mining.Det brukes til å gruppere elementer basert på visse nøkkelegenskaper.Det er flere teknikker som brukes til klassifisering av data mining, inkludert nærmeste naboklassifisering, beslutningstre læring og støttevektormaskiner.

Data mining er en metode forskere bruker for å hente ut mønstre fra data.Generelt er det valgt et representativt utvalg fra dataens basseng og deretter manipulert og analysert for å finne mønstre.I tillegg til klassifisering av data mining, kan forskere også bruke klynging, regresjon og regelselæring for å analysere dataene.

Det er flere algoritmer som kan brukes i klassifisering av data mining.Nærmeste naboklassifisering er en av de enkleste av data mining klassifiseringsalgoritmer.Det er avhengig av et treningssett.Et treningssett er et sett med data som brukes til å trene datamaskinen til å ta hensyn til visse variabler.I nærmeste naboklassifisering klassifiserer datamaskinen ganske enkelt alle data som en del av gruppen som inneholder data nærmest i verdi til inngangen.

Decision Tree Learning bruker en forgreningsmodell for å klassifisere dataene.Datamaskinen stiller i utgangspunktet en serie spørsmål om dataene.Hvis svaret på det første spørsmålet er sant, stiller det spørsmål 2A.Hvis svaret er usant, stiller det spørsmål 2B.Når denne metoden trukket ut, danner denne metoden et tre med forgrenende stier.

Naiv Bayes -klassifisering er avhengig av sannsynlighet.Den stiller en serie spørsmål om hvert stykke data og bruker deretter svarene for å bestemme sannsynligheten for at dataene hører hjemme i en bestemt klassifisering.Dette er forskjellig fra beslutningstrær læring fordi svaret på det første spørsmålet ikke påvirker hvilket spørsmål som vil bli stilt neste.

Mer kompliserte metoder for klassifisering av data mining inkluderer nevrale nettverk og støttevektormaskiner.Disse metodene er databaserte modeller som ville være vanskelige å gjøre for hånd.Nevrale nettverk brukes ofte i kunstig intelligensprogrammering fordi det etterligner den menneskelige hjernen.Den filtrerer informasjon gjennom en serie noder som finner mønstre og deretter klassifiserer informasjonen.

Støtt vektormaskiner bruker treningsprøver for å bygge en modell som vil klassifisere informasjon, vanligvis visualisert som et spredt plot med et bredt rom mellom kategoriene.Når ny informasjon blir matet inn i maskinen, er den plottet på grafen.Dataene blir deretter klassifisert basert på hvilken kategori informasjonen som er nærmest på grafen.Denne metoden fungerer bare når det er to alternativer å velge mellom.