Skip to main content

Hvad er en klassificering af data mining?

Klassificering af data mining er et trin i processen med datamining.Det bruges til at gruppere genstande baseret på visse nøgleegenskaber.Der er flere teknikker, der bruges til klassificering af data mining, herunder nærmeste nabo -klassificering, beslutningstræindlæring og supportvektormaskiner.

Data mining er en metode, som forskere bruger til at udtrække mønstre fra data.Generelt vælges en repræsentativ prøve fra puljen af data og manipuleres derefter og analyseres for at finde mønstre.Ud over klassificering af data mining kan forskere også bruge klynger, regression og regere læring til at analysere dataene.

Der er flere algoritmer, der kan bruges i klassificering af data mining.Den nærmeste nabo -klassificering er en af de enkleste af datamining -klassificeringsalgoritmerne.Det er afhængig af et træningssæt.Et træningssæt er et sæt data, der bruges til at træne computeren til at være opmærksom på visse variabler.I nærmeste nabo -klassificering klassificerer computeren simpelthen alle data som en del af gruppen, der indeholder data, der er tættest i værdi for input.

Decision Tree Learning bruger en forgreningsmodel til at klassificere dataene.Computeren stiller dybest set en række spørgsmål om dataene.Hvis svaret på det første spørgsmål er sandt, stiller det spørgsmål 2A.Hvis svaret er falskt, stiller det spørgsmål 2B.Når den trækkes ud, danner denne metode et træ med forgreningsstier.

Naive Bayes klassificering er afhængig af sandsynlighed.Det stiller en række spørgsmål om hvert stykke data og bruger derefter svarene til at bestemme sandsynligheden for, at dataene hører til i en bestemt klassificering.Dette er forskelligt fra beslutningstræindlæring, fordi svaret på det første spørgsmål ikke har indflydelse på, hvilket spørgsmål der vil blive stillet næste.

Mere komplicerede metoder til klassificering af data mining inkluderer neurale netværk og supportvektormaskiner.Disse metoder er computerbaserede modeller, der ville være vanskelige at gøre med hånden.Neurale netværk bruges ofte til programmering af kunstig intelligens, fordi det efterligner den menneskelige hjerne.Det filtrerer information gennem en række noder, der finder mønstre og klassificerer derefter informationen.

Supportvektormaskiner bruger træningsprøver til at opbygge en model, der vil klassificere information, normalt visualiseres som et scatter -plot med et bredt rum mellem kategorier.Når nye oplysninger føres ind i maskinen, er den afbildet på grafen.Dataene klassificeres derefter baseret på hvilken kategori informationen falder tættest på på grafen.Denne metode fungerer kun, når der er to muligheder at vælge imellem.