Skip to main content

Vad är en klassificering av data mining?

Klassificering av data mining är ett steg i processen för data mining.Det används för att gruppera objekt baserat på vissa viktiga egenskaper.Det finns flera tekniker som används för klassificering av data mining, inklusive närmaste grannklassificering, beslutsträdinlärning och supportvektormaskiner.

Data mining är en metod som forskare använder för att extrahera mönster från data.I allmänhet väljs ett representativt prov från poolen med data och manipuleras sedan och analyseras för att hitta mönster.Förutom klassificering av data mining kan forskare också använda kluster, regression och regellärande för att analysera data.

Det finns flera algoritmer som kan användas i klassificering av data mining.Närmaste grannklassificering är en av de enklaste av datavinningsklassificeringsalgoritmerna.Det förlitar sig på en träningsuppsättning.En träningsuppsättning är en uppsättning data som används för att utbilda datorn i att uppmärksamma vissa variabler.I närmaste grannklassificering klassificerar datorn helt enkelt all data som en del av gruppen som innehåller data som är närmast i värde för ingången.

Beslutsträdinlärning använder en grenmodell för att klassificera data.Datorn ställer i princip en serie frågor om data.Om svaret på den första frågan är sant ställer det fråga 2A.Om svaret är falskt ställer det fråga 2B.När den dras ut bildar denna metod ett träd av grenvägar.

Naiv Bayes -klassificering förlitar sig på sannolikhet.Den ställer en serie frågor om varje data och använder sedan svaren för att bestämma sannolikheten för att uppgifterna hör till en viss klassificering.Detta skiljer sig från beslutsträdinlärning eftersom svaret på den första frågan inte påverkar vilken fråga som kommer att ställas nästa.

Mer komplicerade metoder för klassificering av data mining inkluderar neurala nätverk och supportvektormaskiner.Dessa metoder är datorbaserade modeller som skulle vara svåra att göra för hand.Neurala nätverk används ofta i programmering av konstgjord intelligens eftersom det efterliknar den mänskliga hjärnan.Den filtrerar information genom en serie noder som hittar mönster och klassificerar sedan informationen.

Supportvektormaskiner använder träningsprover för att bygga en modell som kommer att klassificera information, vanligtvis visualiserad som en spridningsdiagram med ett brett utrymme mellan kategorier.När ny information matas in i maskinen är den ritad på grafen.Uppgifterna klassificeras sedan baserat på vilken kategori informationen faller närmast på diagrammet.Denna metod fungerar endast när det finns två alternativ att välja mellan.