Skip to main content

Wat is statistische datamining?

Statistische datamining, ook bekend als kennis- of gegevensontdekking, is een geautomatiseerde methode voor het verzamelen en analyseren van informatie.De tool voor het bewerken van datamijnen neemt gegevens en categoriseert de informatie om patronen of correlaties te ontdekken die kunnen worden gebruikt in belangrijke toepassingen, zoals medicijnen, computerprogrammering, bedrijfspromotie en robotachtig ontwerp.Statistische dataminingtechnieken gebruiken complexe wiskunde en gecompliceerde statistische processen om een analyse te maken.

Datamining omvat vijf belangrijke stappen.De eerste data-mining-applicatie verzamelt statistische gegevens en plaatst de informatie in een programma van het magazijn-type.Vervolgens zijn de gegevens in het magazijn georganiseerd en creëert een managementsysteem.De volgende stap creëert een manier om toegang te krijgen tot de beheerde gegevens.Vervolgens ontwikkelt de vierde stap software om de gegevens te analyseren, ook bekend als dataminingregressie, terwijl de laatste stap de statistische gegevens op een praktische manier mogelijk maakt of interpreteren.

In het algemeen integreren dataminingtechnieken analytische en transactiegegevenssystemen.Analytische software sorteert door beide soorten datasystemen met behulp van open gebruikersvragen.Open vragen stellen talloze antwoorden toe, zodat programmeurs de resultaten van het sorteren niet beïnvloeden.Programmeurs maken lijsten met vragen om te helpen bij het categoriseren van de informatie met behulp van een algemene focus.

sorteren is vervolgens gebaseerd op het ontwikkelen van klassen en clusters van gegevens, associaties in de gegevens en pogingen om patronen en trends te definiëren op basis van de associaties.Google verzamelt bijvoorbeeld informatie over gebruikers die gewoontes kopen om online advertenties te plaatsen.Open vragen die worden gebruikt om deze kopersgegevens te sorteren, focussen op het kopen van voorkeuren of kijkgewoonten van internetgebruikers.

Computerwetenschappers en programmeurs richten zich op de analyse van de verzamelde statistische gegevens.Creatie van beslissingsbomen, kunstmatige neurale netwerken, de dichtstbijzijnde buurmethode, regelinductie, datavisualisatie en genetische algoritmen gebruiken allemaal de statistisch gemineerde gegevens.Deze classificatiesystemen helpen bij het interpreteren van de associaties die zijn ontdekt door de analytische gegevensprogramma's.Statistische datamining omvat kleine projecten die op kleine schaal op een thuiscomputer kunnen worden gedaan, maar de meeste sets voor data mining associatie zijn zo groot en de data-mijnbouwregressie zo ingewikkeld dat ze een supercomputer of een netwerk van high-speed computers vereisen.

Statistische datamining verzamelt drie algemene soorten gegevens, waaronder operationele gegevens, niet-operationele gegevens en metategevens.In een kledingwinkel zijn operationele gegevens basisgegevens die worden gebruikt om het bedrijf te runnen, zoals boekhouding, verkoop en voorraadbeheer.Niet-operationele gegevens, die indirect verband houden met het bedrijf, bevatten schattingen van toekomstige verkoop en algemene informatie over de nationale kledingmarkt.Metagegevens hebben betrekking op de gegevens zelf.Een programma dat metategevens gebruikt, kan klanten opslaan in classificaties op basis van geslacht of geografische locatie van de kledingkopers of de favoriete kleur van de klanten, als die gegevens zijn verzameld.

Een toepassing voor datamining kan extreem geavanceerd zijn en de statistische datamining tool kanhebben wijdverbreide praktische toepassingen.De studie van uitbraken van ziekten is een voorbeeld.Een 2000 Data Mining Project analyseerde de ziekte -uitbraak van cryptosporidium in Ontario, Canada om de oorzaken van de toename van de ziektegevallen te bepalen.De resultaten van de datamining hebben geholpen bij het koppelen van de uitbraak van bacteriën aan lokale wateromstandigheden en het ontbreken van een goede gemeentelijke waterbehandeling.Een veld genaamd biosurveillance maakt gebruik van epidemiologische datamining om uitbraken van een enkele ziekte te identificeren.

Computerprogrammeurs en ontwerpers gebruiken ook de studie van waarschijnlijkheid en statistische gegevensanalyse om machines en computerprogramma's te ontwikkelen.De Google Internet -zoekmachine is ontworpen met behulp van statistische gegevens MIning.Google blijft datamining verzamelen en gebruiken om programma -updates en applicaties te maken.