Skip to main content

Wat is informatie -extractie?

Soms bekend als het ophalen van informatie, is informatie-extractie (IE) een proces dat wordt gebruikt met computersystemen om relevante gegevens uit grotere gegevens van gegevens te kunnen extraheren, met behulp van een set vooraf gedefinieerde criteria.Het idee achter informatie -extractie is om het mogelijk te maken om eenvoudig gegevens te identificeren en te assimileren die relevant zijn voor een bepaalde activiteit, zonder dat u handmatig door grote hoeveelheden informatie moet doorlopen om de vereiste exacte gegevens te vinden.Het proces is vergelijkbaar met de ideeën van conceptwinning of webschrapen, omdat al deze benaderingen proberen nuttige informatie te verzamelen uit een bredere pool van beschikbare gegevens.

De algemene benadering van informatie-extractie vraagt om het gebruik van programmering die in staat is om informatiebronnen te scannen die als machinaal leesbaar worden beschouwd.Dit kan documenten met hard copy omvatten die zijn gescand in een soort elektronische bestanden, documenten die zijn opgesteld als spreadsheets of tekstverwerkingsdocumenten, of zelfs de gegevens die zijn opgenomen in leesbare velden in een database.Meestal worden parameters ingesteld die het mogelijk maken om een softwareprogramma toegang te krijgen tot deze gegevensbronnen en er snel doorheen te scannen met behulp van specifieke criteria om prioriteiten te stellen en bepaalde soorten informatie uit de beschikbare pool te halen.Dit proces verschilt meestal van een eenvoudig zoekproces, in die zin dat de methode vraagt om niet op zichzelf specifieke woorden of zinnen te matchen, maar in plaats daarvan een proces gebruikt dat de verwerking van natuurlijke taal wordt genoemd, dat niet alleen helpt bij het evalueren van de werkelijke woorden, maar ook de context en ookde betekenis geïmpliceerd door die context.

De complexiteiten die betrokken zijn bij informatie -extractie maken het gebruik van deze aanpak enigszins moeilijk te beheren op een wereldschaal, hoewel er IE -tools zijn die alleen goed werken met een beperkte hoeveelheid gegevens, zoals de gegevensbronnen die verband houden met de elektronische bestandenGehuisvest op de server van een bedrijf, of zelfs een pool van bronnen met een beperkt aantal nieuwsfeeds.Met deze aanpak is het mogelijk om een soort gebeurtenis te identificeren, mogelijk zelfs het rendement te beperken tot de opname van een bepaald aantal deelnemers in het evenement en de gegevens volgens datum hebben geregeld.

Zoals bij vele vormen van technologie, worden de tools die worden gebruikt om informatie -extractie aan te gaan voortdurend verfijnd.Sinds het begin van de 21ste eeuw is de mogelijkheid om parameters in te stellen en gebruik te maken van steeds grotere instanties van elektronische gegevens als onderdeel van de zoektocht naar relevante informatie aanzienlijk toegenomen.Dit omvat de mogelijkheid om met grote hoeveelheden ongestructureerde gegevens aan te pakken en die parameters te gebruiken om een orde of structuur naar die gegevens te brengen, waardoor het des te nuttiger is voor toekomstige zoekopdrachten.