Skip to main content

Qu'est-ce que l'extraction d'informations?

Parfois connu sous le nom de recherche d'informations, l'extraction d'informations (IE) est un processus utilisé avec les systèmes informatiques pour permettre à des données pertinentes d'être extraites de corps de données plus importants, en utilisant un ensemble de critères prédéfinis.L'idée derrière l'extraction des informations est de permettre d'identifier et d'assimiler facilement les données pertinentes pour une activité particulière, sans avoir besoin de passer manuellement de grandes quantités d'informations pour trouver les données exactes requises.Le processus est similaire aux idées de l'exploration de concepts ou du grattage Web, en ce que toutes ces approches cherchent à collecter des informations utiles à partir d'un pool plus large de données disponibles.

L'approche générale de l'extraction d'informations appelle à l'utilisation de la programmation capable de numériser des sources d'informations qui sont considérées comme lisibles par machine.Cela peut inclure des documents de copie papier qui ont été scannés dans une sorte de fichiers électroniques, des documents préparés sous forme de feuilles de calcul ou de documents de traitement de texte, ou même les données contenues dans des champs lisibles dans une base de données.En règle générale, les paramètres sont définis qui permettent à un logiciel de donner accès à ces sources de données et de les parcourir rapidement en utilisant des critères spécifiques pour hiérarchiser et retirer certains types d'informations du pool disponible.Ce processus est généralement différent d'un simple processus de recherche, en ce que la méthode appelle à ne pas faire correspondre des mots ou des phrases spécifiques en soi, mais utilise plutôt un processus appelé traitement du langage naturel, qui aide non seulement à évaluer les mots réels mais aussi au contexte etle sens impliqué par ce contexte.

Les complexités impliquées dans l'extraction d'informations rendent l'utilisation de cette approche quelque peu difficile à gérer à l'échelle mondiale, bien qu'il existe des outils IE qui ne fonctionnent très bien qu'avec une quantité limitée de données, telles que les sources de données associées aux fichiers électroniqueshébergé sur le serveur d'une société, ou même un pool de sources impliquant un nombre limité de flux d'actualités.Avec cette approche, il est possible d'identifier un certain type d'événement, peut-être même de limiter les rendements à l'inclusion d'un certain nombre de participants à l'événement, et de faire en sorte que les données soient organisées à la date.

Comme pour de nombreuses formes de technologie, les outils utilisés pour s'engager dans l'extraction d'informations sont continuellement raffinés.Depuis le début du 21e siècle, la capacité de définir des paramètres et d'utiliser des corps de données électroniques toujours croissants dans le cadre de la recherche d'informations pertinentes a considérablement augmenté.Cela comprend la possibilité de gérer de grands volumes de données non structurées et d'utiliser ces paramètres pour apporter une commande ou une structure à ces données, ce qui les rend d'autant plus utiles pour les recherches futures.