Skip to main content

Qu'est-ce que l'extraction de structure?

L'exploration de structure est un type d'exploration de données dans laquelle une source de données semi-structurée est analysée et les éléments de sa structure sont découverts et mis en évidence.Une source de données semi-structurée est celle qui n'utilise pas la structure de base de données traditionnelle des tables, mais a un élément sémantique qui sépare les informations via des balises et des marqueurs.L'exploitation de structure peut être utilisée pour exploiter des bases de données, des sites Web et de nombreuses autres formes d'informations informatiques pour découvrir des éléments de la structure.Il aide les utilisateurs à comprendre comment les pièces interagissent les uns avec les autres ou comment trouver des informations sous certaines balises.Cette mine peut également être utilisée pour prédire ce qu'est un élément, sur la base des règles écrites par l'utilisateur.

Il existe de nombreux types d'exploration de données, et la plupart concernent l'extraction d'une source traditionnellement structurée.Cela inclut toute source qui utilise les tables et les nœuds typiques de la plupart des bases de données.Dans l'exploitation de la structure, seules des données semi-structurées sont utilisées.Dans ce cas, les données proviennent de sites Web ou de bases de données simples qui ont une structure mais pas une structure qui est conforme aux règles de base de données traditionnelles.Les données nécessitent des balises ou des marqueurs qui distinguent chaque élément pour être correctement exploité.

En lisant l'ensemble de données semi-structuré, l'exploitation de structure est capable de découvrir comment la structure interagit.Par exemple, chaque site Web a un modèle de navigation, et c'est ce modèle qui détermine comment les pages interagissent.En exploitant la structure, l'utilisateur peut découvrir comment fonctionne cette navigation, ce qui peut aider à créer un schéma de navigation similaire.

L'exploitation de structure peut également être utilisée pour trouver des éléments en écrivant des règles dans le programme d'exploitation.Par exemple, s'il existe un ensemble de données de livre, l'utilisateur peut écrire une règle selon laquelle les livres sans index devraient revenir en tant que fiction, et ceux qui ont un index devraient revenir en tant que non-fiction.La plupart des livres de fiction n'ont pas d'index, donc cette règle prédirera avec une précision élevée quelles sont les données.Cela aide les utilisateurs lorsqu'ils envisagent un ensemble semi-structuré qui a une méthode organisationnelle mais pas un qui correspond à ce que l'utilisateur recherche.

Après avoir déterminé la structure de l'unité semi-structurée, l'utilisateur le compare généralement à un autreunité semi-structurée.Si l'utilisateur a un site Web d'entreprise, il peut exploiter un autre site Web d'entreprise pour la navigation et les liens, et voir comment son site Web est similaire.En comparant les informations extraites, l'utilisateur peut trouver des moyens d'augmenter l'efficacité de la structure.