Skip to main content

Co to jest wydobycie struktury?

Wydobycie struktury jest rodzajem eksploracji danych, w którym skanowane jest częściowo ustrukturyzowane źródło danych, a elementy jego struktury są wykryte i wyróżnione.Półstrukturalne źródło danych to takie, które nie wykorzystuje tradycyjnej struktury bazy danych tabel, ale ma element semantyczny, który oddziela informacje za pomocą znaczników i markerów.Wydobycie struktury może być używane do wydobywania baz danych, stron internetowych i wielu innych form informacji komputerowej w celu odkrycia elementów struktury.Pomaga użytkownikom zrozumieć, w jaki sposób utwory współdziałają ze sobą, albo jak znaleźć informacje pod niektórymi tagami.To wydobycie można również użyć do przewidywania tego elementu, na podstawie reguł napisanych przez użytkownika.

Istnieje wiele różnych rodzajów eksploracji danych, a większość z nich dotyczy wydobycia tradycyjnie ustrukturyzowanego źródła.Obejmuje to każde źródło, które wykorzystuje tabele i węzły typowe dla większości baz danych.W wydobyciu struktury używane są tylko dane częściowo ustrukturyzowane.W tym przypadku dane pochodzą ze stron internetowych lub prostych baz danych, które mają strukturę, ale nie takie, które są zgodne z tradycyjnymi regułami bazy danych.Dane wymagają znaczników lub markerów, które wyróżniają każdy element, aby były prawidłowe wydobycie.

Czytając częściowo ustrukturyzowany zestaw danych, wydobycie struktury jest w stanie odkryć, w jaki sposób struktura oddziałuje.Na przykład każda strona internetowa ma model nawigacyjny i właśnie ten model określa, w jaki sposób strony oddziałują.Wydobywając strukturę, użytkownik może odkryć, jak działa ta nawigacja, która może pomóc w stworzeniu podobnego schematu nawigacyjnego.

Wydobycie struktury można również użyć do znalezienia elementów, pisząc reguły w programie wydobywczym.Na przykład, jeśli istnieje zestaw danych książek, użytkownik może napisać regułę, którą każda książki bez indeksu powinna zwrócić jako fikcja, a te z indeksem powinny powrócić jako literatura faktu.Większość książek fikcyjnych brakuje indeksu, więc ta zasada z dużą dokładnością przewiduje, jakie są dane.Pomaga to użytkownikom, patrząc na częściowo ustrukturyzowany zestaw, który ma metodę organizacyjną, ale nie taką, która pasuje do tego, czego szuka użytkownika.

Po ustaleniu struktury częściowo ustrukturyzowanej jednostki użytkownik zazwyczaj porównuje ją z innąJednostka częściowo ustrukturyzowana.Jeśli użytkownik ma witrynę biznesową, może wydobyć inną witrynę biznesową do nawigacji i linków oraz zobaczyć, jak jego witryna jest podobna.Porównując wydobyte informacje, użytkownik może znaleźć sposoby na zwiększenie wydajności struktury.