Skip to main content

Co je těžba struktury?

Těžba struktury je typ dolování dat, ve kterém je naskenován polostrukturovaný zdroj dat a jsou objeveny a zvýrazněny prvky jeho struktury.Polostrukturovaný zdroj dat je ten, který nepoužívá tradiční strukturu databáze tabulek, ale má sémantický prvek, který odděluje informace prostřednictvím značek a značek.Těžba struktury lze použít k těm databází, webových stránek a mnoha dalších forem počítačových informací pro objevování prvků struktury.Pomáhá uživatelům pochopit, jak kusy vzájemně interagují, nebo jak najít informace pod určitými značkami.Tuto těžbu lze také použít k předpovědi toho, co je položka, na základě pravidel napsaných uživatelem.

Existuje mnoho různých typů těžby dat a většina se týká těžby tradičně strukturovaného zdroje.To zahrnuje jakýkoli zdroj, který používá tabulky a uzly typické pro většinu databází.Při těžbě struktury se používají pouze polostrukturovaná data.V tomto případě jsou data z webových stránek nebo jednoduchých databází, které mají strukturu, ale nikoli, která odpovídá tradičním databázovým pravidlům.Data potřebují značky nebo značky, které oddělují každou položku, aby byla správně těžena.Například každý web má navigační model a právě tento model určuje, jak stránky interagují.Těžbou struktury může uživatel zjistit, jak tato navigace funguje, což může pomoci při vytváření podobného navigačního schématu. „Těžba struktury struktury může být také použita k nalezení položek zapisováním pravidel do těžebního programu.Například, pokud existuje sada dat knihy, uživatel může napsat pravidlo, že jakékoli knihy bez indexu by se měly vrátit jako fikci a ti s indexem by se měly vrátit jako fikce.Většina fikčních knih postrádá index, takže toto pravidlo bude s vysokou přesností předpovídat, co jsou data.To pomáhá uživatelům při pohledu na polostrukturovanou sadu, která má organizační metodu, ale ne ta, která odpovídá tomu, co uživatel hledá.Polorukturovaná jednotka.Pokud má uživatel obchodní web, může těžit další obchodní web pro navigaci a odkazy a zjistit, jak je jeho webové stránky podobné.Porovnáním těžených informací může uživatel najít způsoby, jak zvýšit účinnost struktury.