Skip to main content

Mi a korrelációs klaszterezés?

A korrelációs klaszterezést adatbázisokon és más nagy adatforrásokon hajtják végre, hogy hasonló adatkészleteket csoportosítsunk, miközben figyelmeztetik a felhasználót az adatkészletek eltérőre.Ez néhány grafikonban tökéletesen megtehető, míg mások hibákat fognak tapasztalni, mivel nehéz lesz megkülönböztetni a hasonló adatokat.Ez utóbbi esetében a korrelációs klaszterezés segít automatikusan csökkenteni a hibákat.Ezt gyakran használják az adatbányászathoz, vagy a hasonlóságok esetén nehézkes adatok keresésére.Az eltérő adatokat általában törlik, vagy külön klaszterbe helyezik.A felhasználó megmondja a programnak, hogy mit keressen, és amikor megtalálják, hol kell az adatokat elhelyezni.Ezt általában nagyon nagy adatforrásokra alkalmazzák, ha lehetetlen lenne mdash;Vagy túl sok órát vegyen igénybe mdash;Az adatok manuálisan történő keresése.Lehet, hogy tökéletes klaszterezés vagy tökéletlen klaszterezés.

A tökéletes klaszterezés az ideális forgatókönyv.Ez azt jelenti, hogy csak két típusú adat van, és az egyik az, amit a felhasználó keres, míg a másik szükségtelen.Az összes pozitív vagy szükséges adat egy klaszterbe helyezkedik el, míg a másik adatot töröljük vagy mozgatják.Ebben a forgatókönyvben nincs zavar, és minden tökéletesen működik.Például egy gráfnak három változója van: x, y és z. x, y hasonló, x, z hasonló, de y, z eltérő.A három változó klaszter azonban annyira hasonló, hogy lehetetlen tökéletes korrelációs klaszterezés.A program a pozitív korrelációk számának maximalizálására fog működni, de ehhez még mindig szükség van valamilyen kézi keresésre a felhasználótól.Például, ha egy vállalkozás egy nagy weboldal vagy adatbázis adatait bányászott, és csak egy adott szempontról akar tudni, akkor örökké kell keresnie az összes adatot erre a szempontra.A klaszterezési képlet használatával az adatokat a megfelelő elemzéshez elkülönítik.

Az eltérő információkat kizárólag a felhasználói utasítások alapján kezelik.A felhasználó úgy dönthet, hogy eltérő adatokat küld a különböző klasztereknek, mivel az információk más projekteknél hasznosak lehetnek.Ha az adatok szükségtelenek, és csak pazarolják a memóriát, akkor az eltérő információkat kidobják.A tökéletlen klaszterezésben lehetséges, hogy néhány eltérő információt nem dobnak ki, mert annyira hasonló az adatokhoz, amelyekre a felhasználó keresi.