Schéma hvězd a vloček

Anonim

Datový sklad je systém určený k ukládání a organizaci dat v centrálních úložištích včetně dat z jiných zdrojů. Je to základní koncept podnikové inteligence v modelech relačních databází, který využívá analytické techniky pro integraci obchodních dat do centrální databáze.

V datovém skladování se používají dva společné architektonické modely:

  • Star Scheme
  • Schéma sněhové vločky

Oba jsou běžné multidimenzionální databázové modely používané k řešení potřeb velkých databází pro analytické účely v reálných datových skladech.

Předkládáme nezaujaté srovnání mezi oběma, abychom lépe porozuměli, který z nich je lepší než druhý.

Co je Star Schema?

Jedná se o nejběžnější a nejrozšířenější architektonický model používaný pro vývoj datových skladů a datových mart, ve kterých jsou data uspořádána do faktů a rozměrů. Jedná se o nejjednodušší architektonický model, ve kterém je jedna faktová tabulka používána k odkazování na vícerozměrné tabulky, napodobující vzorek hvězd.

Jak název napovídá, diagram se podobá hvězdě se skutečnou tabulkou ve středu a více tabulek dimenzí, které z ní vyzařují a vytvoří vzorek jako hvězda.

Je také znám jako Star Join Schema a ukládá všechny atributy dimenze do jedné denormalizované faktické tabulky, aby rychle procházela rozsáhlými multidimenzionálními datovými sadami, které odpovídají rychlým časům odezvy dotazu.

Co je Snowflake Schema?

Jedná se o rozšíření hvězdného schématu s přidanými funkcemi. Na rozdíl od hvězdicové schémy jsou tabulky kót ve schématu sněhové vločky normalizovány do více souvisejících tabulek.

Architektonický model představuje logické uspořádání tabulek v hierarchii vztahů mnoho k jednomu, kde jsou tabulky více dimenzí normalizovány do podrozmerových tabulek, připomínajících vzorek podobný sněhové vločce, a proto název.

Jedná se o složitější verzi hvězdicového schématu s více spojeními mezi kótovacími tabulkami, které odpovídají pomalému zpracování času k načítání dat, což znamená pomalé časy odpovědi na dotaz. Minimalizuje redundanci dat, což zase zlepšuje výkon dotazu.

Rozdíl mezi schématem Star a Snowflake

Architektura schématu Star a Snowflake

V relačních databázích je hvězdicová schéma nejjednodušší architektonický model používaný pro vývoj datových skladů a multidimenzionálních datových mart. Jak název napovídá, model připomíná hvězdu s body vyzařujícími ze středu, což znamená, že tabulka faktů je středem a body jsou tabulky dimenzí. Stejně jako jiné dimenzionální modely se skládá z dat ve formě faktů a rozměrů. Schéma sněhové vločky je naopak komplexnějším architektonickým modelem, který odkazuje na vícerozměrnou databázi s logickým uspořádáním tabulek ve formě sněhové vločky.

Tabulka dimenzí

Schéma sněhové vločky je docela podobné hvězdné schémě, kromě toho, že může mít více než jednu dimenzionální tabulku, která jsou dále normalizována do více souvisejících tabulek, označovaných jako subdimenzionální tabulky. Představuje několik úrovní vztahů, které se rozdělují do vzoru sněhové vločky. Schéma hvězd ukládá všechny související atributy dimenze do jedné denormalizované kótovací tabulky, což usnadňuje její pochopení a zvládnutí jednodušších dotazů.

Obchodní model schématu Star a Snowflake

Tabulka dimenzí nemůže obsahovat duplicitní řádky v relačních databázových modelech pro jednoduchý fakt, že by to mohlo vyvolat nejednoznačnost při vyhledávání. Každá tabulka by měla mít sloupec nebo kombinaci sloupců nazývaných primární klíč, který jednoznačně identifikuje všechny záznamy tabulky. Cizí klíč je sloupec nebo skupina sloupců, která poskytuje spojení mezi dvěma tabulkami. Ve schématu hvězdičky má každá tabulka dimenzí primární klíč, který se vztahuje k cizímu klíči ve skutečnosti. Obchodní hierarchie ve schématu sněhové vločky představuje relace primárního klíče / cizího klíče mezi tabulkami dimenzí.

Integrita dat ve schématu Star a Snowflake

Klíčový rozdíl mezi dvěma relační databázovými modely je normalizace. Rozměrové tabulky v hvězdném schématu nejsou normalizovány, což znamená, že obchodní model použije relativně více prostoru k ukládání rozměrových tabulek a více místa znamená více redundantních záznamů, což nakonec způsobí nesrovnalost. Schéma sněhové vločky na druhé straně minimalizuje redundanci dat, protože jsou dimenzované tabulky normalizovány, což znamená mnohem méně redundantních záznamů. Obchodní hierarchie a její rozměry jsou zachovány prostřednictvím referenční integrity, což znamená, že vztahy lze nezávisle aktualizovat v datových skladech.

Výkon dotazů

Hvězdicové schéma má méně spojení mezi rozměrovou tabulkou a skutečnou tabulkou ve srovnání s schématem sněhové vločky, která má několik spojů, které způsobují menší složitost dotazu. Vzhledem k tomu, že rozměry v hvězdném schématu jsou propojeny prostřednictvím tabulky faktur, má jasné spojovací cesty, které znamenají rychlé časy odpovědi na dotaz a rychlá doba odezvy znamená lepší výkon. Schéma sněhové vločky má vyšší počet spojení, takže delší doba odezvy na dotaz, což vede ke složitějším dotazům, které nakonec ohrožují výkon.

Schéma hvězdy vs. schéma sněhové vločky: Srovnávací graf

Shrnutí schématu sněhových vloček se starými verzemi

Oba jsou nejčastější a nejvíce přijaté architektonické modely používané k vývoji databázových skladů a datových mart. Každý obchodní model však má svůj spravedlivý podíl na výhodách a nevýhodách.Zatímco schéma hvězd je nejjednodušší multidimenzionální model používaný pro uspořádání dat do faktů a rozměrů, je ideální pro vývoj datových martů, které zahrnují méně složité vztahy. Schéma sněhové vločky je logické znázornění tabulek v multidimenzionální databázi, ve které jsou rozměry uloženy v tabulkách dílčích rozměrů. Hlavním rozdílem mezi těmito dvěma je normalizace. Dimenzionální tabulky ve schématu sněhové vločky jsou zcela normalizovány do více vyhledávacích tabulek, zatímco v hvězdném schématu jsou dimenzionální tabulky denormalizovány do jedné hlavní faktické tabulky.