Dolování dat a skladování dat
Data Mining vs. Data Warehousing
Proces dolování dat se týká odvětví počítačové vědy, která se zabývá těžbou vzorků z velkých souborů dat. Tyto soubory jsou pak kombinovány pomocí statistických metod az umělé inteligence. Data mining v moderním podnikání je zodpovědná za transformaci surových dat na zdroje umělé inteligence. Data jsou manipulována a jsou tak schopna poskytnout spolehlivá rozhodnutí, která mohou být použita při rozhodování. To dává podnikům výhodu nad konkurencí tím, že mají soubory dat, na které lze spoléhat, aby poskytovaly informace. Data mining využívají také organizace v profilování, včetně marketingu, sledování vědeckých objevů a odhalování podvodů. Existují i další běžné termíny, které mohou být spojeny s dolováním dat, jako je například rybolov dat, drapání dat nebo dokonce snoopování dat. To vše poukazuje na různé varianty dolování dat, které se používají při odběru vzorků malých datových sad, které mohou být příliš malé, aby mohly vyvolat statistické závěry. Ty jsou však rozhodující pro stanovení platnosti používaných dat a mohou být použity při vytváření hypotézy, když se těšíme na dosažení dané datové populace.
Datový sklad, na druhé straně, je pojem, který popisuje systém v organizaci, která se používá při sběru dat. Tato data shromážděná datovým sklatem jsou to, co poskytují transakční systémy, jako je faktura, nákupní záznamy nebo dokonce záznamy o půjčkách. Datové záznamy jsou přebírány z jednotlivých bodů tvorby a jsou shromážděny pod jednou střechou, což je datový sklad. Tyto údaje jsou pak ohlášeny a vykazování se provádí agregovaně, aby uživatelé obchodních informací pomáhali při přijímání platných rozhodnutí. Datový sklad účinně pracovat vyžaduje zdroj dat, databázi a nástroj pro vytváření přehledů. Lze proto říci, že datový sklad je databáze, která se používá pro specifické účely hlášení o analyzovaných datech. Tato data pocházejí z různých systémů, které byly předloženy k podávání zpráv. K provedení své funkce uchovává datový sklad funkce ve třech odlišných vrstvách. Mezi ně patří staging, integrace a přístup. V procesu stagingu jsou surové údaje uchovávány vývojáři za jediným účelem analýzy a podpory. Integrační vrstva se používá pro integraci dat a pro získání úrovně abstrakce od uživatelů dat. Nakonec je přístupová vrstva důležitá při získávání dat z různých uživatelů dat. Jak dolování dat, tak i skladování dat lze označit jako nástroje, které se používají ke sběru business intelligence. Hlavní rozdíl mezi těmito dvěma je, jak se shromažďuje business intelligence. Lze proto říci, že data, která byla dobře skladováni, je poměrně snadná, a proto je možné využít. Datový sklad je tak zodpovědný za to, že práce s dolováním dat usnadňují ukládání všech důležitých dat, které je třeba vydělat na centrálním místě, než když data mining musí hledat data na různých místech. To pomáhá šetřit čas strávený na těžbě dat a prostředky využívané v těžbě.
souhrn Data mining je proces extrakce dat z velkých datových sad. Datové skladování je proces sdružování všech relevantních dat dohromady. Jak dolování dat, tak i skladování dat jsou nástroji pro shromažďování obchodních informací. Dátové dolování je specifické při sběru dat. Datové skladování je nástroj, který šetří čas a zvyšuje efektivitu tím, že sdružuje data z různých míst z různých oblastí organizace. Datový sklad má tři vrstvy, a to staging, integraci a přístup.