Schválené projekty 2012

Rozdělení přidělené dotace z MŠMT na specifický vysokoškolský výzkum po fakultách se zohledněním celoškolských pracovišť na rok 2012

Celková přidělená částka z MŠMT na specifický vysokoškolský výzkum na VŠB-TUO - 40 767 tis.Kč

Z toho 2.5%  - 1 019 175 Kč - úhrada způsobilých nákladů spojených s organizací SGS

fakultačástka v  Kč
FBI 1 135 000
EKF 5 252 000
FAST 2 282 000
FS 7 631 476
FEI 9 323 810
HGF 6 829 216
FMMI 7 293 498
CELKEM 39 747 000

(825,-Kč rezerva)

KódSP2012/184
Název projektuAnalýza charakteristik modelování databázových schémat datového skladu s důrazem na agilní přístup k vývoji Business Intelligence systému
ŘešitelNěmec Radek Ing., Ph.D.
Školitel projektuprof. Ing. Jindřich Kaluža, CSc.<br />
Období řešení projektu01.01.2012 - 31.12.2012
Předmět výzkumuAgilní přístup k vývoji Business Intelligence (BI) systému je v současnosti velmi diskutovaným tématem mezi odborníky na oblast budování Business Intelligence systémů, které nekompromisně ovlivňují nároky dynamicky se měnícího podnikatelského prostředí. Datová základna BI systému (datový sklad) je jedním ze zásadních úzkých míst každého BI systému, jehož struktura se musí v čase měnit dle potřeb rozhodovacích procesů ve firmě a k jejichž podpoře jsou softwarové nástroje BI primárně určeny. Při evoluci datového skladu tedy významně působí faktor času, který představuje pro návrháře datového skladu základní zdroj problémů, zvláště je-li BI systém vyvíjen inkrementálně – v moderním pojetí tzv. agilně.

Vedle tradičního způsobu modelování databázového schématu datového skladu prostřednictvím denormalizovaného dimenzionálního schématu hvězdy (STAR), pro který se časem vyvinuly specifické postupy pro zahrnutí faktoru času do návrhu schématu, je zde také inovativní způsob modelování pomocí tzv. kotevního modelování (anchor modeling), který staví na principu vysokého stupně normalizace databázového schématu na principu tzv. 6. normální formy a ve kterém je autory akcentována orientace na evolučně intenzivní databázová schémata a agilní přístup k jeho modelování. Tento přístup je mj. charakteristický odlišným přístupem k návrhu struktury tabulek, jako základních stavebních kamenů databázového schématu datového skladu a jejich vzájemných vztahů způsobem, který implicitně zohledňuje faktor času.

Předmětem výzkumu je aplikace kotevního modelování jako principu návrhu datové základny datového skladu na 10 typizovaných schématech datového skladu (tyto budou specifikovány na základě studia vybrané odborné literatury). Kotevní schémata budou vytvořena převodem z výchozí reprezentace v podobě standardního schématu hvězdy a budou analyzovány výkonnostní a fyzické charakteristik (doba potřebná k naplnění tabulek schématu daty, průměrná doba běhu balíku typizovaných dotazů a fyzická velikost schématu) obou druhů reprezentace stanoveného vzorku databázových schémat, napříč čtyřmi vybranými databázovými systémy (MS SQL Server, Oracle, MySQL a PostgreSQL).

V rámci výzkumu bude také provedena analýza možnosti využití vybraných metrik pro hodnocení kvality navrhovaného databázového schématu, získaných na základě závěrů článku PAPASTEFANATOS, G. et al. Design Metrics for Data Warehouse Evolution, 2008. In Proceedings of 27th International Conference on Conceptual Modeling (ER 2008), na jednotlivých kotevních schématech. Pro analýzu bude využit open-source software Hecataeus, který umožňuje zobrazit databázové schéma jako orientovaný graf a poskytuje funkce pro testování a vyhodnocení kvality daného schématu prostřednictvím výpočtu metrik, uvedených v části metodika postupu řešení.

Uživateli výsledků výzkumu mohou být potenciální vývojáři datové základny BI systému, kteří mohou výsledky využít při analýze možností jak přistupovat k řešení návrhu datové základny. Dalšími uživateli výsledků mohou být výzkumníci zabývající se aplikací a integrací různých přístupů tvorby datové základny v prostředí CASE nástrojů.

Metodika postupu řešení:
* Provedení rešerše dostupných publikací zabývajících se problematikou modelování datového skladu tradičními i moderními technikami; využitím teorie grafů pro hodnocení kvality návrhu databázového schématu, vyhledávání souvisejících publikací

* Vyhledávání a výběr schémat v publikacích, které splňují kritéria specifikovaná v části „Vstupní data a jejich zdroje“

* Provedení rešerše softwarových nástrojů pro generování testovacích databází a nástrojů pro testování výkonnosti databázového schématu na principu dávkového spouštění SQL dotazů.

* Stanovení variant a kritérií pro výběr nejlepších variant zamýšlených softwarových produktů.

* Výběr nejlepších variant softwarových nástrojů prostřednictvím metody rozhodovací analýzy

* Adaptace vybraných schémat datového skladu z modelů nalezených v literatuře do podoby STAR schématu a kotevního schématu pomocí volně dostupného multidatabázového software pro návrh databází Oracle SQL Developer Data Modeler.

* Příprava nástrojů pro plnění databází, nastavení algoritmů pro generování dat na požadavky na vstupní data projektu, viz část „Vstupní data a jejich zdroje“. Generování dat bude probíhat zvlášť pro kotevní schéma a zvlášť pro STAR schéma vzhledem k odlišné interpretaci struktury relačních tabulek.

* Vytvoření balíků SQL dotazů pro testování výkonnosti a naplnění databází databázových systémů MS SQL Server, Oracle, MySQL a PostgreSQL testovacími daty pomocí vybraných nástrojů.

* Evidence výsledků nahrávání a testování pomocí vybraných softwarových nástrojů a vytvoření přehledu výkonnostních a fyzických charakteristik jednotlivých schémat (doba potřebná k naplnění tabulek schématu daty, průměrná doba běhu balíku typizovaných dotazů a fyzická velikost schématu) obou typů napříč zmíněnými databázovými systémy s indikací podstatných rozdílů v charakteristikách obou typů schémat.

* Převedení kotevních schémat ze všech zkoumaných vzorků databázových schémat do podoby orientovaného grafu prostřednictvím nástroje Hecataeus pro potřeby analýzy možností aplikace metrik hodnocení kvality návrhu. Pro porovnání budou převedeny i STAR schémata a výsledky budou vyhodnoceny vzhledem k referenční výchozí variantě (STAR schéma).

* Kotevní a související STAR schémata budou hodnocena z pohledu 2 hlavních metrik využívaných v nástroji Hecataeus. Stanovení míry vlivu konkrétních typů změn, reprezentovaných jako události A=[A1,…., An] (např. smazání dimenzionální tabulky, smazání atributu tabulky, smazání ukazatele z tabulky faktů ad.), s rozdělením pravděpodobnosti vzniku P={p1,…,pm} na kvalitu databázových schémat se provede pomocí metriky entropie grafu. Metrika slouží k určení do jaké míry je část systému méně pravděpodobně ovlivnitelná evolučními událostmi než ostatní části systému. Míra entropie uzlu ν v grafu G(V,E), kde V jsou uzly a E hrany, nechť je dána vzorcem viz příloha.
Jako druhá metrika se použije tranzitivní stupeň uzlu, který je dán vzorcem viz příloha. Tato metrika hodnotí, do jaké míry je uzel (tabulka) závislý na okolních, resp. kolik uzlů (tabulek) je s ní svázáno (v případě relační tabulky cizím klíčem). Platí, že čím vyšší hodnoty metrik, tím je struktura a návrh méně kvalitní (tedy více náchylný na vůči změnám z hlediska metriky entropie, resp. z hlediska metriky tranzitivního stupně uzlu že je tabulka svázána s příliš mnoho sousedními tabulkami).

* Výsledky výkonnostního testování bude vyhodnoceno a bude vytvořen ucelený a strukturovaný přehled získaných výsledků. Z analýzy možnosti aplikace metrik hodnocení kvality bude vyvozen závěr ve smyslu vyhodnocení, zda hodnoty metrik pro testovaná databázová schémata datového skladu v podobě kotevního schématu lze určit a zda vykazují horší výsledky (ve smyslu výrazně vyšších hodnot zkoumaných metrik) nebo jsou srovnatelné se STAR schématem. Závěrem bude provedeno rozhodnutí o výběru nejvhodnější varianty schématu (kritéria hodnocení budou vycházet z metrik hodnocení schémat) s využitím metody vícekriteriálního rozhodování (Analytic Hierarchy Process, případně jiné dle konkrétních dílčích výsledků).

Vstupní data a jejich zdroje:
Vstupní data představují údaje v tabulkách v testovací databázi vygenerované pomocí softwarových nástrojů specializovaných na generování testovacích dat, v rozsahu 100 gigabytů.
Údaje v tabulkách představují jak nominální, tak intervalová data a budou odpovídat reálným doménám dat (jména a příjmení pocházející z veřejně dostupných databází jmen a příjmení v ČR, adresy odpovídající reálným adresářům v ČR apod.).
S využitím literárních zdrojů zabývajících se návrhem datové základny BI systému bude specifikováno 10 vzorků databázových schémat datového skladu, které budou vyhovovat základním výběrovým kritériím. Kritérií budou následující podmínky: (1) schéma musí obsahovat alespoň 3 dimenzionální tabulky; (2) každá dimenzionální tabulka musí obsahovat alespoň 4 atributy; (3) tabulka faktů musí sledovat alespoň 2 ukazatele.

Časový harmonogram řešení:
* 1/2012 – 2/2012 … rešerše bibliografických zdrojů pro potřeby získání teoretických podkladů pro řešení projektu
* 3/2012 – 4/2012 … rešerše softwarových nástrojů pro generování testovacích databází a testování výkonnosti databázových schémat, stanovení vhodných nástrojů pomocí rozhodovací analýzy, instalace a seznámení se s funkcemi SW nástrojů, tvorba příspěvku na konferenci IDIMT 2012
* 5/2012 – 6/2012 … vytvoření testovacích dimenzionálních a kotevních databázových schémat, vytvoření testovacích balíků SQL dotazů, naplnění databází testovacími daty, evidence výsledků, tvorba příspěvku na konferenci ICCST 2012
* 7/2012 – 9/2012 … testování výkonnosti databázových schémat s využitím odpovídajícího softwarového nástroje, průběžná evidence výkonnostních a fyzických charakteristik z provedených testů, tvorba článku do časopisu ECON 2013
* 10/2012 – 12/2012 … analýza a vyhodnocení výsledků testování a analýzy možnosti aplikace metrik hodnocení kvality návrhu schématu na kotevní schéma vzhledem k testovaným STAR schématům
Členové řešitelského týmuIng. Oleg Dejnega
prof. Ing. Jindřich Kaluža, CSc.
Ing. Radek Němec, Ph.D.
Ing. Miroslav Pešák
doc. Mgr. Ing. František Zapletal, Ph.D.
Specifikace výstupů projektu (cíl projektu)Cíle projektu:
Prvním cílem je analýza výkonnostních a fyzických charakteristik vybraných databázových schémat datového skladu modelovaných prostřednictvím principů dimenzionálního a kotevního modelování s využitím testovacích dat.
Druhým cílem je provést analýzu možnosti využití vybraných metrik pro hodnocení kvality navrhovaného databázového schématu (založených na principu výpočtů v orientovaném grafu), pro hodnocení kvality návrhu kotevního schématu.

Kontrolovatelné výstupy projektu:
* Strukturovaná rešerše literárních zdrojů na vymezená témata a klíčová slova/fráze v souvislosti s předmětem výzkumu a dle metodiky řešení
* Rozhodovací analýza pro výběr vhodných nástrojů pro generování testovací databáze a nástrojů pro testování výkonnosti databázového schématu na principu dávkového spouštění SQL dotazů
* Logicky i fyzicky realizovaná testovací databázová schémata modelu datového skladu v podobě STAR a kotevního modelu
* Strukturovaný přehled výkonnostních a fyzických charakteristik (doba potřebná k naplnění tabulek schématu daty, průměrná doba běhu balíku typizovaných dotazů a fyzická velikost schématu) napříč specifikovanými databázovými systémy
* Vyhodnocení možnosti aplikace metrik hodnocení kvality testovacích databázových kotevních schémat vzhledem k výchozím STAR schématům – analýza výsledných hodnot metrik entropie pro hodnocení schopnosti snést určité předdefinované typické změny ve struktuře schématu datového skladu a tranzitivního stupně uzlu (výstupy ze software Hecataeus); aplikace metody vícekriteriálního rozhodování pro stanovení nejvhodnější varianty schématu

Publikační výstupy projektu:
* Publikování vybraných průběžných výsledků projektu v anglickém jazyce na konferenci IDIMT 2012 (Jindřichův Hradec) (dle RVVI D-8).
* Publikování vybraných výsledků v anglickém jazyce na konferenci ICCST 2012 (Paříž) (dle RVVI D-8).
* Publikování vybraných výsledků v anglickém jazyce v časopise ECON v roce 2013 (dle RVVI Jrec-4).
* Monografie v češtině: NĚMEC, Radek. Business Intelligence – moderní přístup. Vydání plánováno v roce 2013 (dle RVVI 40 – NRRE-I).

Výstupem projektu SGS bude závazně minimálně 60 bodů.

Rozpočet projektu - uznané náklady

NávrhSkutečnost
1. Osobní náklady
Z toho
57620,-57620,-
1.1. Mzdy (včetně pohyblivých složek)43000,-43000,-
1.2. Odvody pojistného na veřejné zdravotně pojištění a pojistného na sociální zabezpečení a příspěvku na státní politiku zaměstnanosti14620,-14620,-
2. Stipendia86500,-86500,-
3. Materiálové náklady74980,-83778,-
4. Drobný hmotný a nehmotný majetek15000,-15181,-
5. Služby36800,-27880,-
6. Cestovní náhrady17100,-17041,-
7. Doplňkové (režijní) náklady max. do výše 10% poskytnuté podpory32000,-32000,-
8. Konference pořádané VŠB-TUO k prezentaci výsledků studentského grantu (max. do výše 10% poskytnuté podpory)0,-0,-
9. Pořízení investic0,-0,-
Plánované náklady320000,-
Uznané náklady320000,-
Celkem běžné finanční prostředky320000,-320000,-