Schválené projekty 2018

Rozdělení přidělené dotace z MŠMT na specifický vysokoškolský výzkum po fakultách se zohledněním celoškolských pracovišť na rok 2018

Celková přidělená částka z MŠMT na specifický vysokoškolský výzkum na VŠB-TUO - 55 008 271 Kč

Z toho 2.5% - 1 375 200 Kč - úhrada způsobilých nákladů spojených s organizací SGS

fakulta přidělená částka v Kč
FBI  1 169 170
EKF  3 711 750
FAST  2 600 000
FS  8 523 694
FEI 14 727 528
HGF  6 164 359
FMT  7 136 570
VC  9 600 000
CELKEM 53 633 071

KódSP2018/142
Název projektuOptimalizace algoritmů strojového učení pro platformu HPC II
ŘešitelGolasowski Martin Ing., Ph.D.
Školitel projektuIng. Kateřina Slaninová, Ph.D.<br />
Období řešení projektu01.01.2018 - 31.12.2018
Předmět výzkumuProjekt je zaměřen na využití algoritmů neřízeného strojového učení pro předzpracování dat pro algoritmy řízeného strojového učení. Cílem projektu je propojit vhodné algoritmy navržené v projektu "Optimization of machine learning algorithms for HPC" a vytvořit implementaci pro platformu HPC se zaměřením na reálné rozsáhlé datové kolekce a jejich průběžné zpracovávání. Mezi tyto algoritmy patří např. k-means, spherical k-means, Support Vector Machines nebo Flexible Neural Tree. V rámci výzkumu budou zahrnuty i netradiční varianty algoritmů a metrik, využívající např. Fuzzy čísla. Požadavek na využití navrženého algoritmu v režimu průběžného zpracování dat klade zvýšené nároky na efektivitu, z tohoto důvodu bude kladen důraz na používaní knihoven algoritmů pro platformu HPC a nástrojů pro optimalizaci MPI komunikace.

1. Složení týmu a jeho kvalita

Odborný garant:
Ing. Kateřina Slaninová, Ph.D.

Členové týmu:
Ing. Martin Golasowski
Ing. Jiří Hanzelka
Ing. Martin Šurkovský
Ing. Vojtěch Cima
Ing. Patrik Veteška
Georg Zitzlsberger, M.Sc.
2 x Mgr. Student

2. Reference týmu
[1] Golasowski, M., Bispo, J., Martinovič, J., Slaninová, K., & Cardoso, J. M. (2017, June). Expressing and Applying C++ Code Transformations for the HDF5 API Through a DSL. In IFIP International Conference on Computer Information Systems and Industrial Management (pp. 303-314). Springer, Cham.

[2] Hanzelka, J., Skopal, R., Slaninová, K., Martinovič, J., & Dvorský, J. (2017). Graph Problems Performance Comparison Using Intel Xeon and Intel Xeon-Phi. In Advanced Computing and Systems for Security (pp. 73-83). Springer Singapore.

[3] Behálek, M., Surkovský, M., Meca, O., & Böhm, S. (2015). Memory Optimized Pheromone Structures for Max-Min Ant System. Neural Network World, 25(2), 161.

[4] Cima, V., Böhm, S., Martinovič, J., Dvorský, J., Ashby, T. J., & Chupakhin, V. (2017, July). HyperLoom Possibilities for Executing Scientific Workflows on the Cloud. In Conference on Complex, Intelligent, and Software Intensive Systems (pp. 397-406). Springer, Cham.

[5] Veteška, P. (2016). Aplikační rámec pro podporu výpočtu what-if analýz hydrologických modelů. Diplomová práce

[6] Svatoň, V., Podhoranyi, M., Vavřík, R., Veteška, P., Szturcová, D., Vojtek, D., ... & Vondrák, V. (2017, March). Floreon+: A Web-Based Platform for Flood Prediction, Hydrologic Modelling and Dynamic Data Analysis. In Proceedings of GIS Ostrava (pp. 409-422). Springer, Cham.
Členové řešitelského týmuIng. Michal Běloch
Ing. Jakub Beránek
Ing. Vojtěch Cima
Bc. Lukáš Drábek
Ing. Martin Golasowski, Ph.D.
Ing. Jiří Hanzelka
Ing. Kateřina Slaninová, Ph.D.
Ing. Martin Šurkovský
Georg Zitzlsberger, M.Sc.
Specifikace výstupů projektu (cíl projektu)Cílem projektu je vytvoření knihovny optimalizované pro HPC, která bude realizovat propojení algoritmů řízeného a neřízeného strojového učení testovaných v první fázi projektu. Algoritmy řízeného strojového učení [1,2] mohou poskytovat lepší výsledky pokud jsou jejich vstupní data předzpracována přístupy z oblasti neřízeného strojového učení. Například trénovací množina dat pro algoritmus Support Vector Machine (SVM) nebo neuronovou síť, může být vybrána s pomocí algoritmu k-means [3]. Tento algoritmus na výstupu poskytuje informaci o možných shlucích (vzorcích) [4] ve vstupním datovém souboru, trénovací množina dat [5] může být diverzifikována tak, aby v ní byly zastoupeny body ze všech shluků. Síť trénovaná nad takovými daty může klasifikovat přesněji, protože lépe vystihne možnou variabilitu ve vstupním datovém souboru. Podobným způsobem mohou být testovány i jiné kombinace algoritmů.
V průběhu realizace projektu bude navrženo jednotné rozhraní pro načítání dat a spouštění jednotlivých variant algoritmů. Toto rozhraní bude implementováno v knihovně optimalizované pro platformu HPC. Multinode verze bude optimalizována za pomocí nástrojů pro modelování MPI komunikace. Testování a verifikace knihovny bude realizována s pomocí sady dat navržené v předchozí fázi projektu.

Impakt navrhovaného projektu

Algoritmy strojového učení tvoří významnou část výzkumných aktivit laboratoře pro pokročilé datové analýzy a simulace. Jejich implementace budou např. součástí přístupu k datové fůzi, která je implementována v rámci experimentálního navigačního systému využívaného v projektu ANTAREX. V rámci projektu Floreon+ tyto algoritmy mohou být použity pro simulace hypotetických scénářů z oblasti hydrologie nebo monitorování dopravy. Přesnější klasifikace dat může významným způsobem přispět ke zkvalitnění výstupu těchto systémů. Vytvoření knihovny optimalizované pro HPC infrastrukturu pak může přispět k vývoji systémů, které se využívají pro zpracování rozsáhlých dat v reálném čase.

Postup řešení projektu

Plánovaná doba trvání projektu je jeden kalendářní rok. V prvním čtvrtletí bude vypracována rešerše vhodných rozhraní pro propojení navržených typů algoritmů případně bude navrženo vlastní. Další půlrok bude věnován implementaci knihovny pro použití v prostředí HPC. Knihovna bude pracovat se standardními formáty dat (např. HDF5) a bude paralelizována pomocí vhodných prostředků (např. MPI). Poslední čtvrtletí bude věnováno verifikaci a testování knihovny (např. v prostředí frameworku Hyper Loom [6]). Po celou dobu trvání projektu bude probíhat průběžné publikování dosažených výsledků na indexovaných mezinárodních konferencích nebo ve významných vědeckých časopisech.

Odůvodnění nákladů na stipendia

V návrhu rozpočtu projektu jsou zahrnuta stipendia výše uvedených řešitelů projektu a dále pak dvou zatím nespecifikovaných magisterských studentů.

Reference

[1] CHEN, Yuehui; ABRAHAM, Ajith; YANG, Bo. Feature selection and classification using flexible neural tree. Neurocomputing, 2006, 70.1: 305-313.
[2] CAMPBELL, Colin; YING, Yiming. Learning with support vector machines. Synthesis lectures on artificial intelligence and machine learning, 2011, 5.1: 1-95.
[3] CELEBI, M. Emre; KINGRAVI, Hassan A.; VELA, Patricio A. A comparative study of efficient initialization methods for the k-means clustering algorithm. Expert Systems with Applications, 2013, 40.1: 200-210.
[4] JAIN, Anil K. Data clustering: 50 years beyond K-means. Pattern recognition letters, 2010, 31.8: 651-666.
[5] SCHMIDHUBER, Jürgen. Deep learning in neural networks: An overview. Neural Networks, 2015, 61: 85-117.
[6] Cima, V., Böhm, S., Martinovič, J., Dvorský, J., Ashby, T. J., & Chupakhin, V. (2017, July). HyperLoom Possibilities for Executing Scientific Workflows on the Cloud. In Conference on Complex, Intelligent, and Software Intensive Systems (pp. 397-406). Springer, Cham.

Rozpočet projektu - uznané náklady

NávrhSkutečnost
1. Osobní náklady
Z toho
0,-0,-
1.1. Mzdy (včetně pohyblivých složek)0,-0,-
1.2. Odvody pojistného na veřejné zdravotně pojištění a pojistného na sociální zabezpečení a příspěvku na státní politiku zaměstnanosti0,-0,-
2. Stipendia156000,-156000,-
3. Materiálové náklady0,-0,-
4. Drobný hmotný a nehmotný majetek20000,-20000,-
5. Služby0,-0,-
6. Cestovní náhrady250000,-250000,-
7. Doplňkové (režijní) náklady max. do výše 10% poskytnuté podpory42600,-42600,-
8. Konference pořádané VŠB-TUO k prezentaci výsledků studentského grantu (max. do výše 10% poskytnuté podpory)0,-0,-
9. Pořízení investic0,-0,-
Plánované náklady468600,-
Uznané náklady468600,-
Celkem běžné finanční prostředky468600,-468600,-