Schválené projekty 2019

Rozdělení přidělené dotace z MŠMT na specifický vysokoškolský výzkum po fakultách se zohledněním celoškolských pracovišť na rok 2019

Celková přidělená částka z MŠMT na specifický vysokoškolský výzkum na VŠB-TUO - 55 404 010 Kč

Z toho 0,18 % - 99 192 Kč - úhrada způsobilých nákladů spojených s organizací SGS

fakulta přidělená částka v Kč
FBI  1 433 100
EKF  3 711 635
FAST  2 600 000
FS   8 127 164
FEI 15 797 594
HGF   5 859 651
FMT  7 597 824
VC 10 177 850
CELKEM 55 304 818

KódSP2019/108
Název projektuExtension of HPC platforms for executing scientific pipelines
ŘešitelKřenek Jan Ing.
Školitel projektuIng. Jan Martinovič, Ph.D.<br />
Období řešení projektu01.01.2019 - 31.12.2019
Předmět výzkumuAnotace:
Projekt je zaměřen na rozšíření možností využití HPC infrastruktury za pomocí specializovaných služeb pro vzdálené spouštění výpočetních úloh. Toto rozšíření bude realizováno pomocí řešení HPC-as-a-Service, speciálních paralelních programových modelů a doménově specifických programovacích jazyků. Rozšíření bude zaměřeno především na úlohy z oblasti modelování dopravy, strojového učení nebo bioinformatiky. Jedním z cílů projektu je také podpora spolupráce s předními vědeckými pracovišti a vzdělávání studentů na významných mezinárodních školách a workshopech.

1)Složení týmu a jeho kvalita
Odborný garant:
Ing. Jan Martinovič Ph.D.

Členové týmu:
Ing. Jan Křenek (Řešitel projektu)
Ing. Jakub Beránek
Ing. Vojtěch Cima
Ing. Martin Golasowski
Ing. Jiří Hanzelka (kombinovaný)
Ing. Vít Ptošek (kombinovaný)
Georg Zitzlberger M.Sc. (kombinovaný)
Bc. Jan Faltýnek
Bc. Lukáš Drábek
Bc. Vojtěch Moravec
Sebastian Husár (4 měsíce)
2x neurčený student Mgr. Studia (4 a 6 měsíců)



2)Reference týmu
[1] Hanzelka J., Běloch M., Křenek J., Martinovič J., Slaninová K. (2018) Betweenness Propagation. In: Saeed K., Homenda W. (eds) Computer Information Systems and Industrial Management. CISIM 2018. Lecture Notes in Computer Science, vol 11127. Springer, Cham

[2] Böhm S., Beránek J., Šurkovský M. (2018) Haydi: Rapid Prototyping and Combinatorial Objects. In: Ferrarotti F., Woltran S. (eds) Foundations of Information and Knowledge Systems. FoIKS 2018. Lecture Notes in Computer Science, vol 10833. Springer, Cham

[3] Grakova E., Slaninová K., Martinovič J., Křenek J., Hanzelka J., Svatoň V. (2018) Waste Collection Vehicle Routing Problem on HPC Infrastructure. In: Saeed K., Homenda W. (eds) Computer Information Systems and Industrial Management. CISIM 2018. Lecture Notes in Computer Science, vol 11127. Springer, Cham

[4] Martinovič, T., Zitzlsberger, G. (2018) Highly scalable algorithm for computation of recurrence quantitative analysis. The Journal of Supercomputing, https://doi.org/10.1007/s11227-018-2350-5

[5] Ptošek V., Slaninová K. (2019) Multi-node Approach for Map Data Processing. In: Chaki R., Cortesi A., Saeed K., Chaki N. (eds) Advanced Computing and Systems for Security. Advances in Intelligent Systems and Computing, vol 897. Springer, Singapore

[6] Cima, V., Böhm, S., Martinovič, J., Dvorský, J., Ashby, T. J., & Chupakhin, V. (2017, July). HyperLoom Possibilities for Executing Scientific Workflows on the Cloud. In Conference on Complex, Intelligent, and Software Intensive Systems (pp. 397-406). Springer, Cham.

[7] Moravec, V. (2018). Detekce semaforů v obrazech. Bakalářská práce

[8] Drábek, L. (2018). Systém pro sestavování a automatické nasazování projektů. Bakalářská práce

[9] Faltýnek, J. (2018). Implementace a optimalizace algoritmu pro alternativní plánování tras. Bakalářská práce
Členové řešitelského týmuIng. Jakub Beránek
Ing. Vojtěch Cima
Bc. Lukáš Drábek
Bc. Jan Faltýnek
Ing. Radek Furmánek
Ing. Martin Golasowski, Ph.D.
Ing. Radek Halfar
Ing. Jiří Hanzelka
Sebastián Husár
Ing. Jan Křenek
Ing. Jan Martinovič, Ph.D.
Ing. Vojtěch Moravec
Ing. Vít Ptošek
Georg Zitzlsberger, M.Sc.
Specifikace výstupů projektu (cíl projektu)*** Úvod do problematiky ***

HPC, zpracování rozsáhlých dat a cloudové technologie umožňují v dnešní době vznik široké škály inovací. Vývoj nových průmyslových aplikací, které co nejlépe využívají dostupné HPC prostředků, cloudových služeb a datovou infrastrukturu, umožňuje urychlit tempo digitalizace a inovačního potenciálů firem[2]. Toto je důvodem pro mnohé výzvy řešené v rámci národních i mezinárodních projektů , jejichž cílem je lepší a jednoduší využití HPC infrastruktury akademickou sférou a zejména průmyslem.

V současností mají HPC výpočetní centra vlastní dokumentační portály, kde se uvádí, jak mohou uživatelé přistupovat a využívat HPC prostředky. Existuje několik projektů [3, 4, 5] nebo komerčních platforem [6], které jsou buď zaměřeny na speciální tematické oblasti nebo jen poskytují infrastrukturu jako službu. Naším cílem je nabízet uživatelům snadný, intuitivní a bezpečný přístup k HPC prostředkům a tím být inovativní vůči existujícím řešením.

V rámci rozhraní HPC-as-a-Service musí být řešena také problematika přenosu a zpracování dat. Pro zpracování dat existuje na trhu několik široce používaných frameworků jako např. Hadoop [7], Spark [8] nebo HTCondor [9]. Neumožňují však specifikovat závislost mezi jednotlivými úlohami. Nástroje jako jsou SciLuigi [10], DAGman[11] nebo Pegasus[12], nabízí uživatelům definovat vlastní závislost mezi úkoly, nemají však vyřešeny další problémy.

Tyto nástroje se často opírají o tradiční plánovače zdrojů, které jsou optimalizovány pro dlouhotrvající úkoly, ale mohou mít problém s alokací výpočetních zdrojů, v případě, že potřebujeme provádět větší množství krátce běžících úloh. Také datové přenosy mezi jednotlivými úlohami se obvykle realizují pomocí sdíleného distribuovaného souborového systému, který se zejména stává překážkou výkonnosti v případech, kdy velký počet úloh generuje velké množství vstupních/výstupních operací. Dask/Distributed [13] řeší řadu omezení zmíněných výše. Jedná se zejména o krátce běžící úlohy a umožňuje snížit využití souborového systému. Nicméně, podobně jako ostatní nástroje, nepodporuje běžné pipelines aplikací třetích stran.

*** Cíle projektu a očekávané výstupy ***

Cílem projektu je rozšíření možností využití HPC infrastruktury formou specializovaných HPC-as-a-Service rozhraní, jednak pro spouštění specializovaných pipeline skládajících se z velkého množství úloh s rozlišnou dobou trvání, a také pro specializované near real-time výpočty, kdy musí být požadavek zpracován v řádu sekund. S tím souvisí i aktivity v oblasti zabezpečení služeb a predikce dostupných výpočetních prostředků.

Cíl projektu můžeme rozdělit do následujících dílčích cílů:

1) Spouštění specializovaných pipelines

Toto rozhraní by mělo podporovat několik rozlišných případů použití. Jedním z nich může být definování výpočetních úloh pomocí specializovaných přístupů, mezi které patří např. reprezentace pomocí Directed Acyclic Graphs (DAG) [1] nebo Common Workflow Language (CWL). CWL je využíván například v rámci projektu Bioexcel (https://bioexcel.eu/). Po odeslání do systému budou úlohy zpracovány na HPC infrastruktuře pomocí systému pro spouštění vědeckých pipelines HyperLoom. Pro efektivní zpracování velkého množství úloh tohoto typu je nutné použít sofistikované plánovací heuristiky, proto budou v rámci projektu zkoumány a vyvíjeny plánovací algoritmy a metody zefektivnění datových přenosů v rámci HPC clusteru.

2) Near real-time computing

V oblasti strojového učení je důležitým prvkem využití HPC infrastruktury. Tu lze využít ve dvou rozlišných módech. Při tvorbě (trénování) modelu je na výpočetní infrastruktuře klasicky spuštěna výpočetní pipeline (toto odpovídá prvnímu případu užití). Nicméně při následném využití již natrénovaného modelu je nutné efektivně provádět on-demand predikce v reálném čase.

Jiným případem užití near real-time výpočtů je zpracování sady uživatelských požadavků v oblasti server-side dopravní navigace se zaměřením na globální optimalizaci dopravního toku se specifickými Service Level Agreement (SLA) pro velké množství klientů, kde každý musí obdržet nová data v řádu desítek sekund.

V obou případech musí existovat možnost připojit se k HPC clusteru z externí sítě, proto bude v rámci tohoto projektu vyvinut systém pro obsluhování externích klientů, kteří budou posílat požadavky například v HTTPS formátu. Tyto požadavky budou vnitřně rozdělovány na pracovní uzly, které je budou obsluhovat a vracet odpovědi klientům.

3) Analýza zajištění dostupnosti a bezpečnosti služeb

Pro potřeby lepšího porozumění, jak jsou úlohy plánované na IT4Innovations clusterech bylo potřeba vytvořit simulační prostředí. Pomocí simulátoru můžeme analyzovat širokou škálu možností, jak optimalizovat stávající plánování úloh(např. priority, omezení fronty), a také se snažit pochopit vliv neočekávaných systémových výpadků na plánování úloh. Tyto simulace společně s monitoringem systému chceme využít pro rozšíření HPC-as-a-Service rozhraní o predikci dostupnosti výpočetních prostředků.

Při použití HPC infrastruktury jako služby je nutné dbát na zabezpečení celého systému. Pro bezpečné uchovávání a zabezpečení autentizačních a jiných tajných dat bude naimplementován autentizační modul. V modulu bude vyřešena izolace a integrace dat aplikací používajících tento modul. Tento modul bude zahrnut jak ve službách (HPC-as-a-Service), tak i v dalších aplikacích.

*** Impakt navrhovaného projektu ***

HPC-as-a-Service rozhraní jsou používány ve velké části výzkumných aktivit Laboratoře pro pokročilé datové analýzy a simulace (ADAS). Jejich rozšířením dojde ještě k lepšímu využití HPC prostředků a zjednodušení práce s HPC infrastrukturou např. v rozhraní HEAppE (https://heappe.eu), které je využíváno v projektu Floreon+, kde poskytuje uživatelům rychlý výpočet on-demand analýz.

Řešení pro near real-time computing na HPC infrastruktuře bude sloužit k rozšíření funkcionality výsledků H2020 projektu ANTAREX o možnost komunikace s velkým množstvím klientů v reálném čase.

Optimalizace plánovacích algoritmů a datových přenosů v HyperLoomu bude využita k zefektivnění provádění výpočetních pipeline v H2020 projektu ExaQute.

Dílčí část, řešící zefektivnění a kompresi datových souborů, by mohla přispět do projektu LEXIS, kde se využívá přenos velkého množství dat jak mezi uživateli, tak institucemi.

Vyvíjená řešení mají za cíl usnadnění přístupu k HPC infrastruktuře vědecko-výzkumným komunitám s malou, popř. žádnou znalostí problematiky distribuovaných výpočtů.

*** Postup řešení projektu ***

Plánovaná doba trvání projektu je jeden kalendářní rok. V prvním pololetí bude naimplementována služba umožňující uživatelům sestavení výpočetního workflow z již předpřipravených bloků a jeho následné spuštění na HPC clusteru. Uživatelská a systémová autentizační data budou uložena izolovaně v autentizačním modulu. Dále bude optimalizováno rozhraní pro současné připojení velkého množství externích klientů k HPC infrastruktuře. Také bude vyvíjen systém pro využití HPC infrastruktury k trénování neuronových sítí a jejich následné využití k predikci.

V posledním čtvrtletí bude řešena optimalizace přenosu dat mezi uživateli a HPC infrastrukturou nebo mezi různými HPC infrastrukturami a také optimalizace a predikce dostupnosti HPC zdrojů. Po celou dobu trvání projektu bude probíhat průběžné publikování dosažených výsledků na indexovaných mezinárodních konferencích nebo ve významných vědeckých časopisech.

*** Odůvodnění nákladů na stipendia ***

V návrhu rozpočtu projektu jsou zahrnuta stipendia výše uvedených řešitelů projektu a dále pak dvou blíže nespecifikovaných magisterských studentů (jeden v období 4 měsíců a druhý v období 6 měsíců). Řešitel Sebastián Husár bude spolupracovat jen v délce 4 měsíců z důvodu dokončování bakalářského vzdělání. V rámci projektu bude také probíhat komunikace se zahraničními výzkumnými institucemi a studenty, proto se v rámci projektu počítá se stážemi. Dále plánujeme využití výdajů na speciální školení (letní, zimní školy) a na účast na konferencích.

*** Reference ***

[1] Cima, V., Böhm, S., Martinovič, J., Dvorský, J., Ashby, T. J., & Chupakhin, V. (2017, July). HyperLoom Possibilities for Executing Scientific Workflows on the Cloud. In Conference on Complex, Intelligent, and Software Intensive Systems (pp. 397-406). Springer, Cham.

[2] http://ec.europa.eu/research/participants/portal/desktop/en/opportunities/h2020/topics/ict-11-2018-2019.html

[3] PipsCloud https://www.sciencedirect.com/science/article/pii/S0167739X16301923

[4] Emu – Cluster in the Cloud https://www.ersa.edu.au/service/cloud/clusters-in-the-cloud/

[5] CloudiFacturing https://www.cloudifacturing.eu/

[6] Amazon AWS https://aws.amazon.com/

[7] Tom White. 2009. Hadoop: The Definitive Guide (1st ed.). O’Reilly Media, Inc.

[8] Matei Zaharia, Reynold S Xin, PatrickWendell, Tathagata Das, Michael Armbrust, Ankur Dave, Xiangrui Meng, Josh Rosen, Shivaram Venkataraman, Michael J Franklin, and others. 2016. Apache Spark: a unified engine for big data processing. Commun. ACM 59, 11 (2016), 56–65.

[9] HTCondor. 2017. HTCondor. (2017). https://research.cs.wisc.edu/htcondor/index.html [Online; accessed 31-March-2017].

[10] Samuel Lampa, Jonathan Alvarsson, and Ola Spjuth. 2016. Towards agile largescale predictive modelling in drug discovery with flow-based programming design principles. Journal of Cheminformatics 8, 1 (2016), 67. DOI:http://dx.doi.org/10.1186/s13321-016-0179-6

[11] Weiwei Chen and Ewa Deelman. 2011. Workflow Overhead Analysis and Optimizations. In Proceedings of the 6th Workshop on Workflows in Support of Large-scale Science (WORKS ’11). ACM, New York, NY, USA, 11–20. DOI:http://dx.doi.org/10.1145/2110497.2110500

[12] Ewa Deelman, Gurmeet Singh, Mei-Hui Su, James Blythe, Yolanda Gil, Carl Kesselman, Gaurang Mehta, Karan Vahi, G. Bruce Berriman, John Good, Anastasia Laity, Joseph C. Jacob, and Daniel S. Katz. 2005. Pegasus: A Framework for Mapping Complex Scientific Workflows Onto Distributed Systems. Sci. Program. 13, 3 (July 2005), 219–237. DOI:http://dx.doi.org/10.1155/2005/128026

[13] Matthew Rocklin. 2015. Dask: Parallel computation with blocked algorithms and task scheduling. In Proceedings of the 14th Python in Science Conference. Citeseer,
130–136.

Rozpočet projektu - uznané náklady

NávrhSkutečnost
1. Osobní náklady
Z toho
0,-0,-
1.1. Mzdy (včetně pohyblivých složek)0,-0,-
1.2. Odvody pojistného na veřejné zdravotně pojištění a pojistného na sociální zabezpečení a příspěvku na státní politiku zaměstnanosti0,-0,-
2. Stipendia172000,-196000,-
3. Materiálové náklady0,-0,-
4. Drobný hmotný a nehmotný majetek30000,-50738,-
5. Služby5000,-1076,-
6. Cestovní náhrady405000,-377686,-
7. Doplňkové (režijní) náklady max. do výše 10% poskytnuté podpory68000,-69500,-
8. Konference pořádané VŠB-TUO k prezentaci výsledků studentského grantu (max. do výše 10% poskytnuté podpory)0,-0,-
9. Pořízení investic0,-0,-
Plánované náklady680000,-
Uznané náklady695000,-
Celkem běžné finanční prostředky680000,-695000,-