Schválené projekty 2019

Rozdělení přidělené dotace z MŠMT na specifický vysokoškolský výzkum po fakultách se zohledněním celoškolských pracovišť na rok 2019

Celková přidělená částka z MŠMT na specifický vysokoškolský výzkum na VŠB-TUO - 55 404 010 Kč

Z toho 0,18 % - 99 192 Kč - úhrada způsobilých nákladů spojených s organizací SGS

fakulta přidělená částka v Kč
FBI  1 433 100
EKF  3 711 635
FAST  2 600 000
FS   8 127 164
FEI 15 797 594
HGF   5 859 651
FMT  7 597 824
VC 10 177 850
CELKEM 55 304 818

KódSP2019/81
Název projektuVyužití evolučních algoritmů a SC modelů pro efektivní predikci chování vysokofrekvenčních finančních dat.
ŘešitelMaděra Martin Ing.
Školitel projektuprof. Ing. Dušan Marček, CSc.<br />
Období řešení projektu01.01.2019 - 31.12.2019
Předmět výzkumuMožnosti využití umělých neuronových sítí a soft coputingu (SC) se stále rozšiřují nejen díky pokrokům v jejich zkoumání, ale i díky zvyšujícímu se a zlevňujícímu se dostupnému výpočetnímu výkonu. Přestože neuronové sítě nejsou v oboru strojového učení a umělé inteligence novinkou, náročnost jejich vytváření byla limitujícím faktorem pro mnoho potencionálních uživatelů. Díky postupům založených na evolučních heuristických algoritmech a novějších učících metod je možno jejich vytváření a učení výrazně zrychlit, zefektivnit při získávání přesnějších výstupů. Zároveň s výzkumy v této oblasti se také objevovaly nové typy neuronových sítí zahrnující nové přenosové funkce, učících metod či dokonce zásadní změny jejich architektury.

V současné době typickým postupem pro učení neuronových sítí je algoritmus zpětné propagace chybového termu založené na gradientních metodách. Neuronová síť se nechá spočítat výsledek pro soubor trénovacích dat. Následně se pro neurony v poslední, výstupní vrstvě spočítá hodnota předem určené chybové funkce (např. průměr čtverců odchylek od správné hodnoty či cross-entropy). Po spočítání parciálních derivací chybové funkce podle vah synapsí do neuronů poslední vrstvy je možno určit, o kolik by se měla změnit hodnota každé ze synapsí. Často používanou metodou pro nalezení vhodných vah je Stochastic Gradient Descent. Tento postup se zopakuje pro každou z vrstev neuronové sítě vyjma vstupní vrstvy. Soubor trénovacích dat je možno rozdělit na rozumně velké části a algoritmus zpětné propagace aplikovat pouze na části dat. Tento přístup zpravidla vede k rychlejšímu učení neuronové sítě a rychlejší konvergenci. (Marček, D. 2013)

Ačkoliv samotné výpočty pomocí neuronové sítě jsou relativně rychlými operacemi, jejich trénování pomocí algoritmu zpětné propagace může být operací velmi náročnou na dostupné výpočetní prostředky, především pokud datový soubor určený pro trénování sítě je velký. V některých případech tento fakt může vést k tomu, že se využití neuronové sítě stane finančně neúnosné. Zde je možno využít heuristických algoritmů. Jejich využití sice nevede k přesnému výsledku, ale náročnost trénování neuronové sítě se pro větší soubory trénovacích dat významně sníží a trénování zrychlí.
Nejvíce aplikované architektury umělých neuronových sítí (UNS) jsou tři-vrstvé architektury ve kterých učení vah UNS mezi neurony střední a výstupní vrstvy se provádí klasickým algoritmem zpětné propagace chybového termu. Předpokládá se, že především zde se mohou aplikovat heuristické metody učení, případně i se zakomponovaním tzv. soft konceptu (Kecman, 2001). Učení synaptických vah mezi neurony vstupní a střední vrstvy se předpokládá, že bude realizované vyhledáváním shluků ve vstupních datech, přičemž jejich identifikace (rozdělení, standardní odchylky a středy shluků) tvoří přímo hodnoty parametrů (synaptických vah) UNS – tzv. RBF (Radial Basic Function) sítě.

Mezi populární heuristiky patří evoluční algoritmy. Zvláště pak genetické či mikrogenetické algoritmy lze využít pro nalezení nejvhodnějších hyperparametrů, synaptických vah či dokonce celých architektur neuronových sítí. Tyto algoritmy jsou inspirované darwinovskou evolucí, kdy jedincem pro účely genetického algoritmu je množina všech vah synapsí, zakódovaných jako číslo v rozsahu [-1; 1] či v rozsahu celých čísel přirozeným pro daný počítač, na kterém bude výpočet probíhat. Na takovéto jedince lze použít klasické genetické operátory mutace a křížení. Fitness funkce genetického algoritmu z takovéhoto jedince zrekonstruuje neuronovou síť a z trénovacích dat vypočítá chybu, kterou se síť při výpočtu dopouští. Nejživotaschopnějším jedincem je potom ten, který je tvořen váhami sítě, která se při výpočtech dopustila nejmenších chyb.

V dnešní době je běžné, že jsou k dispozici počítače s více procesory či dokonce s výkonnými grafickými kartami, které umožňují masivní paralelismus při výpočtech. Genetické algoritmy, které pracují s relativně velkými populacemi, mohou těchto faktů využít a výpočet ohodnocení jednotlivých jedinců zparalelizovat, čímž se dosáhne výrazného snížení času potřebného k trénování neuronových sítí při využití běžně dostupných výpočetních prostředků (Gadea-Gironés, R., Colom-Palero, R., &Herrero-Bosch, V. (2018)) a tímto snížit náklady.

Postup a metodika řešení:
Postup řešení je zaměřen na vývoj a porovnaní úspěšnosti predikce pomocí regresní analýzy, pomocí neuronové sítě natrénované metodou zpětné propagace a neuronové sítě natrénované pomocí genetického algoritmu. Chceme docílit toho, že mezi soubory predikovaných hodnot nebudou statisticky významné rozdíly. Genetické algoritmy mají mnoho variant a modifikací, v tomto projektu chceme najít nejlepší možný pro náš cíl z hlediska rychlosti a náročnosti na výpočetní výkon. V kontextu našeho cíle se chceme zaměřit i na zkoumání chování neuronové sítě s různými aktivačními funkcemi.
Souběžně budou vyvíjeny RBF sítě, kterých aproximační a predikční přesnost bude porovnávaná s nejnovějšími statistickými (ekonometrickými) modely a následně i s modely SVM na vysokofrekvenčních finančních datech.

Postup (vývoj) řešení úloh UNS a SVM je rozdělen do 5 etap:
- V první etapě bude uvedena a aplikovaná RBF síť s tzv. cloud aktivační funkci v neuronech ve střední vrstvě a její zhodnocení a porovnání aproximační s modely založené na statistickém (ekonometrickém) přístupu.
- V druhé etapě bude uveden a aplikován SVM na algoritmus pro lineární klasifikátor v jeho primární a duální reprezentaci.
- Ve třetí etapě bude uveden a aplikován nelineární klasifikátor s učením v tzv. charakteristickém prostoru (featurespace) nebo přímým výpočtem pomocí aplikace jadrové (kernel) funkce.
- Ve čtvrté etapě se přistoupí k řešení a problematiky funkcionální aproximace a predikci dat pomocí SV (Support Vector) pro odhad parametrů funkcí ekonometrických modelů.
- V páté etapě se na reálných aplikacích vysokofrekvenčních finančních údajích se porovná jednak přesnost modelů SVM v závislosti na volbě parametrů těchto modelů, a případně se zhodnotí jejich přesnost s variantními ekonometrických (statistickými) modely a modely založenými na UNS. Detailnější informace k této problematice lze nalézt v (2000), Kecman (2001),Suykens (2000), Vapník (1998).


Harmonogram řešení:
Projekt se uskuteční v období od 1. 1. 2019 do 31. 12. 2019 v následujících krocích:
1/2019 – 2/2019 - Sběr a rešerše odborné literatury
2/2019 – 3/2019 - Implementace evolučních a genetických algoritmů. Konstrukce neuronových sítí.
3/2019 – 5/2019 – Generování predikcí neuronovými sítěmi. Analýza přesnosti predikcí pomocí regresní analýzy.
5/2019 – 12/2019 - Ladění neuronových sítí a parametrů. Publikační činnost. Prezentování dosažených výsledků na konferencích.

Literatura:
Marček, D (2013).: Pravdepodobnostné modelovanie a soft computing v ekonomike, SAEI, vol. 18. Ostrava: VŠB-TU Ostrava
Gadea-Gironés, R., Colom-Palero, R., &Herrero-Bosch, V. (2018).: Optimization of deep neural networks using SoCs with OpenCL,Sensors (Switzerland), vol. 18, issue 5, doi:10.3390/s18051384, Multidisciplinary Digital Publishing Institute (MDPI), ISSN:1424-3210
Vapnik, V.:The nature of statistical learning theory. Springer Verlag, New-York, 1995.
Vapnik, V.:The support vector method of function. In: Nonlinear Modeling: Advanced Black-Box Techniques, Suykens, J.A.K., Vondewalle, J. (Eds.), Kluwer Academic Publishers, Boston, 1998, (55-85)
Suykens, A.K., Van Gestel, T., De Brabanter, J., De Moor, B., Vandewalle, J.: Least Squares Support Vector Machines. World Scientific Pub. Co., Singapore, 2002
Suykens, J.A.K.: Least squares support vector machines for classification and nonlinear modelling. Neural Network World 1-2/2000, (29-47)
Kecman, V.: Learning and Soft Computing – Support Vector Machines, Neural Networks and Fuzzy Logic Models. Massachusetts Institute of Technology, 2001
Suykens, A.K., Van Gestel, T., De Brabanter, J., De Moor, B., Vandewalle, J.: Least Squares Support Vector Machines. World Scientific Pub. Co., Singapore, 2002
Suykens, J.A.K.: Least squares support vector machines for classification and nonlinear modelling. Neural Network World 1-2/2000, (29-47).
Členové řešitelského týmuIng. Ondřej Grunt, Ph.D.
Ing. Martin Maděra
prof. Ing. Dušan Marček, CSc.
Bc. Vojtěch Řehák
Specifikace výstupů projektu (cíl projektu)Naším cílem je rozšířit a prohloubit porozumění možností využití evolučních algoritmů pro trénování neuronových sítí a ověření správnosti tohoto porozumění na predikci chování vysokofrekvenčních finančních dat.

Výstupem projektu SGS budou závazné minimální počty publikací dle kategorií:
– 2 publikace v odborném periodiku (druh výstupu Jsc)
– 3 konference, které mají sborníky ve Wos (druh výstupu D)

Rozpočet projektu - uznané náklady

NávrhSkutečnost
1. Osobní náklady
Z toho
38592,-38500,-
1.1. Mzdy (včetně pohyblivých složek)28800,-28800,-
1.2. Odvody pojistného na veřejné zdravotně pojištění a pojistného na sociální zabezpečení a příspěvku na státní politiku zaměstnanosti9792,-9700,-
2. Stipendia76800,-72000,-
3. Materiálové náklady46000,-33100,-
4. Drobný hmotný a nehmotný majetek14300,-78700,-
5. Služby73600,-39900,-
6. Cestovní náhrady29708,-16800,-
7. Doplňkové (režijní) náklady max. do výše 10% poskytnuté podpory31000,-31000,-
8. Konference pořádané VŠB-TUO k prezentaci výsledků studentského grantu (max. do výše 10% poskytnuté podpory)0,-0,-
9. Pořízení investic0,-0,-
Plánované náklady310000,-
Uznané náklady310000,-
Celkem běžné finanční prostředky310000,-310000,-