Všeobecné informácie

Anotácia: Študent získa základné poznatky z oblasti spracovania veľkých dát, metód, prístupov a technológií, ktoré sa v tejto oblasti využívajú. Študent nadobudne znalosti o distribuovaných, NoSQL a in-memory databázových systémoch, metódach a technológiách paralelného a distribuovaného počítania. Študent získa základné zručnosti pre návrh a implementáciu aplikácií pre spracovanie veľkých dát.

Podmienky zápočtu:

Prednášky

TýždeňPopisOdkazy/poznámky
1.Úvod do problematiky spracovania veľkých dát stiahnuť PDF
2.Paralelné výpočty CPU, GPU stiahnuť PDF
3.Distribuované databázy a súborové systémy I stiahnuť PDF
4.Distribuované databázy a súborové systémy II stiahnuť PDF
5.Architektúry systémov pre spracovanie veľkých dát I stiahnuť PDF
6.Architektúry systémov pre spracovanie veľkých dát II stiahnuť PDF
7.Technológie spracovania veľkých dát - Apache Hadoop stiahnuť PDF
8.Technológie spracovania veľkých dát - Apache Spark stiahnuť PDF
9.Distribuované strojové učenie stiahnuť PDF
10.Dátové streamy a učenie na streamoch stiahnuť PDF
11.Nástroje pre spracovanie veľkých dát stiahnuť PDF
12.Prípadové štúdie
13.Prípadové štúdie

Cvičenia

TýždeňPopisOdkazy/poznámky
1.Úvodné cvičenie
2.Úvod do programovacieho jazyka Python I
3.Úvod do programovacieho jazyka Python II
4.----- Konzultácie zadaní -----
5.Práca s dokumentovou databázou MongoDB
6. Test 1 (10 bodov)
7.Spracovanie dát v prostredí Apache Spark I
8.Spracovanie dát v prostredí Apache Spark II
9.Učenie modelov pomocou knižnice MLlib
10. Učenie modelov pomocou knižnice MLlib II
11.Spracovanie prúdov dát pomocou Apache Spark Streaming
12.Konzultácie k zadaniam
13.Test 2 (10 bodov) + odovzdávanie zadaní

Zadanie

Zadanie je skupinové (v skupine môžu byť max. 3 študenti) za 20 bodov.

Úloha

Odovzdávanie zadaní:

Zadanie je potrebné odovzdať do konca 13. týždňa semestra cez MS Teams.

Podklady a užitočné zdroje