Anotácia: Študent získa základné poznatky z oblasti spracovania veľkých dát, metód, prístupov a technológií, ktoré sa v tejto oblasti využívajú. Študent nadobudne znalosti o distribuovaných, NoSQL a in-memory databázových systémoch, metódach a technológiách paralelného a distribuovaného počítania. Študent získa základné zručnosti pre návrh a implementáciu aplikácií pre spracovanie veľkých dát.
| Týždeň | Popis | Odkazy/poznámky | |
|---|---|---|---|
| 1. | Úvod do problematiky spracovania veľkých dát | stiahnuť PDF | |
| 2. | Paralelné výpočty CPU, GPU | stiahnuť PDF | |
| 3. | Distribuované databázy a súborové systémy I | stiahnuť PDF | |
| 4. | Distribuované databázy a súborové systémy II |  stiahnuť PDF |  
            
            |
| 5. | Architektúry systémov pre spracovanie veľkých dát I |  stiahnuť PDF |  
            
            |
| 6. | Architektúry systémov pre spracovanie veľkých dát II | stiahnuť PDF | |
| 7. | Technológie spracovania veľkých dát I | stiahnuť PDF | |
| 8. | Technológie spracovania veľkých dát II | stiahnuť PDF | |
| 9. | Technológie spracovania veľkých dát III | stiahnuť PDF | |
| 10. | Distribuované strojové učenie I | stiahnuť PDF | |
| 11. | Distribuované strojové učenie II | ||
| 12. | Prípadové štúdie | ||
| 13. | Prípadové štúdie | 
| Týždeň | Popis | Odkazy/poznámky | 
|---|---|---|
| 1. | Úvodné cvičenie | |
| 2. | Úvod do programovacieho jazyka Python I | |
| 3. | Úvod do programovacieho jazyka Python II | |
| 4. | ----- Konzultácie zadaní ----- | |
| 5. | Práca s dokumentovou databázou MongoDB | |
| 6. | Test 1 (10 bodov) | |
| 7. | Spracovanie dát v prostredí Apache Spark I | |
| 8. | Spracovanie dát v prostredí Apache Spark II | |
| 9. | Učenie modelov pomocou knižnice MLlib | |
| 10. | Učenie modelov pomocou knižnice MLlib II | |
| 11. | Spracovanie prúdov dát pomocou Apache Spark Streaming | |
| 12. | Konzultácie k zadaniam | |
| 13. | Test 2 (10 bodov) + odovzdávanie zadaní | 
Zadanie je skupinové (v skupine môžu byť max. 3 študenti) za 20 bodov.
V rámci zadania budete pracovať s dátami, ktoré popisujú záznamy popisujúce dopravné nehody vo Veľkej Británii z obdobia od roku 2005 do 2014. Dáta sú rozdelené do troch súborov:
Dataset nájdete na Datalabe, v adresári datalab/TSVD/dataset/CarAccidents/
Dáta sú v CSV súboroch. Atribút "Accident_Index" môže byť použitý ako jednoznačný identifikátor nehody, ktorý je možné použiť pre prepojenie informácií o vozidlách, ktoré sa zúčastnili nehody, informácií o samotnej nehode a obetiach. Údaje obsahujúce “-1” sú pre chýbajúce hodnoty, resp. hodnoty mimo rozsah. Hodnoty jednotlivých atribútov sú zakódované, významy jednotlivých hodnôt atribútov nájdete v súbore atributy.xls.
Všetky kroky zadania musia byť naprogramované v prostredí Apache Spark v jazyku Python.
Integrácia dát (3b)
Predspracovanie (7b)
Modelovanie - Vytvorenie popisných modelov (3b):
Modelovanie - Vytvorenie klasifikačných modelov typu (aspoň jeden model každého typu)(4b):
Vyhodnotenie (3b)
Zadanie je potrebné odovzdať do konca 13. týždňa semestra cez MS Teams.