Anotácia: Študent získa základné poznatky z oblasti spracovania veľkých dát, metód, prístupov a technológií, ktoré sa v tejto oblasti využívajú. Študent nadobudne znalosti o distribuovaných, NoSQL a in-memory databázových systémoch, metódach a technológiách paralelného a distribuovaného počítania. Študent získa základné zručnosti pre návrh a implementáciu aplikácií pre spracovanie veľkých dát.
Týždeň | Popis | Odkazy/poznámky | |
---|---|---|---|
1. | Úvod do problematiky spracovania veľkých dát | stiahnuť PDF | |
2. | Paralelné výpočty CPU, GPU | stiahnuť PDF | |
3. | Distribuované databázy a súborové systémy I | stiahnuť PDF | |
4. | Distribuované databázy a súborové systémy II | stiahnuť PDF |
|
5. | Architektúry systémov pre spracovanie veľkých dát I | stiahnuť PDF |
|
6. | Architektúry systémov pre spracovanie veľkých dát II | stiahnuť PDF | |
7. | Technológie spracovania veľkých dát I | stiahnuť PDF | |
8. | Technológie spracovania veľkých dát II | stiahnuť PDF | |
9. | Technológie spracovania veľkých dát III | stiahnuť PDF | |
10. | Distribuované strojové učenie I | stiahnuť PDF | |
11. | Distribuované strojové učenie II | ||
12. | Prípadové štúdie | ||
13. | Prípadové štúdie |
Týždeň | Popis | Odkazy/poznámky |
---|---|---|
1. | Úvodné cvičenie | |
2. | Úvod do programovacieho jazyka Python I | |
3. | Úvod do programovacieho jazyka Python II | |
4. | ----- Konzultácie zadaní ----- | |
5. | Práca s dokumentovou databázou MongoDB | |
6. | Test 1 (10 bodov) | |
7. | Spracovanie dát v prostredí Apache Spark I | |
8. | Spracovanie dát v prostredí Apache Spark II | |
9. | Učenie modelov pomocou knižnice MLlib | |
10. | Učenie modelov pomocou knižnice MLlib II | |
11. | Spracovanie prúdov dát pomocou Apache Spark Streaming | |
12. | Konzultácie k zadaniam | |
13. | Test 2 (10 bodov) + odovzdávanie zadaní |
Zadanie je skupinové (v skupine môžu byť max. 3 študenti) za 20 bodov.
V rámci zadania budete pracovať s dátami, ktoré popisujú záznamy popisujúce dopravné nehody vo Veľkej Británii z obdobia od roku 2005 do 2014. Dáta sú rozdelené do troch súborov:
Dataset nájdete na Datalabe, v adresári datalab/TSVD/dataset/CarAccidents/
Dáta sú v CSV súboroch. Atribút "Accident_Index" môže byť použitý ako jednoznačný identifikátor nehody, ktorý je možné použiť pre prepojenie informácií o vozidlách, ktoré sa zúčastnili nehody, informácií o samotnej nehode a obetiach. Údaje obsahujúce “-1” sú pre chýbajúce hodnoty, resp. hodnoty mimo rozsah. Hodnoty jednotlivých atribútov sú zakódované, významy jednotlivých hodnôt atribútov nájdete v súbore atributy.xls.
Všetky kroky zadania musia byť naprogramované v prostredí Apache Spark v jazyku Python.
Integrácia dát (3b)
Predspracovanie (7b)
Modelovanie - Vytvorenie popisných modelov (3b):
Modelovanie - Vytvorenie klasifikačných modelov typu (aspoň jeden model každého typu)(4b):
Vyhodnotenie (3b)
Zadanie je potrebné odovzdať do konca 13. týždňa semestra cez MS Teams.