Všeobecné informácie

Anotácia: Študent získa základné poznatky z oblasti spracovania veľkých dát, metód, prístupov a technológií, ktoré sa v tejto oblasti využívajú. Študent nadobudne znalosti o distribuovaných, NoSQL a in-memory databázových systémoch, metódach a technológiách paralelného a distribuovaného počítania. Študent získa základné zručnosti pre návrh a implementáciu aplikácií pre spracovanie veľkých dát.

Podmienky zápočtu:

Prednášky

TýždeňPopisOdkazy/poznámky
1.Úvod do problematiky spracovania veľkých dát stiahnuť PDF
2.Paralelné výpočty CPU, GPU stiahnuť PDF
3.Distribuované databázy a súborové systémy I stiahnuť PDF
4.Distribuované databázy a súborové systémy II stiahnuť PDF
5.Architektúry systémov pre spracovanie veľkých dát I stiahnuť PDF
6.Pozvaná prednáška: Big data processing and integration (Pavol Dudrík, GolbalLogic)
7.Architektúry systémov pre spracovanie veľkých dát II stiahnuť PDF
8.Technológie spracovania veľkých dát I stiahnuť PDF
9.Technológie spracovania veľkých dát II stiahnuť PDF
10. Technológie spracovania veľkých dát III stiahnuť PDF
11. Distribuované strojové učenie I stiahnuť PDF
12.Distribuované strojové učenie II
13.Prípadové štúdie

Cvičenia

TýždeňPopisOdkazy/poznámky
1. Úvod do programovacieho jazyka Python I
2.Úvod do programovacieho jazyka Python II
3.Práca s dokumentovou databázou MongoDB
4. ----- Konzultácie zadaní -----
5.Spracovanie dát v prostredí Apache Spark I
6.Spracovanie dát v prostredí Apache Spark II
7.Test 1 (10 bodov)
8. Učenie modelov pomocou knižnice MLlib I
9. Učenie modelov pomocou knižnice MLlib II
10. Spracovanie prúdov dát pomocou Apache Spark Streaming
11.Konzultácie k zadaniam
12.Konzultácie k zadaniam
13.Test 2 (10 bodov) + odovzdávanie zadaní

Zadanie

Zadanie je skupinové (v skupine môžu byť max. 3 študenti) za 20 bodov.

Dataset

V rámci zadania budete pracovať s dátami, ktoré popisujú záznamy o meškaní letov pri odlete na letiskách v USA v roku 2019. Cieľový atribút je binárny a špecifikuje, či daný let mal pri odlete meškanie väčšie ako 15 minút alebo nie (1 ak áno). K ostatným atribútom definujúcim parametre letu je možné integrovať dáta o počasí na letiskú, ktoré boli zozbierané separátne (pokrytých je ale iba asi 90 percent letísk).

Dataset nájdete na Datalabe, v adresári datalab/TSVD/dataset/

Nájdete tam nasledujúce súbory:

 • full_data_flightdelay.csv: dátový súbor obsahujúci informácie o letoch a meškaniach. Cieľový atribút je DEP_DEL15
 • data_documentation.txt: krátky popis významu jednotlivých atribútov 
 • airport_weather_2019.csv: počasie na letiskách
 • GHCND_documentation.pdf: tu nájdete interpretáciu údajov o počasí

  Úloha

  Všetky kroky zadania musia byť naprogramované v prostredí Apache Spark v jazyku Python.

  Bodové ohodnotenie zadania:

  Integrácia dát (3b)

  • Integrácia datasetu - vhodne zakomponujte zvolené informácie o počasí.
  • Sampling – vytvorenie vzorky z datasetu (veľkosti napr. 10%) pri zachovaní rozloženia cieľového atribútu.
  • Rozdelenie datasetu na trénovaciu a testovaciu množinu (napr. v pomere 60/40).

  Predspracovanie (7b)

  • Transformácia nominálnych atribútov na numerické
  • Transformácia numerických atribútov na nominálne
  • Vypočítanie pomerového kritéria – informačného zisku voči cieľovému atribútu (klasifikačná úloha), pre nominálne atribúty
  • Vypočítanie štatistík pre numerické atribúty
  • Vytvorenie histogramov pre nominálne atribúty
  • Spracovanie chýbajúcich hodnôt (napr. ich nahradenie priemermi, atď.)

  Modelovanie - Vytvorenie popisných modelov (3b):

  • Vytvorte k-means clustering model
  • Pomocou vytvoreného modelu detekujte anomálie

  Modelovanie - Vytvorenie klasifikačných modelov typu (aspoň jeden model každého typu)(4b):

  • Decision tree model
  • Linear SVM
  • Naive Bayes model
  • Ensembles of decision trees (Random Forests, Gradient-boosted trees)

  Vyhodnotenie (3b)

  • Natrénovanie klasifikačného modelu na trénovacej množine a jeho evaluáciu na testovacej množine.
  • Klasifikačný model vyhodnocujte použitím kontigenčnej tabuľky a vypočítaním metrík presnosti, návratnosti, F1 a MCC (Matthews Correlation Coefficient).

  Odovzdávanie zadaní:

  Zadanie je potrebné odovzdať do konca 13. týždňa semestra cez MS Teams.

  Podklady a užitočné zdroje