U ovom repozitoriju se nalaze rješenja laboratorijskih vježbi iz predmeta Analiza velikih skupova podataka održanog 2021. godine.
U laboratorijskoj vježbi je potrebno uz pomoć Simhash algoritma vršiti identifikaciju sličnih tekstova. Identifikaciju sličnih tekstova treba provesti slijednim pretraživanjem sažetaka svih tekstova te uporabom tehnike sažimanja osjetljivog na bliskost (eng. Locality Sensitive Hashing, LSH ).
- slijedno pretraživanje - 4/4
- LSH - 2/2
U laboratorijskoj vježbi zadatak je ostvariti algoritam za pronalažanje čestih skupova predmeta PCY (Park-Chen-Yu). Na laboratorijskoj vježbi skup podataka se sastoji od odjeljaka (košara), a svaki odjeljak se sastoji od više predmeta. Potrebno je pronaći podskupove predmeta koji se pojavljuju u najvećem broj košara.
- PCY (Park-Chen-Yu) - 2/2
U laboratorijskoj vježbi zadatak je ostvariti algoritam za preporučivanje zasnovan na tehnici suradničkog filtriranja. Implementirana su oba osnovna principa suradničkog sortiranja, item-item pristup te user-user pristup.
- Suradničko filtriranje - 3/3
Četvrta laboratorijska vježba bavi se tematikom algoritama za obradu velikih grafova. U prvom zadatku (zadatak A) potrebno je za ulazni usmjereni graf izračunati rang (eng. Node rank) svakog čvora u grafu. U drugom zadatku (zadatak B) potrebno za svaki čvor u neusmjerenom grafu izračunati određeno svojstvo.
- NodeRank - 4/4
- ClosestBlackNode - 4/4
U petoj laboratorijskoj vježbi zadatak je programski ostvariti Girvan-Newmanov algoritam za particioniranje grafa te ga primijeniti na problem detekcije zajednica u društvenim mrežama.
- GNA - 8/9 (note: BFS bug probably)
Zadatak 6. laboratorijske vježbe je programsko ostvarenje algoritma procjene broja jedinica u zadanom toku bitova koristeći pristup Datar-Gionis-Indyk-Motwani (DGIM).
- GNA - ?/? (100%)