OpenSource kolegij na diplomskoj razini 'Obrada podataka'u zimskom semestru akademske godine 2019/20 na Fakultetu hrvatskih studija u Zagrebu koji izvodi Luka Sikic,PhD. Kolegij je prvenstveno namijenjen sociolozima ali i prilagođen za studente iz drugih društvenih zananosti poput politologije, komunikologije, povijesti i ekonomije.
Kolegij polazi od Big Data pristupa društvenim znanostima i modernih izvora podatka puput Web-a, aplikacija, društvenih mreža, urbanih senzora i dr. Metodološki fokus je na computational social science (CSS) principima i korištenju računalnih tehnologija za obradu i analizu (velikog volumena) podataka. Kolegij nije zamišljen kao sveobuhvatna referenca za rad s Big Data tehnologijama u društvenim znanostima jer materijali ne pokrivaju: rad sa terminalom (Bash Shell), rad sa platformama za suradnju i razmjenu koda (Git, GitHub), rad sa Docker-om, programiranje i iteraciju, paralelno programiranje, rad u oblaku (Cloud).
Cilj kolegija je upoznavanje sa:
- Ekosustavom modernog upravljanja podatcima (Big Data)
- Alatima za obradu i manipulaciju podataka (paketi u programskom jeziku R, SQL, Spark )
- Modernom metodologijom za analizu podataka (regresija, strojno učenje, obrada teksta - NLP)
- Alatima za prezentaciju i dijeljenje rezulata (Markdown, Git)
- Programskim jezikom R
Kolegij će osposobiti studente za razumijevanje modernih izvora i alata za obradu podataka, te omogućiti uključivanje u modernu istraživačku paradigmu i tehnološke (frontier) tokove. Osim naglaska na akdemsku primjenu stečenog znanja, kroz kolegij će se studentima olakšati uključivanje u poslovni IT sektor na strani analitike i projektnog menadžmenta.
Predavanja Četvrtkom, 16:00–17:30
Konzultacije Četvrtkom, 17:30-18:30
Koristiti ćemo mnoštvo različitih knjiga i resursa koje će biti dostupne na linkovima kod svakog predavanja. Sljedeća knjiga ulazi u nezaobilaznu literaturu za kolegij:
R for Data Science
od Garrett Grolemund-a i Hadley Wickham-a
Ovo je literatura za R. Dostupna je i bookdown verzija.
Predavanje 01: Pregled kolegija i studentskih obveza
- Strukturirani i ne-strukturirani podatci
- Kvantitativni i kvalitativni
- Diskretni i kontinuirani podatci
- Razine podataka
- Podatci u "praksi"
- "Big data" u društvenim i humanističkim znanostim
Format predavanja: .html | .Rmd
Čitanje: Vrste podataka-poglavlje u knjizi + Sociology in the Era of Big Data + Veliki podatci-veliki izazov za sociologiju + Uloga big data, algoritama i prediktivne analitike u konstrukciji zbilje
- Kategorije izvora podatka
- Klasični izvori podataka
- Moderni izvori podataka (BigData)
- Web
- Društvene mreže
- Web stranice i aplikacije
- Društvene mreže
- Senzori
- Upravljanje modernim podatcima
Format predavanja: .html | .Rmd
Čitanje: Big Data ekosistem u društvenim istraživanjima
- Instalacija
- Zašto R?
- Osnovni koncepti
- Objektno orjentirano programiranje u R
- "Sve je objekt"
- "Sve ima naziv"
- Indeksiranje
- Čišćenje radnog prostora
Format predavanja: .html | .Rmd + .html (ggplot2) | .Rmd (ggplot2)
Čitanje: Uvod u R - skripta I + Uvod u R - skripta II + LSR, poglavlja 3 i 4
- Set-up
- tidyverse osnove
- Manipulacija podatcima - dplyr
- Manipulacija podatcima - tidyr
- + Dodatak predavanju: data.table
Format predavanja: .html | .Rmd + .html (data.table) | .Rmd (data.table)
Čitanje: Tidy Data članak od Hadley Wickham-a
- Softverski set-up
- Webscraping osnove
- WS na strani servera - rvest
- Praktični primjeri - Wikipedia
- Dodatni savjeti za WS na strani servera
- WS na strani klijenta
- API
- Praktični primjeri (I,II ,III)
Format predavanja: .html (WebScrap I) | .Rmd (WebScrap I) + .html (WebScrap II) | .Rmd ((WebScrap II)
Čitanje: Pokušajte "scrapati" nešto sa Web-a!
- Baze podatka
- Baze podataka i *tidyverse*
- Baze podataka i SQL
- Praktični primjer - SQLite
- Praktični primjer - Google BigQuery
- Resursi za učenje
Format predavanja: .html | .Rmd
Čitanje: Knjiga Become A Select Star od Julia-e Evans.
- Regresijski model
- Rezidualna struktura
- Dummie varijable
- Analiza panel podataka
- Instrumentalne varijable
- Marginalni efekti
- Prezentacija rezultata
- Dodatni resursi
Format predavanja: .html | .Rmd
Čitanje: Izbor po želji iz dodatnih resursa.
- Što je strojno učenje
- Klasifikacija
- Regresija
- Klastering
- Nadgledane i ne-nadgledane metode
- Trening i test uzorci
- Pristranost vs varijanca
- Interpretabilnost modela
Format predavanja: .html | .Rmd
Čitanje: Izbor po želji iz dodatnih resursa.
- Što je analiza teksta
- Primjeri analize teksta
- Uvoz i priprema teksta (preprocesing korpusa)
- Format teksta za analizu (TidyText vs DTM)
- Deskriptivna analiza teksta (frekvencije riječi)
- Analiza sentimenta
- Analiza važnosti pojmova
- Tematska analiza
Format predavanja: .html | .Rmd
Čitanje: Vodič za analizu teksta u R
- Reproducible research i Markdown
- Markdown sintaksa
- R Markdown sintaksa i funkcionalnosti
Format predavanja: .html | .Rmd
Čitanje: Članak o Reproducible Analysis
Studentima se preporuča i omogućuje da polože kolegij kroz prezentaciju i dva kolokvija. Sustav bodovanja za studente koji polažu kolegij preko kolokvija: moguće je skupiti 100 bodova, pri tome je na prezentaciji moguće ostvariti do 10 bodova, a na svakom kolokviju do 40 bodova. Pri tome je sustav bodovanja jednak kao kod ispita(vidi niže!).
U zimskom , ljetnom i jesenskom ispitnom roku studenti imaju završni pismeni ispit iz tema obrađenih na predavanjima i prema priloženoj literaturi. Ispit je položen ako student ostvari 60% od ukupno mogućih bodova: 60-64% = (2); 65-74% = (3); 75-84% = (4); 85% = (5).
Svi studenti tijekom semestra moraju održati jednu prezentaciju prema zadanoj literaturi u .ppt formi. Izlagači moraju pripremiti na kraju prezentacije i nekoliko (2-3) ključnih pitanja za raspravu koju imamo na kraju obrađene teme. Prezentaciju je potrebno poslati profesoru na e-mail najkasnije u petak, tjedan dana prije seminara.
Seminari osim prezentacije uključuju: povezivanje teorijskih koncepata s praktičnom primjenom, zajednička empirijska analiza, rasprava o društvenim aspektima statističkih rezultata, aktivno sudjelovanje u raspravi na zadanu temu.