/Obrada-podataka

Diplomski kolegij 'Obrada podataka'u zimskom semestru akademske godine 2019/20 na Fakultetu hrvatskih studija u Zagrebu.

Primary LanguageHTML

Obrada podataka

OpenSource kolegij na diplomskoj razini 'Obrada podataka'u zimskom semestru akademske godine 2019/20 na Fakultetu hrvatskih studija u Zagrebu koji izvodi Luka Sikic,PhD. Kolegij je prvenstveno namijenjen sociolozima ali i prilagođen za studente iz drugih društvenih zananosti poput politologije, komunikologije, povijesti i ekonomije.

Kolegij polazi od Big Data pristupa društvenim znanostima i modernih izvora podatka puput Web-a, aplikacija, društvenih mreža, urbanih senzora i dr. Metodološki fokus je na computational social science (CSS) principima i korištenju računalnih tehnologija za obradu i analizu (velikog volumena) podataka. Kolegij nije zamišljen kao sveobuhvatna referenca za rad s Big Data tehnologijama u društvenim znanostima jer materijali ne pokrivaju: rad sa terminalom (Bash Shell), rad sa platformama za suradnju i razmjenu koda (Git, GitHub), rad sa Docker-om, programiranje i iteraciju, paralelno programiranje, rad u oblaku (Cloud).

Cilj kolegija je upoznavanje sa:

  1. Ekosustavom modernog upravljanja podatcima (Big Data)
  2. Alatima za obradu i manipulaciju podataka (paketi u programskom jeziku R, SQL, Spark )
  3. Modernom metodologijom za analizu podataka (regresija, strojno učenje, obrada teksta - NLP)
  4. Alatima za prezentaciju i dijeljenje rezulata (Markdown, Git)
  5. Programskim jezikom R

Kolegij će osposobiti studente za razumijevanje modernih izvora i alata za obradu podataka, te omogućiti uključivanje u modernu istraživačku paradigmu i tehnološke (frontier) tokove. Osim naglaska na akdemsku primjenu stečenog znanja, kroz kolegij će se studentima olakšati uključivanje u poslovni IT sektor na strani analitike i projektnog menadžmenta.

Raspored

Predavanja     Četvrtkom, 16:00–17:30
Konzultacije   Četvrtkom, 17:30-18:30

Knjige

Koristiti ćemo mnoštvo različitih knjiga i resursa koje će biti dostupne na linkovima kod svakog predavanja. Sljedeća knjiga ulazi u nezaobilaznu literaturu za kolegij:

R for Data Science
od Garrett Grolemund-a i Hadley Wickham-a
Ovo je literatura za R. Dostupna je i bookdown verzija.

Materijali sa predavanja



Predavanje 01: Pregled kolegija i studentskih obveza

Predavanje 02: Vrste podataka

Format predavanja: .html | .Rmd
Čitanje: Vrste podataka-poglavlje u knjizi + Sociology in the Era of Big Data + Veliki podatci-veliki izazov za sociologiju + Uloga big data, algoritama i prediktivne analitike u konstrukciji zbilje

Predavanje 03: Izvori podataka
  • Kategorije izvora podatka
  • Klasični izvori podataka
  • Moderni izvori podataka (BigData)
  • Web
  • Društvene mreže
  • Web stranice i aplikacije
  • Društvene mreže
  • Senzori
  • Upravljanje modernim podatcima

Format predavanja: .html | .Rmd
Čitanje: Big Data ekosistem u društvenim istraživanjima

Predavanje 04: Osnove programskog jezika R + Dodatak predavanju: ggplot2
  • Instalacija
  • Zašto R?
  • Osnovni koncepti
  • Objektno orjentirano programiranje u R
  • "Sve je objekt"
  • "Sve ima naziv"
  • Indeksiranje
  • Čišćenje radnog prostora

Format predavanja: .html | .Rmd + .html (ggplot2) | .Rmd (ggplot2)
Čitanje: Uvod u R - skripta I + Uvod u R - skripta II + LSR, poglavlja 3 i 4

Predavanje 05: Manipulacija i prilagodba podataka + Dodatak predavanju: data.table
  • Set-up
  • tidyverse osnove
  • Manipulacija podatcima - dplyr
  • Manipulacija podatcima - tidyr
  • + Dodatak predavanju: data.table

Format predavanja: .html | .Rmd + .html (data.table) | .Rmd (data.table)
Čitanje: Tidy Data članak od Hadley Wickham-a

Predavanje 06: Prikupljanje podataka sa interneta - Web Scraping I + Web Scraping II
  • Softverski set-up
  • Webscraping osnove
  • WS na strani servera - rvest
  • Praktični primjeri - Wikipedia
  • Dodatni savjeti za WS na strani servera
  • WS na strani klijenta
  • API
  • Praktični primjeri (I,II ,III)

Format predavanja: .html (WebScrap I) | .Rmd (WebScrap I) + .html (WebScrap II) | .Rmd ((WebScrap II)
Čitanje: Pokušajte "scrapati" nešto sa Web-a!

Predavanje 07: Rad sa bazama podataka
  • Baze podatka
  • Baze podataka i *tidyverse*
  • Baze podataka i SQL
  • Praktični primjer - SQLite
  • Praktični primjer - Google BigQuery
  • Resursi za učenje

Format predavanja: .html | .Rmd
Čitanje: Knjiga Become A Select Star od Julia-e Evans.

Predavanje 08: Statistička analiza
  • Regresijski model
  • Rezidualna struktura
  • Dummie varijable
  • Analiza panel podataka
  • Instrumentalne varijable
  • Marginalni efekti
  • Prezentacija rezultata
  • Dodatni resursi

Format predavanja: .html | .Rmd
Čitanje: Izbor po želji iz dodatnih resursa.

Predavanje 09: Uvod u strojno učenje
  • Što je strojno učenje
  • Klasifikacija
  • Regresija
  • Klastering
  • Nadgledane i ne-nadgledane metode
  • Trening i test uzorci
  • Pristranost vs varijanca
  • Interpretabilnost modela

Format predavanja: .html | .Rmd
Čitanje: Izbor po želji iz dodatnih resursa.

Predavanje 10: Analiza teksta
  • Što je analiza teksta
  • Primjeri analize teksta
  • Uvoz i priprema teksta (preprocesing korpusa)
  • Format teksta za analizu (TidyText vs DTM)
  • Deskriptivna analiza teksta (frekvencije riječi)
  • Analiza sentimenta
  • Analiza važnosti pojmova
  • Tematska analiza

Format predavanja: .html | .Rmd
Čitanje: Vodič za analizu teksta u R

Predavanje 11: Prezentacija, objava i djeljenje rezultata
  • Reproducible research i Markdown
  • Markdown sintaksa
  • R Markdown sintaksa i funkcionalnosti

Format predavanja: .html | .Rmd
Čitanje: Članak o Reproducible Analysis

Polaganje ispita i kolokvija

Studentima se preporuča i omogućuje da polože kolegij kroz prezentaciju i dva kolokvija. Sustav bodovanja za studente koji polažu kolegij preko kolokvija: moguće je skupiti 100 bodova, pri tome je na prezentaciji moguće ostvariti do 10 bodova, a na svakom kolokviju do 40 bodova. Pri tome je sustav bodovanja jednak kao kod ispita(vidi niže!).

U zimskom , ljetnom i jesenskom ispitnom roku studenti imaju završni pismeni ispit iz tema obrađenih na predavanjima i prema priloženoj literaturi. Ispit je položen ako student ostvari 60% od ukupno mogućih bodova: 60-64% = (2); 65-74% = (3); 75-84% = (4); 85% = (5).

Studentska prezentacija/seminarski rad

Svi studenti tijekom semestra moraju održati jednu prezentaciju prema zadanoj literaturi u .ppt formi. Izlagači moraju pripremiti na kraju prezentacije i nekoliko (2-3) ključnih pitanja za raspravu koju imamo na kraju obrađene teme. Prezentaciju je potrebno poslati profesoru na e-mail najkasnije u petak, tjedan dana prije seminara.

Seminari osim prezentacije uključuju: povezivanje teorijskih koncepata s praktičnom primjenom, zajednička empirijska analiza, rasprava o društvenim aspektima statističkih rezultata, aktivno sudjelovanje u raspravi na zadanu temu.

Korisni resursi

Beletristika

R

Ostalo