QTA anyagok

Jelen Git repository a Kvantitatív szövegelemzés és szövegbányászat a politikatudományban c. tankönyv (http://qta.tk.mta.hu/) anyagához kapcsolódó, illetve azokat kiegészítő forráskódokat tartalmazza.

Mit tartalmaz?

A repository a könyv főbb témaköreihez kapcsolódó, R és Python programozási nyelven írt forráskódokat tartalmaz, melyek vegyítik a szöveges információ (akár internetről) történő összegyűjtésének és tisztításának gyakorlatias eljárását és magának a kvantitatív szövegelemzés végrehajtásának menetét. A forráskódok egytől-egyik alapos kommentárokkal vannak ellátva, melyek átláthatóvá és követhetővé teszik az elvégzett műveleteket. A következők elérhetőek:

clustering - Angol nyelvű Wikipedia cikkek automatizált összegyűjtése, a szövegek megtisztítása, továbbá hierarchikus klaszterezés elvégzése (R)
named_entity_recognition - Rand Paul amerikai szenátor közel 11 órás filibusterének szövegén névelem-felismerés elvégzése (R)
sentiment_analysis - Négy fő amerikai újság online cikkeinek szövegén elvégzett érzelemdetekció (R)
supervised_learning - A tankönyv Felügyelt tanulási módszerek c. fejezetéhez tartozó, törvényjavaslatok címei alapján közpolitikai kódokat becslő eljárás végrehajtása (R)
unsupervised_learning - A tankönyv Felügyelet nélküli tanulási módszerek c. fejezetéhez tartozó forráskód, mely a Napimigráns.hu szélsőségesen migránsellenes weboldal cikkein azonosít témákat (Python)

Finanszírozás

A könyv megjelenését a Nemzeti Kulturális Alap a 3437/02240. témaszámon 400.000 forinttal támogatta, melyért köszönettel tartozunk.

kubikb/QTA

QTA anyagok

Mit tartalmaz?

Finanszírozás