/QTA

Forráskódok a Kvantitatív szövegelemzés és szövegbányászat a politikatudományban c. tankönyvhöz

Primary LanguageJupyter Notebook

Build Status

QTA anyagok

Jelen Git repository a Kvantitatív szövegelemzés és szövegbányászat a politikatudományban c. tankönyv (http://qta.tk.mta.hu/) anyagához kapcsolódó, illetve azokat kiegészítő forráskódokat tartalmazza.

Mit tartalmaz?

A repository a könyv főbb témaköreihez kapcsolódó, R és Python programozási nyelven írt forráskódokat tartalmaz, melyek vegyítik a szöveges információ (akár internetről) történő összegyűjtésének és tisztításának gyakorlatias eljárását és magának a kvantitatív szövegelemzés végrehajtásának menetét. A forráskódok egytől-egyik alapos kommentárokkal vannak ellátva, melyek átláthatóvá és követhetővé teszik az elvégzett műveleteket. A következők elérhetőek:

  • clustering - Angol nyelvű Wikipedia cikkek automatizált összegyűjtése, a szövegek megtisztítása, továbbá hierarchikus klaszterezés elvégzése (R)
  • named_entity_recognition - Rand Paul amerikai szenátor közel 11 órás filibusterének szövegén névelem-felismerés elvégzése (R)
  • sentiment_analysis - Négy fő amerikai újság online cikkeinek szövegén elvégzett érzelemdetekció (R)
  • supervised_learning - A tankönyv Felügyelt tanulási módszerek c. fejezetéhez tartozó, törvényjavaslatok címei alapján közpolitikai kódokat becslő eljárás végrehajtása (R)
  • unsupervised_learning - A tankönyv Felügyelet nélküli tanulási módszerek c. fejezetéhez tartozó forráskód, mely a Napimigráns.hu szélsőségesen migránsellenes weboldal cikkein azonosít témákat (Python)

Finanszírozás

A könyv megjelenését a Nemzeti Kulturális Alap a 3437/02240. témaszámon 400.000 forinttal támogatta, melyért köszönettel tartozunk.

alt tag