schokoblume/Data-Literacy

Data collection: Write good script getArticles.py

Closed this issue · 3 comments

Inspiration: https://github.com/jmacenka/python-spiegel-webscraping/blob/master/Webscraping_Spiegel.py

  • Catch errors
  • For all days
  • Set sleep times, so we do not get blocked from spiegel (?)
  • Get time when arcticle published
  • Get content from hmtl to text
  • How do we want to save the articles? Can we use docker? -> Just headline, so we can save locally

baue ein wann der letzte artikel war der runtergeladen wurde

!! wir nehmen nur die schlagzeilen

pro tag ein txt
pro zeile eine schlagzeile

file mit datum benannt

ordner pro jahr und pro monat