Data collection: Write good script getArticles.py
Closed this issue · 3 comments
XeniaRieger commented
Inspiration: https://github.com/jmacenka/python-spiegel-webscraping/blob/master/Webscraping_Spiegel.py
- Catch errors
- For all days
- Set sleep times, so we do not get blocked from spiegel (?)
- Get time when arcticle published
- Get content from hmtl to text
- How do we want to save the articles? Can we use docker? -> Just headline, so we can save locally
schokoblume commented
baue ein wann der letzte artikel war der runtergeladen wurde
schokoblume commented
!! wir nehmen nur die schlagzeilen
schokoblume commented
pro tag ein txt
pro zeile eine schlagzeile
file mit datum benannt
ordner pro jahr und pro monat