Questions for tutorial 1
Closed this issue · 0 comments
XeniaRieger commented
-
Can we use Beautiful Soup to extract links?/ Can we use language detection package?
ja, kein Problem. Teilprobleme zu lösen mit packages ist immer in Ordnung. -
How big is our initial frontier allowed to be?
- komplett frei. nicht zu viel, da mehr Arbeit für uns. Mehr divers -> Uni, Tripadvisor, Freizeit,...
- etwa 10 Links reichen
- englisch sprachige Seite reichen im Frontier
Muss nicht auf vollständigkeit gecrawlet werden, eher Diversität! Am Ende etwa 50.000 Seiten (~2-3 Gb an Daten)
-
What are the rules for inital frontier, i.e. google results?
erlaubt... -
Welche Infors ins Frontier
- schon besucht/wann
- Priorität (Tübingen schon 1x nicht erwähnt... nicht "zu weit" gehen)
- index
- url
- Generell Ideen für Priority:
- Tübingen enthalten, oder nicht?
- Englisch oder nicht?
- Diversität der Website!!! Nicht nur Wikipedia crawlen, kommt man sonst nicht mehr raus. Stattdessen ein Maß für Diversität bei den gecrawlten Websites entwickeln
- Nur Relevante URLS ins Frontier?
- Frontier: Wollen wir noch besuchen
- Datenbank: relevante und besuchte Artikel geindext
- Daten in verschiedene Tabellen aufteilen um schneller zu sein
L- ieber weniger aber diverser crawlen, da dann auch unsere Querrys schneller werden
- Vorsicht beim Crawlen:
nicht das ganze Internet auch noch auf Handyversion crawlen
- pattern matching robots.txt mittel bs4