XeniaRieger/Modern-Search-Engines

Questions for tutorial 1

Closed this issue 4 months ago · 0 comments

XeniaRieger commented 4 months ago

Can we use Beautiful Soup to extract links?/ Can we use language detection package?
ja, kein Problem. Teilprobleme zu lösen mit packages ist immer in Ordnung.
How big is our initial frontier allowed to be?

komplett frei. nicht zu viel, da mehr Arbeit für uns. Mehr divers -> Uni, Tripadvisor, Freizeit,...
etwa 10 Links reichen
englisch sprachige Seite reichen im Frontier
Muss nicht auf vollständigkeit gecrawlet werden, eher Diversität! Am Ende etwa 50.000 Seiten (~2-3 Gb an Daten)

What are the rules for inital frontier, i.e. google results?
erlaubt...
Welche Infors ins Frontier

schon besucht/wann
Priorität (Tübingen schon 1x nicht erwähnt... nicht "zu weit" gehen)
index
url

Generell Ideen für Priority:

Tübingen enthalten, oder nicht?
Englisch oder nicht?
Diversität der Website!!! Nicht nur Wikipedia crawlen, kommt man sonst nicht mehr raus. Stattdessen ein Maß für Diversität bei den gecrawlten Websites entwickeln

Nur Relevante URLS ins Frontier?

Frontier: Wollen wir noch besuchen
Datenbank: relevante und besuchte Artikel geindext
Daten in verschiedene Tabellen aufteilen um schneller zu sein
L- ieber weniger aber diverser crawlen, da dann auch unsere Querrys schneller werden

Vorsicht beim Crawlen:
nicht das ganze Internet auch noch auf Handyversion crawlen

pattern matching robots.txt mittel bs4