XeniaRieger/Modern-Search-Engines

Questions for tutorial 1

Closed this issue · 0 comments

  1. Can we use Beautiful Soup to extract links?/ Can we use language detection package?
    ja, kein Problem. Teilprobleme zu lösen mit packages ist immer in Ordnung.

  2. How big is our initial frontier allowed to be?

  • komplett frei. nicht zu viel, da mehr Arbeit für uns. Mehr divers -> Uni, Tripadvisor, Freizeit,...
  • etwa 10 Links reichen
  • englisch sprachige Seite reichen im Frontier
    Muss nicht auf vollständigkeit gecrawlet werden, eher Diversität! Am Ende etwa 50.000 Seiten (~2-3 Gb an Daten)
  1. What are the rules for inital frontier, i.e. google results?
    erlaubt...

  2. Welche Infors ins Frontier

  • schon besucht/wann
  • Priorität (Tübingen schon 1x nicht erwähnt... nicht "zu weit" gehen)
  • index
  • url
  1. Generell Ideen für Priority:
  • Tübingen enthalten, oder nicht?
  • Englisch oder nicht?
  • Diversität der Website!!! Nicht nur Wikipedia crawlen, kommt man sonst nicht mehr raus. Stattdessen ein Maß für Diversität bei den gecrawlten Websites entwickeln
  1. Nur Relevante URLS ins Frontier?
  • Frontier: Wollen wir noch besuchen
  • Datenbank: relevante und besuchte Artikel geindext
  • Daten in verschiedene Tabellen aufteilen um schneller zu sein
    L- ieber weniger aber diverser crawlen, da dann auch unsere Querrys schneller werden
  1. Vorsicht beim Crawlen:
    nicht das ganze Internet auch noch auf Handyversion crawlen
  • pattern matching robots.txt mittel bs4