manuel-lang/Autonomous-Semantic-Search-Engine

ToDos

Closed this issue · 0 comments

Crawler:

  • .kit.edu durchsuchen
  • mehrere interessante Startseiten
  • pdf, doc/docx, ppt, xls ...
  • login im intranet?

Dokumentenanalyse:

  • Text/Bilder rausziehen
  • Entity recognition:
    • Personen
    • Orten
    • Datum
  • Tags bestimmen
  • Klassifikation von Dokumenttyp
  • Titel erzeugen
  • Kurzzusammenfassung
  • Semantische Repräsentation

Backend:

  • Suchanfrage auswerten
  • Question answering
  • Relevanten Dokumente finden
  • Graphrepräsentation?
  • Clustering

Benutzeroberfläche:

  • Simple Sucheingabe