SearchEngine-Lucene

A Java project to implement a Lucene based Search Engine Author: Harshita Agrawal

Project Name: LuceneSearchEngine Package Name: lucenesearchengine

Java Class File: LuceneSearchEngine.java: Main Class : No arguments

Libraries referenced: a) lucene-analyzers-common-4.7.2.jar b) lucene-queries-4.7.2.jar c) lucene-core-4.7.2.jar d) lucene-queryparser-4.7.2.jar e) jsoup-1.8.3.jar

=============================================================================================== CONFIGURTION INSTRUCTIONS:

Environment used to build the project: JDK 1.8 , JAVA v.8 Pre-requisite: Java Development Environment

=============================================================================================== HOW TO RUN THE COMPILED JAR :

To run the Jar file:
	java -jar /path/to/the/jar/lucenesearchengine.jar

================================================================================================ ATTACHMENTS:

The working project with source code.
1 jar file lucenesearchengine.jar
A sorted (by frequency) list of (term, term_freq pairs) in the file: sorted_(by frequency)list_of(term-term_freq pairs).xls
A plot of the resulting Zipfian curve in the file: ZipfsPlot.pdf
Four lists (one per query) each containing at MOST 100 docIDs ranked by score in the files: Query1_100_docIDs_ranked_by_score.xls Query2_100_docIDs_ranked_by_score.xls Query3_100_docIDs_ranked_by_score.xls Query4_100_docIDs_ranked_by_score.xls
A table comparing the total number of documents retrieved per query using Lucene’s scoring function vs. using your search engine (index with BM25) : Total_Documents_Comparison_Lucene&BM25.xls

================================================================================================

================================================================================================ HOW DOES THE PROGRAM WORK?