msesmart/InformationRetrieval

Real Yelp review data, cosine similarity ranking of query review in Vector Space, TF-IDF model. Unigram, Bigram Language model with linear interpolation smoothing, absolute discounting smoothing, Dirichlet smoothing. Perplexity analysis. Evaluations of six language models, including boolean, TF-IDF, Okapi BM25, Pivoted Length Normalization, Jelinek-Mercer smoothing, Dirichlet Prior Smoothing. The evaluation methods include Mean Average Precision, P@K, Reciprocal rank, Normalized Discount Cumulative Gain (NDCG).

Java

No issues in this repository yet.