情報検索入門

京都大学情報学研究科田中研究室において行われた、平成23年度のプログラミング輪講 の内容をドキュメント化していくもの。

コンテンツ

  1. イントロダクション
  • 情報検索の歴史
  1. Python入門
  2. データの永続化
  • ファイル
  • データベース
  • オブジェクトのシリアライズ・デシリアライズ
  1. 自然言語処理
  • 正規表現
  1. HTTPとHTML
  • HTTP通信
  • HTML解析
  1. 並列プログラミング
  • マルチプロセスプログラミング
  • マルチスレッドプログラミング
  1. リンク解析
  • PageRank
  • HITS
  1. 文書の索引
  • 転置インデックス
  • suffix-array
  1. 機械学習
  • サポートベクトルマシン
  • ニューラルネットワーク
  1. 文書のクラスタリング
  • 各種クラスタリング手法
  1. 検索結果の評価
  • 適合率・再現率・f値
  • nDCG