/syngraph

Primary LanguagePerl

see doc/manual.pdf

[必要なプログラム]

- Juman/KNP (http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN, http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP)
- TinyCDB (http://www.corpit.ru/mjt/tinycdb.html)
- BerkeleyDB (http://www.oracle.com/technology/software/products/berkeley-db/index.html)
- Perl5.8以上
- Perlモジュール
 - CPANからダウンロード可能
  - CDB_File
  - BerkeleyDB
  - MLDBM

 - 黒橋研究室で開発されているもの
  - Juman.pm (juman-6.0/perl)
  - KNP.pm   (knp-3.01/perl)
  - CalcSimilarityByCF.pm (分布類似度計算モジュール) = 辞書コンパイルに必要, ユーザは不要

[SynGraph化]

see scripts/README

[ファイルリスト]

README		このファイル


dic/ : 同義表現辞書

  rsk_iwanami/ : RSK、iwanamiからの知識抽出結果

    README		抽出ルール
    synonym.txt     	同義グループデータ
    definition.txt      定義文データ
    isa.txt      	上位下位データ
    antonym.txt		反義データ

  web_news/ : WEB、新聞記事からの知識抽出結果

    README		
    nation.txt		wikipediaの国名ページがら抽出
    news.txt        	毎日新聞・読売新聞・朝日新聞中の括弧表現から抽出
    www.txt 		WWW中の括弧表現から抽出(ゴミが入ってる可能性あり)
    all.txt		上記のファイルをマージしたもの


dic_change/ : 整形後の同義表現辞書

  synonym_dic.txt      		辞書から取ってきた同義グループデータ
  definition.txt        	辞書から取ってきた定義文データ
  isa.txt      			辞書から取ってきた上位下位データ
  antonym.txt			辞書から取ってきた反義データ
  synonym_web_news.txt     	Webと新聞からとってきた同義グループデータ
  log_merge.txt			整形のログ(build.shにおけるものもここに書く)

perl/ : Perlモジュール

  SynGraph.pm                   SYNGRAPHを扱うモジュール
  Search.pm         		検索するためのモジュール
  CalcSimWithSynGraph.pm        SYNGRAPHを用いてマッチングを行うモジュール


scripts/ : スクリプト

  README			
  merge_dic.sh			辞書データ整形のスクリプト
  build.sh        		コンパイル(DB作成)のスクリプト
  make_logdic.pl		辞書抽出のログ作成
  change_dic.pl			RSK辞書の曖昧性の対応
 check_duplicate_eentry.pl 	Web辞書の整形
  conv_syndb.pl  		コンパイルの前処理
  compile.pl     		コンパイル(類義表現DBのSYNGRAPH化) 
  sort_synhead.pl		類義表現DBのヘッドハッシュをソート
  make_sg.pl     		検索対象のSYNGRAPH化
  merge_db.pl    		インデックスファイルをマージ
  irex_search.pl 		IREXの検索
  print_hash.pl  		各種データベース内容の表示
  teat.pl     			類似度計算のテストプログラム
 knp_syn.pl			SYNGRAPH化のテストプログラム
 check_syndb.pl		データベースのチェック用プログラム
  search.pl      		検索


syndb/ : 同義表現データベース

  x86_64/ : 通常利用するDB
    synhead.cdb			類義表現DB(headから同義グループを呼ぶ)
    syndata.mldbm		類義表現DB(同義グループに属すSYNGRAPHを呼ぶ)
    synparent.cdb		上位データベース(上位グループを呼ぶ)
    synantonym.cdb		反義データベース(反義グループを呼ぶ)
   syndb.cdb			同義グループの中身を保存 

  cgi/ : CGIで使用するDB
    synhead.cdb			類義表現DB(headから同義グループを呼ぶ)
    synparent.cdb		上位データベース(上位グループを呼ぶ)
    synantonym.cdb		反義データベース(反義グループを呼ぶ)
    syndata.mldbm		SYNGRAPH化のLOG付syndata
   syndb.cdb			同義グループの中身を保存
   synnumber.cdb		番号から同義グループを呼ぶ
   synchild.cdb		下位データベース(下位グループを呼ぶ)
    log_dic.cdb			辞書からの情報抽出のLOG
   log_isa.cdb			DBの上位下位関係付与のLOG
   log_antonym.cdb		DBの反義関係付与のLOG


cgi : CGIソース
 index.cgi		SynGraphのDEBUG用CGIのソース