<img src=“https://secure.travis-ci.org/tsunekawa/pubmed-citation.png” />
-
制作者: 常川真央 < tsunekaw@slis.tsukuba.ac.jp >
pubmed-citation はXML形式で公開されているPubMed Centralの論文データセット( www.ncbi.nlm.nih.gov/pmc/tools/ftp/#XML_for_Data_Mining )から引用-被引用の行列を作成するためのスクリプトです。
pubmed-citation is scripts that creates citation matrix between PubMed articles from PMC XML Dataset ( www.ncbi.nlm.nih.gov/pmc/tools/ftp/#XML_for_Data_Mining ).
まだ開発途中のため、結果は不正確です。
-
Ruby1.9.3
-
LibXML
-
SQLite
必要なライブラリをインストールします。
$ gem install bundler $ bundle install
config ディレクトリに config.yml を作成し、データセットのファイルパスを指定します。
(データセットすべてを対象とするのは膨大な時間がかかるため、試しに実行する場合は少数のXMLファイルを指定してください)
# config/config.yml filepath: "/var/opt/PubMedDataSet/**/*"
データベースのセットアップを行います。
$ rake db:migrate
データセットのXMLファイルからデータベースに情報をインポートします。
$ rake import
引用-被引用関係の行列をCSVファイルとしてエクスポートします。
$ rake export_csv
pubmed-citation はMITライセンスです。