PDFファイルの文章を英語から日本語に変換
PDFMinerライブラリとEasyNMTライブラリを組み合わせて作成した簡易的なコード。 PDFファイルを入力, 出力は日本語文。 文書によっては処理が比較的長いですのでご注意を。
英語から複数の言語に翻訳可能なライブラリ。OpenAIのAPIを用いて翻訳も可能ですが有料ですので、お試しに作る際にはこのライブラリが有効かと思います。
-
venvを用いて構築
「convertpdf」という仮想環境を作成。python -m venv convertpdf
-
環境を有効化
// Windows .\convertpdf\Scripts\activate // Linux source convertpdf/bin/activate
-
ライブラリをインストール
pip install -r requirements.txt
-
実行
// サンプル python main.py --fileurl https://arxiv.org/pdf/2006.11693v2.pdf