PDF内のテキストを抽出し、ChatGPTでその属性(種類・発行日・発行元・金額)を解読します。
その属性をCSV形式の一覧に出力し、可視性の高い別名でファイルを分類保存します。
できるかな?と思って試してみたらけっこういい感じに動いたので、雑ですがソースを公開します。
試したサンプルは少ないですが、
- 実行ごとに発行元会社名にゆらぎが出ます。
- 合計金額が税込になったり税抜きになったりします。
- 通貨単位にゆらぎが出ることがあります。
などの問題が確認されています。
ぜひいろんなデータを試し、フォークしてチューニングを共有してください!
.env
ファイルを作成し、OPENAI_API_KEY
を設定。
OPENAI_API_KEY=あなたのAPIキー
依存モジュールをインストール。
yarn
pdfs
ディレクトリにPDFファイルを入れる(サンプル2件あり)。
プログラムを実行する。
yarn main
output
ディレクトリを確認する。