/document-extractor

使用 apache poi 和 pdfbox 进行 doc, docx, pdf, xls, xlsx, ppt, pptx 等的文字提取,使用 Hanlp 进行内容关键字的提取

Primary LanguageJava

This repository is not active