Still under heavy development!!!
尝试正确处理包含公式等非PlainText的pdf文件的翻译。
- 需要正确识别公式并标记。
- 要尽可能保证一段文本在同一段内,以充分发挥翻译软件的解析上下文能力。
直接选择参考
arccos
arcctg
arcsin
arctan
……
但是我觉得一个脑袋正常的翻译引擎能识别出来。
反而,我觉得可能这类更需要特殊关注(与常用变量高度重合?)
cnt
res
val
ans
正如上述,我们需要识别字母(数字显然不用翻译)。
以A
为例(另一个是I
但这玩意主要于句首做主语)。
This is a banana.
We define a to store it.
这里可以利用公式的不同字体等。比如,事实上,论文一般这样排版。
This is a banana. We fine
先跑起来再说。
pip install pymupdf
python main.py [PDFfilename]