牛津高阶双解(第9版)_V3.0版无法提取例句音频文件

Question

牛津高阶双解(第9版)_V3.0版无法提取例句音频文件

Closed this issue 3 years ago · 23 comments

libeidou commented 3 years ago

大神，我用的牛津高阶双解(第9版)_V3.0版，可以提取例句到中英文例句文本，但是提取不是音频文件。
是不是一定要3.0.1这个版本？
多谢！

Answer 1 · 2021-05-05T08:46:50.000Z

晚些我把我改的仓库上传一下，你看着试试

Answer 2 · 2021-05-05T14:52:01.000Z

你把我写的这个文件下载下来粘贴到你那个插件的对应的文件夹里，看看能不能用。

顺便，我用的是“牛津高阶英汉双解词典（第10版）V3”，估计和你的词典的作者是一个（hanly05），我是从他tg上下载的。

https://github.com/escape0707/1807206748/blob/OALD10/service/dict/OALD10.py

Answer 3 · 2021-05-06T03:02:19.000Z

真没想到这么快就能得到您的回复！太感谢了！我下载了OALD10.py <https://github.com/escape0707/1807206748/blob/OALD10/service/dict/OALD10.py> 。仅修改了词典的位置。我还发现文件中的lookup文件是你本地的文件。不知道是不是因为这个原因，我不能查到例句文本和音频文件？还要麻烦您帮忙看下。多谢了！ pathlib.Path(r"*C:\Users\tothe\Workspaces\lookup.html*").write_text( DICT_PATH = u"/Users/lbd/Documents/MDICT/牛津高阶英汉双解词典（第10版）V3/牛津高阶英汉双解词典（第10版）V3.mdx" 也找到了你说的这个牛10v3. [image: image.png] 现在我可以查询到单词的音频文件了。但是例句这次什么都查不到了。包括文本和音频文件。 [image: image.png] [image: image.png] Escape0707 ***@***.***> 于2021年5月5日周三下午10:52写道：

…

你把我写的这个文件下载下来粘贴到你那个插件的对应的文件夹里，看看能不能用。顺便，我用的是“牛津高阶英汉双解词典（第10版）V3”，估计和你的词典的作者是一个（hanly05），我是从他tg上 <https://t.me/hanyl05>下载的。 https://github.com/escape0707/1807206748/blob/OALD10/service/dict/OALD10.py — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#5 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AEC4W2L4I27IQIAXFNC2A2TTMFLSVANCNFSM44EHUH7A> .

Answer 4 · 2021-05-06T05:34:02.000Z

这个仓库的作者写的脚本是硬编码了词典文件路径。我没有，我是按照朗文脚本改的。插件本身有个本地词典存储目录，会扫面一遍里面有的词典。我就用的那个目录里的扫出来的文件。

另外我写的脚本改了注册的词库名字，你可以看一下你使用的时候选没选对：

@register(["MDX-OALD10", "MDX-OALD10"])

lookup.html只是我想要调试的时候才导出的，可以用来看根据单词读取出来的html的完整内容的而已。如果你查词的时候没有选择raw_html域的话是不会导出这个文件的。

Answer 5 · 2021-05-06T05:39:30.000Z

我这个脚本只是按照我的使用习惯简单改了改，我需要查询牛津的发音，特别是美音，以及每项解释。所以我目前只检查了这两个部分好不好用。我发现这个插件本身有很多老旧的代码，暂时我也没时间深挖重写。所以先自己用着而已。

例句是因为我觉得用词典上的例句背单词印象很不深刻，我都是在哪儿遇到这个生词就把句子抄下来背那个句子，所以没有弄。不过也不是很难。

写这些提取脚本麻烦就麻烦在词典作者打包mdx的时候可能没有给内容很好得上上对应的标签。所以有的内容检索起来很费劲。mdx本身也不是个开放的词典格式，所以我以后可能也不想在mdx上多费功夫。也许cn社区应该把资源投到stardict之类的格式上也说不定。

Answer 6 · 2021-05-06T05:41:42.000Z

你要是想要动手继续完善这个插件本身的话也可以自己读一读源码，我可以稍稍给点自己的理解方便你入手。

Answer 7 · 2021-05-06T07:24:52.000Z

了解了！我之前以为是因为字典的版本没有和你用的完全一致导致的问题。现在看来你应该没有用到例句提取的这个功能，所以可能在你那里也会有提取例句的问题。我觉得你的那个牛9的版本还比较接近我想要的，因为已经可以提取出例句文本了。我打算在那个基础上研究一下。我是菜鸟，所以只能边改边测试看看。有两个问题要向您请教下。 1. 我在Mac上运行Anki，这个插件运行时如何输出debug？ 2. 这个问题比较无关。我增加了一个查询我本地MongoDB的功能。需要用到pymongo。我找到了下面的pymongo的文件夹。 /Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pymongo 整个复制到anki这个插件的目录下面。但是运行时就出现No module named 'pymongo'的问题。 File "/Users/lbd/Library/Application Support/Anki2/addons21/1807206748/service/dict/pymongo/__init__.py", line 87, in <module> from pymongo.collection import ReturnDocument ModuleNotFoundError: No module named 'pymongo' 感谢！ Escape0707 ***@***.***> 于2021年5月6日周四下午1:41写道：

…

你要是想要动手继续完善这个插件本身的话也可以自己读一读源码，我可以稍稍给点自己的理解方便你入手。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#5 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AEC4W2PT3FQBTOE4ZADLACDTMIT2LANCNFSM44EHUH7A> .

Answer 8 · 2021-05-06T07:38:58.000Z

首先，牛9不是我写的Orz，是这个仓库的拥有者yu7777写的，如果我没记错的话我的fork没有改这个文件。我只简单写了个牛10的。

其次，Anki插件的Debug详见Anki插件开发文档。

同一篇文档里你也可以找到你第二个问题的解释，Anki只自带了一些基本的模组，欠缺的模组需要自己拷贝到你的插件的文件夹里。你可以参考这篇Reddit。关于你具体要把你想加入的模组放到什么目录，参考Python官方教程的这一节和这一节。

另外，如果有条件，把改过的文件放到github上让后人也可以直接看到比较好。

Answer 9 · 2021-05-06T08:05:42.000Z

了解了！非常感谢！ iPhoneから送信

…

2021/5/6 午後3:39、Escape0707 ***@***.***>のメール: 首先，牛9不是我写的Orz，是这个仓库的拥有者yu7777写的，如果我没记错的话我的fork没有改这个文件。其次，Anki插件的Debug详见Anki插件开发文档。同一篇文档里你也可以找到你第二个问题的解释，Anki只自带了一些基本的模组，欠缺的模组需要自己拷贝到你的插件的文件夹里。你可以参考这篇Reddit。关于你具体要把你想加入的模组放到什么目录，参考Python官方教程。另外，如果有条件，把改过的文件放到github上让后人也可以直接看到比较好。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Answer 10 · 2021-05-06T13:10:49.000Z

最后卡在了保存例句音频这一步。我用的“牛津高阶双解第9版_V3.0版”。 html的字典查询页面的例句相关结果如下： *那个年轻人被控犯有三次入室盗窃罪。</chn></x></x-wr><a href="sound://_burglary__gbs_1.mp3"* 那音频就应该在根目录下吧？但是以下*oalecd9_mdx.py*的这个*save_file*的操作却不成功。 *def _fld_audio(self, audio):* * name = get_hex_name('mdx-'+self.unique.lower(), audio, 'mp3')* * name = self.save_file(audio, name)* * if name:* * return self.get_anki_label(name, 'audio')* * return ''* 我也参考了其它的，发现有类似的用法。但是这个却不行。最终我只好采用笨办法。之前解过这个字典的Mdx文件得到了全部的例句音频。我就把上面的代码换成了从我自己的例句音频目录直接拷贝到anki的目标目录。虽然实现了我自己的需求，但是方法太笨了。 [image: image.png] Beidou Li ***@***.***> 于2021年5月6日周四下午4:05写道：

…

了解了！非常感谢！ iPhoneから送信 2021/5/6 午後3:39、Escape0707 ***@***.***>のメール: 首先，牛9不是我写的Orz，是这个仓库的拥有者yu7777写的，如果我没记错的话我的fork没有改这个文件。其次，Anki插件的Debug详见Anki插件开发文档 <https://addon-docs.ankiweb.net/#/more?id=debugging>。同一篇文档里你也可以找到你第二个问题的解释，Anki只自带了一些基本的模组，欠缺的模组需要自己拷贝到你的插件的文件夹里。你可以参考这篇Reddit <https://www.reddit.com/r/Anki/comments/dppt2c/how_to_put_modules_required_for_your_add_on/> 。关于你具体要把你想加入的模组放到什么目录，参考Python官方教程 <https://docs.python.org/3/tutorial/modules.html#standard-modules>。另外，如果有条件，把改过的文件放到github上让后人也可以直接看到比较好。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#5 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AEC4W2O5P7BRGQAOWN3M5EDTMJBSLANCNFSM44EHUH7A> .

Answer 11 · 2021-05-06T13:22:52.000Z

https://github.com/escape0707/1807206748/blob/e2e40fb4b961243165f6cb94362088af78753588/service/dict/OALD10.py#L142

Answer 12 · 2021-05-06T13:26:07.000Z

按照你这个情况来说就是_burglary__gbs_1.mp3是文件名字，然后你就在前面加个/就可以传给save_file方法的第一个参数了。
我建议你不要回复邮件。格式看着很乱。你到GitHub来用Markdown排排版再发比较好。

Answer 13 · 2021-05-06T14:29:05.000Z

我又测试了一下。

_def back_fld_audio(self, audio):
showInfo(audio)
name = get_hex_name('mdx-'+self.unique.lower(), audio, 'mp3')
showInfo(name)
name = self.save_file(audio, name)

Debug得到的运行值：
audio = /_burglary__gbs_1.mp3
name = mdx-oalecd9_mdx-fd113408-7af1a366-2e07b6c2-fa6469b5-4733b2b2.mp3

但是执行 name = self.save_file(audio, name) 后，并没有成功。

Answer 14 · 2021-05-06T15:22:54.000Z

我也很好奇，我觉得你可以用这个插件囊括的readmdict脚本查一下你的mdd里的文件到底是释放到什么路径。我这个反正是根目录。

from readmdict import MDX, MDD
from pathlib import Path

dict_dir = Path(r"C:\Users\tothe\my-programs\Dicts\OALD10")
mdd = MDD(dict_dir / "牛津高阶英汉双解词典（第10版）V3.mdd")
item = mdd.items()

next(item)

# (b'\\20p__us_1.mp3', ...)

Answer 15 · 2021-05-06T15:49:13.000Z

不好意思，我比较初级，对lib的引用这些完全不懂，只知道pip install。我加了一个test.py文件。但是运行有问题。

Answer 16 · 2021-05-06T15:58:31.000Z

啊，你这个情况下不用加.直接导入就可以。直接导入的话就是自动检索当前文件夹下有没有叫这个名字的py文件（module）或者叫这个名字的文件夹（文件夹里有个__init__.py就成了package）。

加了点就成这个了：https://docs.python.org/3/tutorial/modules.html#intra-package-references

Answer 17 · 2021-05-07T00:55:03.000Z

现在的问题是：“LZO compression support is not available”

Answer 18 · 2021-05-07T01:23:45.000Z

这个你如果去原本项目gitlab上找一下就知道是你用不到的。你去找一下，或者读一下那个文件夹里的readme.rst

…

On Fri, May 7, 2021 at 8:55 AM libeidou ***@***.***> wrote: 现在的问题是：“LZO compression support is not available” [image: image] <https://user-images.githubusercontent.com/17156969/117382709-b4f21180-af11-11eb-88e7-c58669606ccb.png> — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#5 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ACUBEWLRHXECTGZHI6C6DELTMM27PANCNFSM44EHUH7A> .

Answer 19 · 2021-05-07T03:56:05.000Z

我直接用这个脚本解压了mdd:
python3 readmdict.py -x /Users/lbd/Documents/MDICT/牛津高阶双解第9版_V3.0版/牛津高阶双解第9版_V3.0版.mdd

例句音频文件就在data根目录下。和第10版是一样的。

Answer 20 · 2021-05-07T03:59:21.000Z

但是执行 name = self.save_file(audio, name) 后，并没有成功。

出错日志、呼叫堆叠呢？

换句话说，使足力气描述一下“并没有成功”。

Answer 21 · 2021-05-07T05:33:45.000Z

解决了！按照你的提示，一步步跟踪到mdict_query.py。再往下是查询数据库指令了。突然醒悟过来，到这一步已经是标准的库了，其它的查询都会用到，不太可能有问题。问题应该是出在牛9的MDD上了。
换了牛10的MDD给牛9用。一下就成功了。

ありがとう！

 @staticmethod
    def lookup_indexes(db, keyword, ignorecase=None):

Answer 22 · 2021-05-07T05:36:23.000Z

（如果没有问题了可以关掉issue，祝学习顺利~

Answer 23 · 2021-05-07T05:43:14.000Z

解决方案总结：
以“牛津高阶英汉双解词典（第10版）V3.mdd”改名替换“牛津高阶双解第9版_V3.0版.mdd”