/parseZpk

解析百词斩Zpk词库包

Primary LanguagePython

parseZpk

解析百词斩Zpk词库包

运行parse.py后会解析与当前目录同级的所有一级目录中的zpk文件,并在zpk所在目录创建project_output目录,与project_output同级的所有zpk文件解析结果会按照每个zpk文件中的单词或词组的名称分文件夹存放。解析出的资源文件如下:

  1. *.png
  2. *.jpg/jpeg
  3. *.json

jpg/jpeg文件为例句配图,png文件为单词配图,json文件包括了单词的英汉双解,例句原文,翻译,音标词源等数据,其中单词配图并不是每个zpk文件都包含。

未能解析出的文件:

  1. *.aac
  2. *.mp3

测试过程中发现百词斩中的aac文件,文件头均为FF F1 5C 40(存疑),但是文件尾不固定,虽然从zpk文件中可以解析出所有资源文件的排列顺序,根据排列在aac之后文件的文件头作为标志进行提取但仍存在两个问题:

  1. 遇到排列在aac文件之后的文件为mp3的情况, 由于百词斩中的mp3文件均无ID3v2和ID3v1标签,无法确定文件头和文件尾
  2. 存在zpk包中有两个aac文件,且两个aac文件相邻排列,由于百词斩中aac文件每一帧的文件头均一致,无法进行区分,解析出的aac文件是被拼接在一起的音频