Read english book easily

一个英文阅读辅助工具，它能够帮助英文读者统计书籍中必要词汇（通过掌握这些词汇可以较轻松的理解书籍内容），快速进入阅读状态。

学英语不是为了攀比或其它无意义的活动，学英语是为了读书。读书是为了塑造自己的**，增加自己的知识，扩展自己的生存技能。多少人认为学英语就是记单词，诚然无可否认单词是英语的基础。没有单词怎么造句，不能造句如何成文，所以单词是学英语绕不过去的门槛。但是，学英语绝不是死记单词就够的。使用英语需要有基本的词汇量做基础，也需要有基本的英语语法做基础。有了上面的这些基础外还需要有语境分析的能力。如此，才能真正通过阅读别人的英文文章来获取其中**或知识。

那么，既然我们没法跳过记单词这一基础环节，却也不想让自己在背不完的辞海里消沉，我们该怎么办呢？众所周知每本书的作者的词汇量以及他们对词汇使用偏好都可能是不一样的。我们也不可能把一本英语字典背完的情况下再去看书。就算我们背的完且暂时不考虑遗忘，那么我们所背诵的单词也不一定都会用在我们想阅读的那本书内。所以，我们背了却没在书中用到的那些单词是不是我们做的无用功呢？这些没用到的单词对我们的阅读可以说是毫无意义，因为用进废退的自然选择规律，它们早晚会被抛之脑后。

始终不要忘记，学英语是为了读书，读书是为了塑造自己的**，增加自己的知识，扩展自己的生存技能。枉费掉的记单词的时间何益于塑造**呢？何益于增加知识呢？又何益于扩展生存技能呢？学习英语应该以使用为目的。

如果阅读英文的技能在你的生活与生存中使用不到，或极少使用，我想你不必去学。

然而如果你想获得更大的“视野”，想学习更多不同的**，想学习更先进的知识与技能，那么不会英语又怎么能够进行的下去呢？既然需要学，而且不想因为花费大量“无辜”的时间记住巨大的单词量之后再去获得我们想要的**、知识或技能。那么，我们就得思考如何在阅读一本书之前，能够花最少的时间去统计并记忆那些掌握之后就能很好理解本书的单词。

试想我们读母语书籍的时候，何时去在意过生词呢？不是我们不在意，是因为我们所学的词汇量基本已经涵盖了那些书中最常用的词汇了（实际上也并没有很多）。而一些不常用的词汇实际上通过上下文就能够猜出意思。真正读书求知的人，大多不会翻译，而是追求理解书中文字背后的意义。所以，那些出现不多的生词并不会成为我们阅读的阻碍。就算这些为数不多的生词阻碍了我们阅读，我们也可以很快的查词并释义。

阅读母语之外的英语书籍何尝不是如此呢？实际上，我们只要能够掌握书中出现频率在某个范围的词汇就能理解一本书了。我没有实际的统计过掌握书中词汇的几成可以获取书籍大部分的信息。但是，我想这大致也符合 2/8 原则（20% 的词汇量表达了 80% 的信息）。可能这个频率并不准确，但是至少可以给我们一些提醒。不是掌握书中全部词汇的前提下，才能阅读书籍的。另外，就算我们全部掌握了书中的单词，也不一定就能 100% 获取书中全部的信息。想想我们读母语书，不也是这样吗？记住，英语不好不应该是阻碍我们获取新**，新知识，新技能的拦路虎。就算是，也要用我们的智慧将其化解。

这个软件仓库的目的是要帮助广大英文读者提供一个工具。通过这个工具的帮助，将阅读一本书所需要掌握的最少词汇量给统计出来（当然这里所说的最少词汇量是因读者的英语基础而不同的。可能对一个英语基础的很好的读者来说统计到的词汇几乎为 0；也可能对于一个英语基础薄弱的读者来说统计到的词汇量会很大。）。读者通过掌握这些统计出来的词汇从而能够快速的进入阅读状态。

该工具的构思如下。将书籍或文章中的词汇分为出现频率极少的生词，出现频率极高的词，出现频率适中的词。一般可以认为除了出现频率极少的词之外，便是阅读书籍需要掌握的词汇。然而，往往读者已经掌握了一些出现频率高的词。所以，理论上不同读者通过调整词的出现频率区间，就能获得自己读一本书时所需要提前掌握的最少词汇。当然，这个工具是给广大读者的共同工具，需要兼顾到所有人的不同词汇量。所以，不可能对某个读者做到非常的准确。有可能统计出的词汇还不足以包括读者需要掌握的词汇；也有可能超出读者需要掌握的词汇。所以统计准确度，需要通过读者根据自己的情况进行调整。读者可以定制一个个人掌握的词汇列表，工具会通过屏蔽列表中已掌握的词汇来减少超出量。读者也可以通过增大词汇的出现频率值来弥补不足量。另外，该工具也可以用作其它用途。比如，统计书籍或文章中的所有生词，提前释义，那么当读者阅读文章时，便可以从统计的词汇列表中快速的查阅这些生词。又如，通过统计多本不同难度等级的书籍，基本可以完成读者的词汇掌握目标。再如，通过统计数百篇考研英语阅读文章或其他等级英语考试文章，可以统计出考生应该掌握的基础词汇，这种有目标的词汇掌握要远远优于盲目背诵。

该工具待开发功能如下。

支持 txt、PDF、EPUB 和 AWZ3 等格式输入（如果可以支持 word 文档）。
能够按照读者的输入频率范围，统计书中出现的词汇。
工具可以输出普通文本格式和 CSV 表格模式等（如果可以，生成 mdd 词典格式）。
能够屏蔽读者预先设置的熟词，即熟词不出现在统计结果中。
如果可以，需要对单词释义，免去读者查词时间。
如果可以，尽量给出例句和释义，帮助读者在语境中学习。

这个只是这个工具的一个基本的 idea，代码以及工具的功能都需要不断的完善。如果大家对工具的功能方面，或是对帮助英文书籍阅读或学英语有其它建议，我们欢迎大家畅言。另外，如果大家有能力去构建这个工具，我们非常欢迎 pull requests！

wang-borong/rebe

Read english book easily