-
WordFreq 更新至 v0.3
原来的 BNC 数据来自 Adam Kilgarriff, 现标记为
BNC.AK
本次新增来自 Paul Nation 的 BNC 数据, 标记为
BNC.PN
, 其特点是将所有单词按 family 组织, 按词频每 1000 个 word families 一个大组, 共 14 组, 14000 个最常用 word family, 实际含单词(包括各种单复数形式等)近50000. 比如, society/societal/societies 的词频数都是 1000, 表示此 family 属最常见的1000个 word families.btw: "BNC Top-15000" 的版本来源不明, 目前已弃用
-
基于网络上现成的 BNC/ANC/COCA 等词频信息, 合并为dsl词典
-
可用于 GoldenDict Goldendict@github v1.5+
ZZ WordFreq
top 60000 words from BNC.AK/ANC/COCA, 14000 word families from BNC.PN
- wordfreq.zz.dsl
- wordfreq.zz.ann
ZZ's BNC Top-15000 Word List (En)
word & frequency only
- bnc15000.ann
- bnc15000.dsl
ZZ's BNC Top-15000 Word List (En-Cn)
word & frequency & very simple Chinese translation
- bnc15000cn.ann
- bnc15000cn.dsl
- BNC (British National Corpus)
http://www.kilgarriff.co.uk/bnc-readme.html
- OANC (Open American Naitonal Corpus)
- COCA (The Corpus Of Contemporary American English)
"[ANC] 6776" 表示在ANC词频中列第6776位
-
已移除所有含数字/部分标点符号/全部非ASCII字符的单词
-
OANC 中将名词单复数 和 动词原型/过去式/过去分词 合并作为同一个单词处理