total 与freq的计算问题

Question

total 与freq的计算问题

xv44586 opened this issue 5 years ago · 4 comments

1.PMI=log(P(x,y)/(p(x)p(y)), p(x,y)=freq/N, p(x)=freq_x/N => PMI=log(freqN/(freq_xfreq*y)),而total=word_frag_count,这里感觉应该是取错了，应该是语料内所以的“字”的数量；
2.freq用的是右侧前缀树的总和，这样会少记录当词右侧没有内容的情况，如词出现在句子末尾（吧/呢）直接统计word的freq是不是会更好？

Answer 1 · 2019-08-02T02:21:15.000Z

时间确实够久远了。我建议，你可以直接修改代入值，看看效果是不是会更好。 xv44586 <notifications@github.com> 于2019年7月30日周二下午5:49写道：

…

1.PMI=log(P(x,y)/(p(x)p(y)), p(x,y)=freq/N, p(x)=freq_x/N => PMI=log(freq *N/(freq_x*freq*y)),而total=word_frag_count,这里感觉应该是取错了，应该是语料内所以的“字”的数量； 2.freq用的是右侧前缀树的总和，这样会少记录当词右侧没有内容的情况，如词出现在句子末尾（吧/呢）直接统计word的freq是不是会更好？ — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#39?email_source=notifications&email_token=AAICIWUG2G4BQLPZ3TA5SJ3QCAFCHA5CNFSM4IH2PTIKYY3PNVWWK3TUL52HS4DFUVEXG43VMWVGG33NNVSW45C7NFSM4HCICJYQ>, or mute the thread <https://github.com/notifications/unsubscribe-auth/AAICIWRSZVZ54LSHCRYHOHDQCAFCHANCNFSM4IH2PTIA> .

Answer 2 · 2019-08-02T02:25:00.000Z

@xv44586 非常希望你能做一个实验，如果效果更好，欢迎PR

Answer 3 · 2019-08-09T08:33:07.000Z

2.freq用的是右侧前缀树的总和，这样会少记录当词右侧没有内容的情况，如词出现在句子末尾（吧/呢）直接统计word的freq是不是会更好？

@xv44586 作者在每个ngram后面都补充了一个$: sen = "$" + sen + "$";，这样每个结尾的ngram都有一个右邻字$，所以可以统计到结尾的ngram。

Answer 4 · 2019-08-10T09:57:09.000Z

@DouMiaoO-Oo thx。