total 与freq的计算问题
xv44586 opened this issue · 4 comments
xv44586 commented
1.PMI=log(P(x,y)/(p(x)p(y)), p(x,y)=freq/N, p(x)=freq_x/N => PMI=log(freqN/(freq_xfreq*y)),而total=word_frag_count,这里感觉应该是取错了,应该是语料内所以的“字”的数量;
2.freq用的是右侧前缀树的总和,这样会少记录当词右侧没有内容的情况,如词出现在句子末尾(吧/呢)直接统计word的freq是不是会更好?
sing1ee commented
时间确实够久远了。
我建议,你可以直接修改代入值,看看效果是不是会更好。
xv44586 <notifications@github.com> 于2019年7月30日周二 下午5:49写道:
… 1.PMI=log(P(x,y)/(p(x)p(y)), p(x,y)=freq/N, p(x)=freq_x/N => PMI=log(freq
*N/(freq_x*freq*y)),而total=word_frag_count,这里感觉应该是取错了,应该是语料内所以的“字”的数量;
2.freq用的是右侧前缀树的总和,这样会少记录当词右侧没有内容的情况,如词出现在句子末尾(吧/呢)直接统计word的freq是不是会更好?
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#39?email_source=notifications&email_token=AAICIWUG2G4BQLPZ3TA5SJ3QCAFCHA5CNFSM4IH2PTIKYY3PNVWWK3TUL52HS4DFUVEXG43VMWVGG33NNVSW45C7NFSM4HCICJYQ>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/AAICIWRSZVZ54LSHCRYHOHDQCAFCHANCNFSM4IH2PTIA>
.
DouMiaoO-Oo commented
2.freq用的是右侧前缀树的总和,这样会少记录当词右侧没有内容的情况,如词出现在句子末尾(吧/呢)直接统计word的freq是不是会更好?
@xv44586 作者在每个ngram后面都补充了一个$
: sen = "$" + sen + "$";
,这样每个结尾的ngram都有一个右邻字$
,所以可以统计到结尾的ngram。
sing1ee commented
@DouMiaoO-Oo thx。