LCTT/Grank

grank 项目的可能出现误差的点

bestony opened this issue · 0 comments

可能导致误差的点

1. 丢弃项目中未设定时间的 commit / pr

在使用 GraphQL 抓取数据时,发现了部分 commit / pr 是未标注时间的,未确保这些 dirty data 不影响项目的分析,丢弃了这部分数据。但是同样可能导致数据分析的结果不够精确。

相关代码位置:

commit_frame = commit_frame[commit_frame.date != "未标注时间"]

2. 邮箱不精确

在使用 GraphQL 抓取数据时,发现部分 commit/pr 的email 为 github 域下的,考虑到无法对 Github 域下的项目分析其所属的企业和个人,将此部分数据丢弃。以确保社区化分析的准确性。

Grank/grank/libs/helpers.py

Lines 229 to 234 in 7b00abb

def is_corp(email,config):
"""判断是否是企业用户"""
if config["corp"]["keyword"] in email:
return True
else:
return False