/QM9nano4USTC

中科大数据科学导论课程实验-QM9数据集

QM9nano4USTC

中科大数据科学导论课程实验-QM9数据集

注意: 本数据集仅供中科大数据科学导论的课程实验使用,其他用途请以原始数据集为准

本项目为**科学技术大学数据科学导论课程实验中QM9数据集的介绍: QM9数据集包括了13万有机分子的构成,空间信息及其对应的属性. 它被广泛应用于各类数据驱动的分子属性预测方法的实验和对比.
除了原始数据外,本项目整理了一些有效的预处理/特征工程方案,如CM,BOB,BAML等.
下载地址:
百度云 链接:https://pan.baidu.com/s/1l2inzj8HfdjG0bLdzIDJwg 密码:kv7w
科大校内睿客网 链接:http://rec.ustc.edu.cn/share/f1cb7d40-d784-11e8-9b9f-9956ec9638a8

原始数据集给出了133,885个分子的相关信息,由于缺失值等原因,本项目给出130,462个分子的信息,具体文件如下:

  • QM9_nano.npz 文件 该文件需要用numpy读取,其中包含三个字段:
    • 'ID' 分子的id,如:qm9:000001
    • 'Atom' 分子的原子构成,为一个由原子序数的列表构成,如[6,1,1,1,1]表示该分子由一个碳(C)原子和4个氢(H)原子构成.
    • 'Distance' 分子中原子的距离矩阵,以上面[6,1,1,1,1]分子为例,它的距离矩阵即为一个5x5的矩阵,其中行列的顺序和上述列表一致,即矩阵的第N行/列对应的是列表的第N个原子信息.
    • 'U0' 分子的能量属性(温度为0K时),也是我们需要预测的值

除了上述数据外,我们还提供了一些以及做好的特征工程结果,这些数据均为tsv格式,建议使用pandas读取. 每行一条数据,第一列为分子的ID,这些特征有:

  • BOB.tsv
  • BAML.tsv
  • CM.tsv
  • ECFP4.tsv

具体的特征工程方法以及表征的意义参见Faber的论文, 中文解释.