chao1224/GraphMVP

The dataset gathering seems incomplete

Graphcore-manuellr opened this issue · 2 comments

If I follow the steps on the README.md file under datasets, I get the following error:

FileNotFoundError: [Errno 2] No such file or directory: '../datasets/molecule_datasets/toxcast/processed/smiles.csv'

This is expected since this file hasn't been downloaded in any step.

My tree directory under GraphMVP/datasets:

.
├── GEOM
│   ├── processed
│   └── raw
├── GEOM_3D_nmol50000_nconf5_nupper1000
│   ├── processed
│   └── raw
├── README.md
├── molecule_datasets
│   ├── cep
│   │   └── raw
│   │       └── cep.csv
│   ├── malaria
│   │   └── raw
│   │       └── malaria.csv
│   └── tox21
│       ├── TOX21_README
│       ├── processed
│       │   ├── geometric_data_processed.pt
│       │   └── smiles.csv
│       └── raw
│           └── tox21.csv
├── molecule_datasets_regression
│   └── esol
└── rdkit_folder
    ├── GEOM_3D_nmol50000_nconf5_nupper1000
    │   ├── processed
    │   └── raw

Hi @Graphcore-manuellr, the toxcast folder should be included in the MoleculeNet dataset, which is downloaded in the following step

wget http://snap.stanford.edu/gnn-pretrain/data/chem_dataset.zip

Unzip the zip file, and the structure looks like this on my end:

.
├── chem_dataset.zip
└── dataset
    ├── bace
    │   ├── BACE_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── bace.csv
    ├── bbbp
    │   ├── BBBP_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── BBBP.csv
    ├── bbp
    │   └── processed
    ├── chembl_filtered
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       ├── checksums.md5
    │       ├── chembl20LSTM.pckl
    │       ├── chembl20Smiles.pckl
    │       ├── dfs8.pckl
    │       ├── ecfp6.pckl
    │       ├── folds0.pckl
    │       ├── labelsHard.pckl
    │       ├── labelsWeakHard.cmpNames
    │       ├── labelsWeakHard.mtx
    │       ├── labelsWeakHard.pckl
    │       ├── labelsWeakHard.targetNames
    │       ├── samples.pckl
    │       ├── semi.pckl
    │       ├── static.pckl
    │       └── tox.pckl
    ├── clintox
    │   ├── CLINTOX_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── clintox.csv
    ├── esol
    │   ├── ESOL_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── delaney-processed.csv
    ├── freesolv
    │   ├── FreeSolv_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── SAMPL.csv
    ├── hiv
    │   ├── HIV_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── HIV.csv
    ├── lipophilicity
    │   ├── Lipo_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── Lipophilicity.csv
    ├── mutag
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       ├── mutag_188_data.can
    │       └── mutag_188_target.txt
    ├── muv
    │   ├── MUV_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── muv.csv
    ├── pcba
    │   ├── PCBA_README
    │   └── raw
    │       └── pcba.csv.gz
    ├── ptc_mr
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── PTC_pn_MR.smi
    ├── sider
    │   ├── SIDER_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── sider.csv
    ├── tox21
    │   ├── TOX21_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── tox21.csv
    ├── toxcast
    │   ├── TOXCAST_README
    │   ├── processed
    │   │   ├── geometric_data_processed.pt
    │   │   └── smiles.csv
    │   └── raw
    │       └── toxcast_data.csv
    └── zinc_standard_agent
        ├── processed
        │   ├── geometric_data_processed.pt
        │   └── smiles.csv
        └── raw
            └── zinc_combined_apr_8_2019.csv.gz

Can you double-check this again?

Hi @chao1224, that worked, thank you! Sorry probably when moving the data some didn't move from dataset to molecule_datasets