The dataset gathering seems incomplete
Graphcore-manuellr opened this issue · 2 comments
Graphcore-manuellr commented
If I follow the steps on the README.md file under datasets, I get the following error:
FileNotFoundError: [Errno 2] No such file or directory: '../datasets/molecule_datasets/toxcast/processed/smiles.csv'
This is expected since this file hasn't been downloaded in any step.
My tree directory under GraphMVP/datasets
:
.
├── GEOM
│ ├── processed
│ └── raw
├── GEOM_3D_nmol50000_nconf5_nupper1000
│ ├── processed
│ └── raw
├── README.md
├── molecule_datasets
│ ├── cep
│ │ └── raw
│ │ └── cep.csv
│ ├── malaria
│ │ └── raw
│ │ └── malaria.csv
│ └── tox21
│ ├── TOX21_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── tox21.csv
├── molecule_datasets_regression
│ └── esol
└── rdkit_folder
├── GEOM_3D_nmol50000_nconf5_nupper1000
│ ├── processed
│ └── raw
chao1224 commented
Hi @Graphcore-manuellr, the toxcast
folder should be included in the MoleculeNet dataset, which is downloaded in the following step
wget http://snap.stanford.edu/gnn-pretrain/data/chem_dataset.zip
Unzip the zip file, and the structure looks like this on my end:
.
├── chem_dataset.zip
└── dataset
├── bace
│ ├── BACE_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── bace.csv
├── bbbp
│ ├── BBBP_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── BBBP.csv
├── bbp
│ └── processed
├── chembl_filtered
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ ├── checksums.md5
│ ├── chembl20LSTM.pckl
│ ├── chembl20Smiles.pckl
│ ├── dfs8.pckl
│ ├── ecfp6.pckl
│ ├── folds0.pckl
│ ├── labelsHard.pckl
│ ├── labelsWeakHard.cmpNames
│ ├── labelsWeakHard.mtx
│ ├── labelsWeakHard.pckl
│ ├── labelsWeakHard.targetNames
│ ├── samples.pckl
│ ├── semi.pckl
│ ├── static.pckl
│ └── tox.pckl
├── clintox
│ ├── CLINTOX_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── clintox.csv
├── esol
│ ├── ESOL_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── delaney-processed.csv
├── freesolv
│ ├── FreeSolv_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── SAMPL.csv
├── hiv
│ ├── HIV_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── HIV.csv
├── lipophilicity
│ ├── Lipo_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── Lipophilicity.csv
├── mutag
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ ├── mutag_188_data.can
│ └── mutag_188_target.txt
├── muv
│ ├── MUV_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── muv.csv
├── pcba
│ ├── PCBA_README
│ └── raw
│ └── pcba.csv.gz
├── ptc_mr
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── PTC_pn_MR.smi
├── sider
│ ├── SIDER_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── sider.csv
├── tox21
│ ├── TOX21_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── tox21.csv
├── toxcast
│ ├── TOXCAST_README
│ ├── processed
│ │ ├── geometric_data_processed.pt
│ │ └── smiles.csv
│ └── raw
│ └── toxcast_data.csv
└── zinc_standard_agent
├── processed
│ ├── geometric_data_processed.pt
│ └── smiles.csv
└── raw
└── zinc_combined_apr_8_2019.csv.gz
Can you double-check this again?
Graphcore-manuellr commented
Hi @chao1224, that worked, thank you! Sorry probably when moving the data some didn't move from dataset
to molecule_datasets