統合データベース講習会:AJACS徳島
化合物データベース(Pubchem,ChEMBL)
〜化合物情報とバイオアッセイ〜
-
公益財団法人野口研究所 山田一作(やまだいっさく) issaku@noguchi.or.jp
-
日時:2019年6月6日(木)
1. 目次
2. 化合物データベース
3. 参考サイト
4. PubChem
PubChemの説明
PubChem CompoundとSubstanceの違い
PubChem BioAssayとSubstance
PubChemへのデータ登録について
インターフェイスが今年3月に更新。
ウェブブラウザを用いた検索
キーワード検索から:遺伝子名:ACADM
URLへキーワード(遺伝子名、生物種など)を用いた検索
PubChem Classification Browserを使ったデータ取得
5. ChEMBL
ChEMBLの説明
ウェブブラウザを利用して
ChEMBLのサイト( https://www.ebi.ac.uk/chembl/ )を開く
概要
含まれるデータの俯瞰
階層
年代毎の分子の種類の分布
Taxonomyによる分類
開発フェーズとUSAN登録
病気のフェーズ
化合物
機能の説明
表示切り替え
絞り込み
データダウンロード
アッセイ
targets
キーワード検索
化合物・医薬品
遺伝子名
付録:ドキュメント作成手順
-
AJACS筑波4での化合物データベースについての説明へ
-
https://github.com/AJACS-training/AJACS70/tree/master/03_yamada
-
化合物の表記法やPubChemの使い方
-
ブラウザを用いた方法について
-
REST, SOAP, FTPによるデータ取得などについて
-
統合TV
-
PubChemを利用して化学物質やアッセイの結果を調べる 2017
-
PubChem公式
- 中鎖アシル CoA デヒドロゲナーゼ (MCAD) 欠損症の病因遺伝子 :ACADM について調べてみましょう。
- PubChemのサイト(https://pubchem.ncbi.nlm.nih.gov/)を開きます。
- または、Googleなどの検索エンジンで”PubChem”と検索し、下記のリンクをクリック
- 下図のようにキーワード入力欄に”ACADM ”を入力すると、Compound, Gene, Taxonomyに分類された候補キーワードが示されます。
- 今回は、"Gene"の"Acadm"をクリックすると、下図のサイトに移動します。
- ここでも、分類としてSubstances, Genes, BioAssays, Literature, Patentsが表示され、その下の()内に含まれるデータの数が表示されます。
- ここで、"Gene"をクリックすると、taxonomy IDの異なる3個の遺伝子が含まれることがわかります。
- ここで、各遺伝子毎にLinked BioAssays Countが表示されています。
- Linked BioAssays Countのあとの数値、この場合は"12"をクリックすると、BioAssaysのサイトへ移動します。
- Linked BioAssays Countのあとの数値、この場合は"12"をクリックすると、BioAssaysのサイトへ移動します。
- BioAssay AID, BioAssay Name, BioAssay Type の表示された表が表示されます。
をクリックすると、説明が表示されます。この機能はPubChemの色々なサイトにありますので、”これ何?”と思ったら、クリックしてみてください。
- 右上のDownloadをクリックとCSV形式で取得することができます。ダウンロードしたCSV形式のファイルを開くと以下のようになります。
- テーブルの”BioAssay AID”をクリックすると、以下のようなアッセイの詳細を見ることができます。
- 詳細ページには上図のようなことが記載されています。
-
”Tested Substances:”を見ていただくと、”Active”と”Inactive”の件数がわかります。
-
”Data table”をクリックすると下記のTableが表示されます。これは、ページをスクロールすることや、ページ右端の”CONTENTS”の”2 Data Table”をクリックすることでも同様に移動できます。
- 右上の”?”をクリックすると ここでも説明が表示されます。
- Data Tableには様々な情報が登録されています。右上の”SORT BY”のプルダウンにより、Activity, Score, SID, CID
- 右上のDownloadをクリックとCSV形式で取得することができます。また、Data Tableのダウンロードでは、下図のようにALL, ACTIVE, INACTIVEをそれぞれ取得できます。
- 取得したCSV形式のファイルを開くと以下のようになります。
- Data Tableからのリンクは、SID, Activity, Entrez GeneIDから、それぞれのページに移動することができます。
- Data Tableの各列のSIDのSID(例えば:152153881)をクリックすると下図のようなページが表示されます。
- このページでは、Depositor CommentsやSIDに関するBiological Test Resultsを得ることができます。
- Data Tableの各列のActivityのActive or Inactiveをクリックすると下図のようなページが表示されます。
- Data Tableの各列のEntrez GeneIDをクリックすると下図のようなページが表示されます。このページでは、遺伝子に関する各種情報を見ることができます。
- 以下のようなURLを用いることで、キーワードに該当するエントリーを表示させることもできます。
- https://pubchem.ncbi.nlm.nih.gov/gene/ACADM/human
- 下記の検索ボックス下にあるアイコンの右から二番目の"Browse Data"をクリックします。
-
または、下記のURLへ移動します。
- 下図のようなClassification Browserが表示されます。
- Select classificationで、”ChEMBL”を選択してください。
- Data type counts to display の下に、None, Compound, Substance, Assay, PubMed, Gene, Protein, Taxonomy が表示されました。
- AssayやGeneを選択すると、以下のように項目に含まれる数値が変わります。
- 左の青三角をクリックすると下の階層が表示されます。
- 右の青い数字をクリックすると、リストが表示されます。
- 左上のプルダウンで、Format, 表示件数、ソートを変更できます。
- 左の Results by taxonから、生物種を選択して絞り込みができます。
- 検索(選択)されたリストは右上の”Send to:”のプルダウンから、形式を選択してデータ得ることができます。
-
ChEMBLとは
-
ChEMBLはEBIのChEMBLチームにより維持管理されている化合物の活性などを収録したデータベース
-
以下のリンクも参考になります。
-
https://github.com/Mishima-syk/py4chemoinformatics/blob/master/ch04_database.asciidoc
-
ChEMBL Interface Questions
-
chembl-interface-documentation
-
ChEMBLのサイト(https://www.ebi.ac.uk/chembl/)を開く
- または、Googleなどの検索エンジンで”ChEMBL”と検索し、下記のリンクをクリック
- 左図の"<”, ">"をクリックすると、表示される項目が以下のようにかわります。
- 表示された項目をクリックすることで下の階層を見ることができます。
- "Enzyme"をクリックすると下図(**)のように下の階層を見ることができます。
- さらに"Kinase"をクリックすると下図(右)のように下の階層を見ることができます。
- マウスオーバーするとデータが表示されます。
- クリックして中を見ていくことができます。
- マウスオーバーして、クリックするとその情報が表示されます。
- 色のついたところをクリックすると下図のような関連する化合物リストが表示されます。
- Compoundsをクリックすると下図のような化合物リストが表示されます。
- 左上のTable, Card, Graph, Heatmapをクリックすると表示を切り替えることができます。
- Filterから絞りたい項目をクリックして選択すると、データを絞り込むことができます。
- 右上のアイコンからダウンロートする形式を選んで選択したデータをダウンロードすることができます。
- 上図の"Assays"をクリックすると、下図のようなアッセイリストが表示されます。
- 左にある”Filters”で、各種条件でフィルターすることができます。
-
リストにある”ChEMBL ID”のリンクをクリックすると下図のような”Assay Report Card”が表示されます。
-
Assay Report Cardには、Basic Information, Curation Summary, Activity Charts, Compound Summaryが含まれています。
- Bioactivityでクリックすると、活性情報のリストが表示されます。
- "Targets"をクリックすると、下図のようなリストが表示されます。
Organism: Homo Sapiens, Protein Classification L2: Kinase
- 左にあるFiltersを用いて、絞り込むことができます。
-
リストの"ChEMBL ID"をクリックすると、下図のような”Target Report Card”が表示されます。
-
”Target Report Card”には、以下に示すような様々な情報が含まれています。
レキサルティ
https://www.kegg.jp/medicus-bin/japic_med?japic_code=00067274
“Brexpiprazole”を検索してみましょう
- トップページ右上の入力欄にキーワードを入力します。今回は”Brexpiprazole”
- キーワードを入力すると関連情報が表示されます。ここでは、
からCompoundsに含まれているデータであることがわかります。
右下に表示されるをクリックすると分子の詳細ページが表示されます。
https://www.ebi.ac.uk/chembl/compound_report_card/CHEMBL2105760/
- MAPK6遺伝子
ヒトでマイトジェン活性化プロテインキナーゼ6をコードするMAPK6遺伝子
からTargetsに含まれていることがわかります。
右下に表示されるをクリックすると詳細ページへ移動します。
- ここで、マウスカーソルをKdにのせて、クリックすると詳細データが表示されます。
- 各プロットにマウスカーソルをのせると、プロットの情報が表示されます。
BEI / Binding Efficiency Index / 結合効率指数
SEI / Surface-binding Efficiency Index / 表面結合効率指数
-
Google Documentで内容作成
-
Google Documentの”ファイル”→”形式を指定してダウンロード”で、”ウェブページ(html)”を選択する。
-
ダウンロードしたzipファイルを解凍する。
-
HTML - Markdown 変換
-
Githubへhtmlとmdファイル、必要な画像ファイルをアップロード
以上