-
chip-atlas_vocab_metasra.tsv
ChIP-Atlas の cell type class の文字列を MetaSRA でオントロジーに当てた結果。 -
chip-atlas_srx_biosample.tsv
ChIP-Atlas の celltypeList.tab で生物種が hg38 の各行から、SRA Experiment の ID を 1 個ずつ抜き出したものと BioSample ID の対応。 -
chip-atlas_biosample_metasra.tsv
前項の BioSample を入力として MetaSRA を実行した結果。 -
chip-atlas_vocab_metasra_not_in_direct.tsv
chip-atlas_vocab_metasra.tsv
にある Cellosaurus (CVCL) にマップされた行のうち、chip-atlas_biosample_metasra.tsv
に存在しないもの。つまり、直接 BioSample を入力した場合はマップされないが、ChIP-Atlas の cell type class への名寄せを経由するとマップされたもの。
$ awk -F "\t" -v OFS="\t" 'FNR==1{f++}f==1&&$4~/CVCL:/{a[$1,$4]=1}f==2{b[$1]=$2}f==3&&$4~/CVCL:/&&!a[b[$1],$4]{print $0, b[$1]}' chip-atlas_biosample_metasra.tsv chip-atlas_srx_biosample.tsv chip-atlas_vocab_metasra.tsv > chip-atlas_vocab_metasra_not_in_direct.tsv
column | example | description |
---|---|---|
1 | SRX3751779 | 入力の ID |
2 | cell_type | 入力の属性の key |
3 | 1765-92 | 入力の属性の value |
4 | CVCL:S817 | マップされたオントロジータームの ID |
5 | 1765-92 | マップされたオントロジータームのラベル |
6 | False | Consequent か |
7 | True | 全長マッチか |
8 | True | 完全マッチか |
9 | TERM_NAME | 何にマッチしたか (label か synonym か) |
マップされなかった属性は 4 列目以降が空。