アノテーションファイルとリファレンス配列から遺伝子領域の配列の fasta
切り出したGTFファイルとリファレンス配列から SeqKit - Ultrafast FASTA/Q kit を用いて、各遺伝子領域の配列の fasta ファイルを作成。 以下の記事を参考にさせていただきました。
以前 遺伝子アノテーションファイル(GTFファイル)から特定の遺伝子を抽出 - cabbage_taro’s blog で用いた、
$ cat gene_list_quote.txt "EXOC1" "NOC2L" "BCKDK" "NPEPPS" "SNX5" "DNAJC30" "CCR2" "AP2A1" "LIPA" "PNKP" $ gzcat FANTOM_CAT.lv4_stringent.gtf.gz | grep -f .gene_list_quote.txt > sample.gtf
sample.gtf のアノテーション情報を用いて、ゲノム配列から各遺伝子の配列の fasta ファイルを取得する手順を紹介。
UCSC あたりからゲノム配列を取得する。
$ wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
つぎに、seqkit を用いて GTFファイルで指定した領域の配列を取り出す。
seqkit subseq --gtf sample.gtf hg38.fa.gz > sample.fa
デフィルトの index は gene_id なので、
gene_name にしたい場合は、
seqkit subseq --gtf <gtf> --gtf-tag "gene_name" <ref.fa> > sample2.fa
でOK(?)
詳しくは、