アノテーションファイルとリファレンス配列から遺伝子領域の配列の fasta

切り出したGTFファイルとリファレンス配列から SeqKit - Ultrafast FASTA/Q kit を用いて、各遺伝子領域の配列の fasta ファイルを作成。 以下の記事を参考にさせていただきました。

kazumaxneo.hatenablog.com

以前 遺伝子アノテーションファイル(GTFファイル)から特定の遺伝子を抽出 - cabbage_taro’s blog で用いた、

$ cat gene_list_quote.txt
"EXOC1"
"NOC2L"
"BCKDK"
"NPEPPS"
"SNX5"
"DNAJC30"
"CCR2"
"AP2A1"
"LIPA"
"PNKP"

$ gzcat FANTOM_CAT.lv4_stringent.gtf.gz | grep -f .gene_list_quote.txt > sample.gtf

sample.gtf のアノテーション情報を用いて、ゲノム配列から各遺伝子の配列の fasta ファイルを取得する手順を紹介。

UCSC あたりからゲノム配列を取得する。

$ wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

つぎに、seqkit を用いて GTFファイルで指定した領域の配列を取り出す。

seqkit subseq --gtf sample.gtf hg38.fa.gz > sample.fa

デフィルトの index は gene_id なので、 gene_name にしたい場合は、 seqkit subseq --gtf <gtf> --gtf-tag "gene_name" <ref.fa> > sample2.fa でOK(?) 詳しくは、

Usage - SeqKit - Ultrafast FASTA/Q kit