融合遺伝子検出ツール EricScript

EricScript で融合遺伝子検出

ペアエンドの RNA-seq データから融合遺伝子を検出する.

Fastq ファイルを入力として、pre build のリファレンスにマッピングしていく.

すべての予測された融合遺伝子検出結果(~.results.total.tsv)と
独自のスコアによりフィルタリングした結果(~.results.filtered.tsv)が出力される.

とりあえず実行

ericscript.pl -db /PATH/TO/DB_LOCATION -name SAMPLENAME -o /PATH/TO/OUTPUT HOGE_1.fastq HOGE_2.fastq

-db : マッピングに用いるリファレンスを指定する.
-name : (省略化) result に名前をつけたい場合は指定する.
指定しない場合は「MyEric.results.~.tsv」となる.
-o : (省略化) results アウトプットディレクトリ名(パス).
指定しない場合は「MyEric」というディレクトリがカレントディレクトリに新たに作成
その「MyEric」以下にリザルトが出力される.

リファレンスのダウンロード

以下のように実行すれば、リファレンスがダウンロードできるそうなのだが、

ericscript.pl --downdb --refid homo_sapiens -db /PATH/TO/DB_LOCATION

うまくいかないので、

EricScriptのリファレンスゲノムのダウンロードのページから直接ダウンロードするか
以下のようにcurlでダウンロードする.
以下 hg19/ensembl73 の例

FILE_ID=0B9s__vuJPvIibDRIb0RFdHFlQmM
FILE_NAME=ericscript_db_homosapiens_ensembl73.tar.bz2
curl -sc /tmp/cookie "https://drive.google.com/uc?export=download&id=${FILE_ID}" > /dev/null
CODE="$(awk '/_warning_/ {print $NF}' /tmp/cookie)"  
curl -Lb /tmp/cookie "https://drive.google.com/uc?export=download&confirm=${CODE}&id=${FILE_ID}" -o ${FILE_NAME}

ダウンロードしてきたファイルを解凍して -db で指定する.

Requirement

以下のソフトウェアに依存しているため、
実行する前にあらかじめインストールしておく.

• Download and install R
• Download and install the "ada" R package
• Download and install BWA
• Download and install SAMtools
• Download and install Bedtools
• Download and install seqtk
• Download and install BLAT binaries

SAMTools はバージョン 0.1.19 を要求されるので要注意.

その他、以下を参照

  1. インストール、リファレンスゲノムパッケージダウンロード手順等 https://sites.google.com/site/bioericscript/getting-started
  2. トランスクリプトームリファレンスゲノムのダウンロード等
    https://sites.google.com/site/bioericscript/download
  3. 要求ソフトウェア一覧(あらかじめインストールしておいてください)
    https://sites.google.com/site/bioericscript/requirements
~/ericscript-0.5.5$ ./ericscript.pl ./lib/demo/myreads_1.fq.gz ./lib/demo/myreads_2.fq.gz -o ./result

[EricScript] Starting EricScript analysis for sample MyEric.
[EricScript] Aligning with bwa ...done. 
[EricScript] Extracting discordant alignments ... done. 
[EricScript] Building exon junction reference ... done. 
[EricScript] Aligning to exon junction reference ... done. 
[EricScript] Recalibrating junctions ... done. 
[EricScript] Aligning to recalibrated junction reference ... done. 
[EricScript] Scoring candidate fusions ...done. 
[EricScript] Filtering candidate fusions ...done. 
[EricScript] Writing results ... done. 
[EricScript] Open ~/MyEric.results* to view the results of EricScript analysis.
~/ericscript-0.5.5$ 
~/ericscript-0.5.5$ ls
LICENSE     README      ericscript.pl   lib     result
~/ericscript-0.5.5$ ls result/
MyEric.Summary.RData        MyEric.results.filtered.tsv MyEric.results.total.tsv    aln             out

と実行できたようです。

実行結果

上でも書きましたが、
すべての予測された融合遺伝子検出結果(~.results.total.tsv)と
独自のスコアによりフィルタリングした結果(~.results.filtered.tsv)が出力される.