前面三节,我们得到了Trinity拼接的Fasta 文件(Trinity.fasta)以及通过Bowtie2将Fastq中的Reads进行回贴到Trinity.fasta文件的sam文件。
接下来的两节中我们将采RESM(依赖于比对的定量工具)以及Salmon(不依赖于定量的工具)进行Trinity中的转录本丰度定量。
我们采用的是Trinity自带的脚本进行定量计算。以前的版本可调用bowtie2比对好的bam文件,但是现在这个版本似乎不行了。所以我们只有重新做一次bowtie2比对。
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly$ l
B251_1.P.fq.gz R251_1.P.fq.gz RESMest.sh W251_1.P.fq.gz samples.txt
B251_2.P.fq.gz R251_2.P.fq.gz RSEMout/ W251_2.P.fq.gz trinitassembly.sh
B252_1.P.fq.gz R252_1.P.fq.gz Salmonest.sh W252_1.P.fq.gz trinity_out_dir/
B252_2.P.fq.gz R252_2.P.fq.gz Salmonout/ W252_2.P.fq.gz
#在这个文件夹中有包括cleandata数据、样品信息(sample.txt)
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly$ cat RESMest.sh
$TRINITY_HOME/util/align_and_estimate_abundance.pl --transcripts /home/yeyt/biodata/NH160034/NH160034/cleandata/assembly/trinity_out_dir/Trinity.fasta --seqType fq --samples_file /home/yeyt/biodata/NH160034/NH160034/cleandata/assembly/samples.txt --est_method RSEM --aln_method bowtie2 --trinity_mode --prep_reference --output_dir RSEMResult --thread_count 12
脚本运行就好了,但是时间很长我们就不用等了,最后会形成6个文件夹。需要讲解的是脚本中的参数
$TRINITY_HOME/util/align_and_estimate_abundance.pl \ #指明调用的脚本
--transcripts /home/yeyt/biodata/NH160034/NH160034/cleandata/assembly/trinity_out_dir/Trinity.fasta \ #读取之前Trinity拼接的转录本
--seqType fq \ #读取的原始数据的数据类型是fastq
--samples_file /home/yeyt/biodata/NH160034/NH160034/cleandata/assembly/samples.txt \ #读取样品信息
--est_method RSEM \ #进行表达量计算的软件是RSEM
--aln_method bowtie2 \ #由于RSEM是通过比对进行的表达量计算,因此会采用的bowtie2进行比对
--trinity_mode \ #这个加上会采用Trinitymode以调用前期assembly过程中的一个gene_trans_map文件
--prep_reference \ #会根据拼接的fasta文件构建index
--output_dir RSEMResult \#输出文件夹,但这个由于会采用读取样品信息,因此会输入到样品信息的文件夹
--thread_count 12 #这个选项控制系统耗用的CPU线程数
大概每个样品的运算时间是6h最后结果手动整理放到了RSEMout这个文件夹中
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/RSEMout$ tree .
.
├── B251
│ ├── bowtie2.bam
│ ├── bowtie2.bam.for_rsem.bam
│ ├── bowtie2.bam.ok
│ ├── RSEM.genes.results
│ ├── RSEM.isoforms.results
│ ├── RSEM.isoforms.results.ok
│ └── RSEM.stat
│ ├── RSEM.cnt
│ ├── RSEM.model
│ └── RSEM.theta
├── B252
│ ├── bowtie2.bam
│ ├── bowtie2.bam.for_rsem.bam
│ ├── bowtie2.bam.ok
│ ├── RSEM.genes.results
│ ├── RSEM.isoforms.results
│ ├── RSEM.isoforms.results.ok
│ └── RSEM.stat
│ ├── RSEM.cnt
│ ├── RSEM.model
│ └── RSEM.theta
├── quant.file
├── R251
│ ├── bowtie2.bam
│ ├── bowtie2.bam.for_rsem.bam
│ ├── bowtie2.bam.ok
│ ├── RSEM.genes.results
│ ├── RSEM.isoforms.results
│ ├── RSEM.isoforms.results.ok
│ └── RSEM.stat
│ ├── RSEM.cnt
│ ├── RSEM.model
│ └── RSEM.theta
├── R252
│ ├── bowtie2.bam
│ ├── bowtie2.bam.for_rsem.bam
│ ├── bowtie2.bam.ok
│ ├── RSEM.genes.results
│ ├── RSEM.isoforms.results
│ ├── RSEM.isoforms.results.ok
│ └── RSEM.stat
│ ├── RSEM.cnt
│ ├── RSEM.model
│ └── RSEM.theta
├── RSEM.gene.counts.matrix
├── RSEM.gene.TMM.EXPR.matrix
├── RSEM.gene.TPM.not_cross_norm
├── RSEM.gene.TPM.not_cross_norm.runTMM.R
├── RSEM.gene.TPM.not_cross_norm.TMM_info.txt
├── RSEM.isoform.counts.matrix
├── RSEM.isoform.TMM.EXPR.matrix
├── RSEM.isoform.TPM.not_cross_norm
├── RSEM.isoform.TPM.not_cross_norm.runTMM.R
├── RSEM.isoform.TPM.not_cross_norm.TMM_info.txt
├── RSEMmatrix.sh
├── W251
│ ├── bowtie2.bam
│ ├── bowtie2.bam.for_rsem.bam
│ ├── bowtie2.bam.ok
│ ├── RSEM.genes.results
│ ├── RSEM.isoforms.results
│ ├── RSEM.isoforms.results.ok
│ └── RSEM.stat
│ ├── RSEM.cnt
│ ├── RSEM.model
│ └── RSEM.theta
└── W252
├── bowtie2.bam
├── bowtie2.bam.for_rsem.bam
├── bowtie2.bam.ok
├── RSEM.genes.results
├── RSEM.isoforms.results
├── RSEM.isoforms.results.ok
└── RSEM.stat
├── RSEM.cnt
├── RSEM.model
└── RSEM.theta
12 directories, 66 files
这个文件夹中可以看到,很多bam文件,这些文件都是bowtie2产生的,并且会形成基于基因的EM Reads Counts 和基于转录本的EM Reads Counts
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/RSEMout$ tree B251
B251
├── bowtie2.bam #bowtie2 生成的 bam文件
├── bowtie2.bam.for_rsem.bam #用于RSEM计算的 bam文件
├── bowtie2.bam.ok
├── RSEM.genes.results #基于基因的EM Reads Count
├── RSEM.isoforms.results #基于转录本的 EM Reads Count
├── RSEM.isoforms.results.ok
└── RSEM.stat
├── RSEM.cnt
├── RSEM.model
└── RSEM.theta
1 directory, 9 files
后期主要会使用的是两个results文件
由于我们在每一个文件夹中的Reads count 没有经样本间的均一化,因此需要做一个样本均一化,构建转录本-基因表达矩阵并得到不同样本中的均一化表达数据TMM是后期要做的一个工作。我们采用以下的矩阵的到了三个结果
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/RSEMout$ find * -name '*.isoforms.results'> quant.file
#这个地方,我们采用了find命令将子文件夹中的isoform基因表达量结果全部查找出来然后路径放到一个文件中(quant.file)后期要使用
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/RSEMout$ cat quant.file
B251/RSEM.isoforms.results
B252/RSEM.isoforms.results
R251/RSEM.isoforms.results
R252/RSEM.isoforms.results
W251/RSEM.isoforms.results
W252/RSEM.isoforms.results
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/RSEMout$ cat RSEMmatrix.sh
$TRINITY_HOME/util/abundance_estimates_to_matrix.pl --est_method RSEM --gene_trans_map ../trinity_out_dir/Trinity.fasta.gene_trans_map --name_sample_by_basedir --quant_files quant.file
在此需要注释一下这个sh脚本
$TRINITY_HOME/util/abundance_estimates_to_matrix.pl \ #采用的脚本
--est_method RSEM \ #由于是对RSEM的结果进行矩阵构建,因此需要说明这个
--gene_trans_map ../trinity_out_dir/Trinity.fasta.gene_trans_map \ #通过这个map构建基因的表达量矩阵
--name_sample_by_basedir \ #这个必须要选,不然会导致程序没办法合并之前的结果进行计算
--quant_files quant.file \ #这个指明需要的上游文件的位置
经过计算后得到的结果如下:
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/RSEMout$ ll | sort -nk 7
total 53172
drwxrwxr-x 3 yeyt yeyt 12288 Sep 25 02:06 B251/
drwxrwxr-x 3 yeyt yeyt 12288 Sep 25 07:39 B252/
drwxrwxr-x 3 yeyt yeyt 12288 Sep 25 13:25 R251/
drwxrwxr-x 3 yeyt yeyt 12288 Sep 25 19:01 R252/
-rw-rw-r-- 1 yeyt yeyt 185 Sep 26 14:23 RSEMmatrix.sh
-rw-rw-r-- 1 yeyt yeyt 318 Sep 26 14:24 RSEM.isoform.TPM.not_cross_norm.TMM_info.txt
-rw-rw-r-- 1 yeyt yeyt 318 Sep 26 14:25 RSEM.gene.TPM.not_cross_norm.TMM_info.txt
-rw-rw-r-- 1 yeyt yeyt 518 Sep 26 14:24 RSEM.gene.TPM.not_cross_norm.runTMM.R
-rw-rw-r-- 1 yeyt yeyt 524 Sep 26 14:24 RSEM.isoform.TPM.not_cross_norm.runTMM.R
-rw-rw-r-- 1 yeyt yeyt 5013571 Sep 26 14:24 RSEM.gene.TPM.not_cross_norm
-rw-rw-r-- 1 yeyt yeyt 6145228 Sep 26 14:24 RSEM.gene.counts.matrix
-rw-rw-r-- 1 yeyt yeyt 6487281 Sep 26 14:25 RSEM.gene.TMM.EXPR.matrix
-rw-rw-r-- 1 yeyt yeyt 10591810 Sep 26 14:24 RSEM.isoform.TPM.not_cross_norm
-rw-rw-r-- 1 yeyt yeyt 12620783 Sep 26 14:24 RSEM.isoform.counts.matrix
-rw-rw-r-- 1 yeyt yeyt 13469797 Sep 26 14:24 RSEM.isoform.TMM.EXPR.matrix
drwxrwxr-x 3 yeyt yeyt 12288 Sep 26 01:01 W251/
drwxrwxr-x 3 yeyt yeyt 12288 Sep 26 06:52 W252/
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:07 ../
drwxrwxr-x 8 yeyt yeyt 4096 Sep 26 14:25 ./
-rw-rw-r-- 1 yeyt yeyt 162 Sep 28 00:52 quant.file
以上结果中分为基因的表达矩阵和转录本的表达矩阵。
1. '.counts.matrix' 文件用于后期的差异表达分析
2. '.TMM.EXPR.matrix'文件可以用于其他基因表达的分析
另外一个软件Salmon的使用的脚本是
首先还是先及进行表达量的分析(这个软件就很快了)
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly$ cat Salmonest.sh
$TRINITY_HOME/util/align_and_estimate_abundance.pl \
--transcripts /home/yeyt/biodata/NH160034/NH160034/cleandata/assembly/trinity_out_dir/Trinity.fasta \
--seqType fq \
--samples_file /home/yeyt/biodata/NH160034/NH160034/cleandata/assembly/samples.txt \
--est_method salmon \ #和前面的RSEM方式不同的 就是在于不用指定是使用bowtie2来进行
--trinity_mode \
--prep_reference \
--output_dir RSEMResult \
--thread_count 12 \
运行后的得到的结果是这样的 :
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/Salmonout$ ll
total 59900
drwxrwxr-x 8 yeyt yeyt 4096 Sep 26 14:16 ./
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:07 ../
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:06 B251/
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:07 B252/
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:06 R251/
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:07 R252/
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:06 W251/
drwxrwxr-x 5 yeyt yeyt 4096 Sep 26 13:07 W252/
-rw-rw-r-- 1 yeyt yeyt 84 Sep 26 14:08 quant.file
-rw-rw-r-- 1 yeyt yeyt 6496600 Sep 26 14:16 salmon.gene.TMM.EXPR.matrix
-rw-rw-r-- 1 yeyt yeyt 7018952 Sep 26 14:16 salmon.gene.TPM.not_cross_norm
-rw-rw-r-- 1 yeyt yeyt 319 Sep 26 14:16 salmon.gene.TPM.not_cross_norm.TMM_info.txt
-rw-rw-r-- 1 yeyt yeyt 522 Sep 26 14:16 salmon.gene.TPM.not_cross_norm.runTMM.R
-rw-rw-r-- 1 yeyt yeyt 6224935 Sep 26 14:16 salmon.gene.counts.matrix
-rw-rw-r-- 1 yeyt yeyt 13486392 Sep 26 14:16 salmon.isoform.TMM.EXPR.matrix
-rw-rw-r-- 1 yeyt yeyt 14102405 Sep 26 14:16 salmon.isoform.TPM.not_cross_norm
-rw-rw-r-- 1 yeyt yeyt 318 Sep 26 14:16 salmon.isoform.TPM.not_cross_norm.TMM_info.txt
-rw-rw-r-- 1 yeyt yeyt 528 Sep 26 14:16 salmon.isoform.TPM.not_cross_norm.runTMM.R
-rw-rw-r-- 1 yeyt yeyt 13941136 Sep 26 14:16 salmon.isoform.counts.matrix
-rw-rw-r-- 1 yeyt yeyt 211 Sep 26 14:16 salmonmatrix.sh
同样的,对基因表达的矩阵进行计算后的得到了后面那几个文件,再次不再赘述仅仅将相关的脚本放出来
yeyt@ubuntu:~/biodata/NH160034/NH160034/cleandata/assembly/Salmonout$ cat salmonmatrix.sh
/home/yeyt/biosoft/trinityrnaseq-Trinity-v2.8.3/util/abundance_estimates_to_matrix.pl --est_method salmon --gene ../trinity_out_dir/Trinity.fasta.gene_trans_map --name_sample_by_basedir --quant_files quant.file
接下来,我们要基于表达量对我们的得到的拼接序列进行一个过滤
首先先基于表达量看看我们的转录本的表达量分布情况
yeyuntian@yeyuntian-rescuer-r720-15ikbn:~/trinitytest/downstr/RSEMout/RSEMout$ $TRINITY_HOME/util/misc/count_matrix_features_given_MIN_TPM_threshold.pl RSEM.gene.TPM.not_cross_norm | tee RSEM.gene.TPM.not_cross_norm.counts_by_min_TPM
neg_min_tpm num_features
-27426 1
-26974 2
-14158 3
-13685 4
-13426 5
-10404 6
-10066 7
-9661 8
-9439 9
-8546 10
-8136 11
-7799 12
-6143 13
-5960 14
-5932 15
-5657 16
-5293 17
-4380 18
-3937 19
-3734 20
-3654 21
-3614 22
-3611 23
-3541 24
-3502 25
-3472 27
-3400 28
-3365 29
-3215 30
-3152 31
-2941 32
-2921 33
-2827 34
-2725 35
-2671 36
-2665 37
-2554 38
-2504 39
-2495 40
-2461 41
-2458 42
-2453 43
-2446 44
-2415 45
-2382 46
-2381 47
-2327 48
-2210 49
-2164 50
-2108 51
-2099 52
-2093 53
-2050 54
-2006 55
-2000 56
-1967 57
-1955 58
-1950 59
-1930 60
-1926 61
-1905 62
-1904 63
-1879 64
-1872 65
-1856 66
-1845 67
-1788 68
-1770 69
-1741 70
-1739 71
-1738 72
-1688 73
-1677 74
-1665 75
-1657 76
-1651 77
-1646 78
-1643 79
-1629 80
-1628 81
-1607 82
-1596 83
-1559 84
-1555 85
-1528 86
-1527 87
-1516 88
-1492 89
-1491 90
-1486 91
-1471 92
-1470 93
-1460 94
-1452 95
-1436 96
-1429 97
-1410 98
-1406 99
-1378 100
-1375 101
-1360 102
-1357 103
-1356 104
-1344 105
-1331 106
-1325 107
-1294 108
-1252 109
-1251 110
-1231 111
-1224 112
-1222 113
-1216 114
-1201 115
-1165 116
-1158 117
-1130 118
-1128 119
-1118 120
-1110 121
-1105 122
-1101 123
-1095 124
-1090 125
-1083 126
-1082 127
-1069 128
-1068 129
-1061 130
-1059 131
-1058 132
-1053 133
-1051 134
-1046 135
-1044 136
-1041 137
-1035 138
-1028 139
-1007 140
-1006 141
-1000 142
-999 143
-992 144
-990 145
-989 146
-976 147
-966 149
-960 150
-950 151
-948 152
-940 153
-934 154
-923 156
-922 158
-921 159
-919 160
-906 161
-905 162
-896 163
-893 164
-886 165
-882 166
-881 167
-876 168
-874 169
-870 170
-865 171
-863 173
-862 174
-849 175
-847 176
-841 178
-833 179
-824 180
-822 181
-813 182
-808 183
-807 184
-806 185
-802 186
-800 187
-793 188
-788 190
-787 191
-783 193
-779 194
-777 195
-776 196
-773 197
-762 198
-756 199
-745 200
-742 201
-741 202
-739 203
-735 204
-732 205
-731 206
-726 207
-724 208
-722 210
-719 211
-717 215
-715 216
-714 217
-713 218
-706 219
-703 221
-697 223
-696 224
-690 225
-689 226
-685 227
-684 228
-683 229
-682 230
-680 231
-675 232
-673 233
-671 234
-670 235
-669 236
-668 237
-667 239
-666 240
-665 241
-664 243
-661 244
-650 246
-648 247
-646 248
-642 250
-641 251
-634 252
-633 254
-632 256
-626 257
-625 258
-618 259
-616 261
-614 262
-613 263
-612 265
-610 266
-609 267
-608 268
-607 272
-602 273
-601 275
-600 276
-598 277
-597 280
-596 283
-594 284
-587 285
-585 287
-583 289
-581 291
-580 292
-579 293
-577 294
-576 295
-572 297
-571 298
-566 299
-564 301
-556 303
-553 304
-551 306
-550 308
-545 309
-544 312
-543 314
-540 316
-539 317
-538 318
-537 320
-536 322
-535 323
-534 324
-531 326
-530 328
-527 329
-525 331
-523 332
-521 333
-519 336
-518 337
-517 338
-516 340
-515 341
-514 343
-513 344
-511 347
-510 348
-509 349
-508 351
-506 353
-503 355
-502 356
-501 357
-494 358
-492 360
-489 361
-487 362
-486 363
-485 364
-484 365
-483 366
-482 367
-481 368
-478 370
-477 372
-476 375
-475 379
-469 380
-468 382
-466 384
-464 385
-463 387
-462 388
-461 389
-460 390
-459 393
-456 395
-455 396
-451 397
-450 398
-448 401
-447 403
-446 405
-445 406
-444 407
-443 409
-442 414
-441 415
-440 416
-439 417
-437 419
-436 420
-435 421
-432 422
-431 423
-430 425
-429 426
-428 427
-427 428
-426 429
-425 430
-423 435
-422 438
-421 439
-420 440
-419 442
-417 443
-416 444
-413 446
-412 448
-411 449
-406 452
-405 454
-404 456
-403 458
-402 460
-401 461
-400 462
-398 465
-397 468
-394 472
-393 473
-392 475
-391 476
-389 478
-388 480
-386 481
-382 483
-381 485
-379 488
-378 489
-377 490
-376 491
-375 492
-374 494
-373 496
-370 498
-369 500
-368 501
-367 502
-366 503
-364 505
-363 506
-361 507
-360 510
-359 513
-358 516
-356 517
-354 520
-353 524
-352 527
-351 529
-350 530
-349 531
-348 534
-347 536
-344 537
-343 542
-342 543
-340 545
-339 547
-338 550
-337 551
-336 553
-335 555
-334 557
-332 559
-331 561
-330 563
-329 565
-328 568
-327 569
-326 571
-325 572
-324 573
-323 575
-322 576
-321 580
-320 583
-319 587
-318 590
-317 594
-316 596
-315 601
-314 602
-313 605
-312 609
-311 611
-310 613
-309 615
-308 619
-307 621
-305 624
-304 625
-303 630
-302 635
-301 637
-298 638
-297 640
-296 643
-294 646
-292 647
-291 648
-290 650
-289 655
-288 656
-287 657
-286 659
-285 663
-284 665
-283 667
-282 669
-281 670
-279 673
-278 674
-277 675
-276 676
-274 680
-273 682
-272 684
-271 685
-270 687
-269 692
-268 693
-267 696
-266 698
-265 703
-264 705
-263 706
-262 708
-261 712
-260 714
-259 716
-258 718
-257 721
-256 722
-255 725
-253 730
-252 733
-251 735
-250 737
-249 745
-248 749
-247 751
-246 757
-245 759
-244 761
-243 766
-242 770
-241 772
-240 775
-239 778
-238 784
-237 786
-236 789
-235 793
-234 795
-233 799
-232 801
-231 809
-230 812
-229 815
-227 819
-226 822
-225 824
-224 827
-223 828
-222 831
-221 834
-220 838
-219 845
-218 850
-217 860
-216 861
-215 867
-214 874
-213 879
-212 883
-211 890
-210 893
-209 900
-208 902
-207 906
-206 915
-205 922
-204 926
-203 930
-202 939
-201 946
-200 951
-199 955
-198 963
-197 975
-196 979
-195 985
-194 989
-193 996
-192 1002
-191 1009
-190 1011
-189 1017
-188 1023
-187 1032
-186 1036
-185 1045
-184 1051
-183 1057
-182 1062
-181 1068
-180 1080
-179 1089
-178 1097
-177 1106
-176 1108
-175 1111
-174 1118
-173 1122
-172 1130
-171 1135
-170 1139
-169 1147
-168 1155
-167 1162
-166 1171
-165 1177
-164 1190
-163 1199
-162 1207
-161 1219
-160 1231
-159 1235
-158 1240
-157 1251
-156 1259
-155 1262
-154 1269
-153 1278
-152 1283
-151 1292
-150 1303
-149 1312
-148 1322
-147 1329
-146 1338
-145 1346
-144 1356
-143 1363
-142 1370
-141 1376
-140 1390
-139 1399
-138 1417
-137 1431
-136 1435
-135 1444
-134 1450
-133 1463
-132 1475
-131 1486
-130 1502
-129 1513
-128 1522
-127 1537
-126 1552
-125 1569
-124 1578
-123 1596
-122 1607
-121 1620
-120 1642
-119 1651
-118 1665
-117 1679
-116 1697
-115 1715
-114 1734
-113 1749
-112 1768
-111 1778
-110 1795
-109 1810
-108 1824
-107 1836
-106 1853
-105 1869
-104 1887
-103 1911
-102 1934
-101 1954
-100 1973
-99 1993
-98 2011
-97 2037
-96 2066
-95 2081
-94 2096
-93 2117
-92 2147
-91 2160
-90 2189
-89 2212
-88 2234
-87 2250
-86 2272
-85 2288
-84 2325
-83 2351
-82 2389
-81 2414
-80 2442
-79 2472
-78 2499
-77 2533
-76 2570
-75 2607
-74 2635
-73 2669
-72 2694
-71 2721
-70 2764
-69 2801
-68 2847
-67 2883
-66 2920
-65 2951
-64 2987
-63 3043
-62 3089
-61 3140
-60 3193
-59 3242
-58 3301
-57 3357
-56 3416
-55 3465
-54 3526
-53 3586
-52 3662
-51 3738
-50 3803
-49 3869
-48 3937
-47 4017
-46 4097
-45 4174
-44 4265
-43 4354
-42 4444
-41 4528
-40 4633
-39 4720
-38 4839
-37 4964
-36 5097
-35 5227
-34 5366
-33 5501
-32 5661
-31 5827
-30 6002
-29 6166
-28 6349
-27 6550
-26 6737
-25 6960
-24 7188
-23 7402
-22 7668
-21 7936
-20 8207
-19 8519
-18 8853
-17 9223
-16 9606
-15 10071
-14 10494
-13 11018
-12 11582
-11 12174
-10 12908
-9 13802
-8 14803
-7 16084
-6 17885
-5 20261
-4 23909
-3 29828
-2 40194
-1 62919
0 110851
#这个是按照基因表达量进行的排序
yeyuntian@yeyuntian-rescuer-r720-15ikbn:~/trinitytest/downstr/RSEMout/RSEMout$ $TRINITY_HOME/util/misc/count_matrix_features_given_MIN_TPM_threshold.pl RSEM.isoform.TPM.not_cross_norm | tee RSEM.isoform.TPM.not_cross_norm.counts_by_min_TPM
neg_min_tpm num_features
-26984 1
-26974 2
-13426 3
-9538 4
-9439 5
-8546 6
-7799 7
-7797 8
-7304 9
-5932 10
-5414 11
-5104 12
-4758 13
-4020 14
-3811 15
-3740 16
-3647 17
-3611 18
-3400 19
-3304 20
-3294 21
-2863 22
-2725 23
-2586 24
-2580 25
-2554 26
-2502 27
-2486 28
-2426 29
-2386 30
-2381 31
-2327 32
-2297 33
-2286 34
-2220 35
-2174 36
-2057 37
-1967 38
-1895 39
-1872 40
-1862 41
-1806 42
-1779 43
-1758 44
-1740 45
-1738 46
-1723 47
-1701 48
-1686 49
-1683 50
-1666 51
-1665 52
-1654 53
-1648 54
-1633 55
-1620 56
-1605 57
-1601 58
-1586 59
-1582 61
-1559 62
-1537 63
-1519 64
-1483 65
-1470 66
-1467 67
-1452 68
-1445 69
-1444 70
-1440 71
-1428 72
-1412 73
-1406 74
-1400 75
-1378 76
-1375 77
-1370 78
-1350 79
-1298 80
-1287 81
-1258 82
-1252 83
-1232 84
-1228 85
-1224 86
-1218 87
-1201 88
-1197 89
-1185 90
-1172 91
-1165 92
-1145 93
-1143 94
-1136 95
-1127 96
-1107 97
-1100 98
-1098 100
-1095 101
-1091 102
-1061 103
-1059 104
-1043 105
-1041 106
-1034 107
-1023 108
-1009 109
-996 110
-995 111
-989 112
-986 113
-974 115
-962 116
-956 117
-934 118
-923 119
-921 120
-920 121
-917 123
-915 124
-913 125
-901 126
-898 127
-876 128
-873 129
-869 130
-865 131
-862 132
-852 133
-847 134
-833 135
-821 136
-816 137
-814 138
-813 139
-791 140
-788 141
-782 143
-779 145
-773 148
-767 149
-762 150
-758 151
-754 152
-750 153
-747 154
-744 155
-742 156
-740 157
-739 158
-738 159
-735 161
-732 162
-731 163
-726 164
-722 165
-717 167
-712 168
-710 169
-708 170
-706 171
-705 172
-702 173
-697 175
-690 176
-688 177
-685 178
-682 179
-680 181
-678 182
-677 183
-674 184
-667 185
-660 187
-659 188
-655 189
-648 191
-644 192
-642 193
-641 194
-636 195
-635 197
-634 198
-633 199
-630 200
-628 201
-627 202
-626 203
-618 205
-612 206
-606 207
-603 209
-602 210
-601 211
-600 213
-598 214
-597 218
-594 221
-593 222
-589 223
-588 224
-587 226
-586 228
-584 229
-583 231
-582 232
-581 233
-576 234
-572 236
-570 237
-566 238
-561 239
-558 240
-556 242
-555 243
-553 244
-552 247
-546 248
-544 250
-542 251
-541 252
-540 253
-539 254
-537 256
-536 257
-532 258
-530 259
-527 260
-525 261
-524 262
-523 263
-520 266
-519 267
-517 268
-516 269
-515 270
-514 271
-511 272
-510 273
-509 274
-508 275
-506 276
-505 277
-503 278
-500 279
-498 280
-494 281
-492 283
-489 284
-487 286
-485 287
-479 288
-476 290
-475 291
-474 292
-472 294
-471 295
-464 296
-462 297
-459 299
-458 300
-457 302
-452 303
-450 304
-448 305
-447 307
-446 309
-445 310
-444 312
-443 313
-441 315
-440 316
-439 318
-438 319
-437 320
-436 322
-435 324
-434 325
-432 326
-431 328
-430 329
-428 330
-426 332
-425 333
-424 335
-423 336
-422 337
-420 339
-419 340
-418 341
-415 344
-414 346
-412 348
-411 350
-406 352
-405 354
-403 357
-401 359
-399 362
-398 365
-397 366
-396 370
-394 371
-393 372
-392 373
-391 374
-390 375
-389 377
-388 378
-387 380
-386 382
-385 383
-384 384
-382 385
-381 386
-380 389
-378 390
-376 391
-375 394
-374 396
-371 398
-369 399
-368 401
-367 402
-364 404
-363 407
-362 408
-360 409
-359 411
-358 413
-357 414
-355 416
-354 417
-353 420
-352 423
-351 425
-350 426
-347 427
-346 429
-345 435
-344 437
-343 438
-342 440
-339 441
-338 442
-337 444
-336 445
-335 448
-334 450
-333 452
-332 453
-331 455
-330 459
-329 461
-328 462
-327 465
-325 467
-324 468
-323 472
-322 474
-321 479
-320 480
-319 482
-318 485
-317 487
-316 491
-315 492
-314 494
-313 495
-312 497
-311 499
-310 502
-309 504
-308 506
-307 509
-305 512
-304 516
-302 517
-300 519
-299 521
-297 525
-296 528
-295 530
-294 533
-293 536
-292 537
-291 538
-290 542
-289 543
-288 544
-286 546
-285 549
-284 553
-283 554
-282 558
-281 560
-279 561
-278 562
-277 566
-276 567
-275 571
-274 575
-273 580
-272 583
-270 587
-269 590
-268 594
-267 599
-266 603
-265 607
-264 609
-263 611
-262 613
-261 622
-260 623
-259 627
-258 633
-257 635
-256 638
-255 639
-254 642
-253 647
-252 648
-251 652
-250 653
-249 657
-248 661
-247 667
-246 669
-245 671
-244 675
-243 678
-242 681
-241 684
-240 687
-239 688
-238 690
-237 694
-236 695
-235 698
-233 702
-232 706
-231 708
-230 709
-229 713
-228 716
-227 719
-226 726
-225 731
-224 739
-223 741
-222 744
-221 748
-220 750
-219 754
-218 756
-217 758
-216 760
-215 768
-214 773
-213 778
-212 784
-211 788
-210 792
-209 794
-208 799
-207 802
-206 808
-205 813
-204 815
-203 819
-202 822
-201 825
-200 828
-199 832
-198 836
-197 844
-196 848
-195 852
-194 854
-193 861
-192 866
-191 871
-190 877
-189 883
-188 887
-187 896
-186 899
-185 904
-184 914
-183 918
-182 923
-181 929
-180 938
-179 945
-178 952
-177 957
-176 961
-175 966
-174 971
-173 977
-172 986
-171 992
-170 1001
-169 1010
-168 1015
-167 1017
-166 1025
-165 1033
-164 1042
-163 1047
-162 1057
-161 1072
-160 1080
-159 1090
-158 1094
-157 1107
-156 1116
-155 1123
-154 1135
-153 1141
-152 1151
-151 1158
-150 1169
-149 1179
-148 1192
-147 1201
-146 1208
-145 1218
-144 1223
-143 1231
-142 1239
-141 1249
-140 1262
-139 1269
-138 1281
-137 1289
-136 1303
-135 1310
-134 1318
-133 1330
-132 1339
-131 1349
-130 1358
-129 1369
-128 1376
-127 1386
-126 1402
-125 1409
-124 1421
-123 1435
-122 1448
-121 1466
-120 1483
-119 1494
-118 1506
-117 1520
-116 1535
-115 1560
-114 1577
-113 1587
-112 1602
-111 1619
-110 1629
-109 1642
-108 1661
-107 1685
-106 1703
-105 1726
-104 1744
-103 1760
-102 1777
-101 1800
-100 1820
-99 1843
-98 1858
-97 1880
-96 1909
-95 1927
-94 1956
-93 1986
-92 2009
-91 2029
-90 2057
-89 2086
-88 2114
-87 2147
-86 2168
-85 2188
-84 2219
-83 2249
-82 2289
-81 2316
-80 2351
-79 2384
-78 2412
-77 2454
-76 2514
-75 2543
-74 2577
-73 2613
-72 2653
-71 2691
-70 2728
-69 2769
-68 2818
-67 2862
-66 2900
-65 2942
-64 2989
-63 3039
-62 3086
-61 3136
-60 3200
-59 3267
-58 3327
-57 3387
-56 3448
-55 3509
-54 3567
-53 3655
-52 3737
-51 3810
-50 3885
-49 3959
-48 4056
-47 4129
-46 4225
-45 4323
-44 4406
-43 4500
-42 4624
-41 4735
-40 4834
-39 4967
-38 5076
-37 5212
-36 5374
-35 5534
-34 5709
-33 5865
-32 6056
-31 6270
-30 6478
-29 6694
-28 6947
-27 7184
-26 7454
-25 7761
-24 8082
-23 8432
-22 8857
-21 9265
-20 9696
-19 10217
-18 10769
-17 11369
-16 12013
-15 12800
-14 13703
-13 14699
-12 15829
-11 17109
-10 18613
-9 20462
-8 22625
-7 25440
-6 28995
-5 33821
-4 40800
-3 51525
-2 70197
-1 111461
0 220498
#这个是按照转录本的表达量进行的排序
接下来我们就将对转录本进行过滤
yeyuntian@yeyuntian-rescuer-r720-15ikbn:~/trinitytest/downstr/RSEMout/RSEMout$ $TRINITY_HOME/util/filter_low_expr_transcripts.pl --matrix RSEM.isoform.TMM.EXPR.matrix --transcripts ../../Trinity.fasta --min_expr_any 3 --hightest_iso_only --gene_to_trans_map ../../Trinity.fasta.gene_trans_map > Trinity.fasta.filter
......
.....
....
...
..
.
-excluding TRINITY_DN63345_c1_g1_i1, max_expr: 0.633 < 3
-excluding TRINITY_DN63317_c1_g1_i1, max_expr: 1.571 < 3
-excluding TRINITY_DN63307_c0_g1_i1, max_expr: 0.786 < 3
-excluding TRINITY_DN63307_c0_g1_i2, max_expr: 0.414 < 3
-excluding TRINITY_DN63324_c0_g1_i1, max_expr: 1.716 < 3
-excluding TRINITY_DN63282_c0_g1_i1, max_expr: 0.903 < 3
Retained 51343 / 220498 = 23.29% of total transcripts.
可以看到,这个过程中我们过滤掉了大量的转录本仅仅留下了5万左右的序列
对脚本进行一个讲解
$TRINITY_HOME/util/filter_low_expr_transcripts.pl |\
--matrix RSEM.isoform.TMM.EXPR.matrix \ #采用的脚本名称与路径
--transcripts ../../Trinity.fasta \ #需要过滤的转录本
--min_expr_any 3 \ # 设置过滤阈值
--hightest_iso_only \ #仅保留一个基因中表达量最高的那个转录本
--gene_to_trans_map ../../Trinity.fasta.gene_trans_map\ #转录本与基因的对应关系表
> Trinity.fasta.filter #输出的过滤后的fasta文件