(一)R包准备
library(BiocManager)
BiocManager::install("airway")
BiocManager::install("TCGAbiolinks")
library(airway)
library(TCGAbiolinks)
library(dplyr)
library(DT)
library(EDASeq)
(二)选择癌症类型
getGDCprojects()$project_id ###查看各个癌种的项目id,总共有70个ID值
TCGAbiolinks:::getProjectSummary("TCGA-LUAD") ###查看project中有哪些数据类型,如查询"TCGA-LUAD",有7种数据类型,case_count为病人数,file_count为对应的文件数,file_size为总文件大小,若要下载表达谱,可以设置参数data.category="Transcriptome Profiling"
(三)下载LUAD肺腺癌的转录组数据
query<-GDCquery(project="TCGA-LUAD",data.category="Transcriptome Profiling",data.type="Gene Expression Quantification",workflow.type="HTSeq - Counts") ###建立查询
samplesDown<-getResults(query,cols=c("cases")) ###查看所有样本编号
dataSmTP<-TCGAquery_SampleTypes(barcode=samplesDown,typesample="TP") ###从结果中筛选出肿瘤样本barcode:TP(primary solid tumor)
dataSmNT<-TCGAquery_SampleTypes(barcode=samplesDown,typesample="NT") ###从结果中筛选出NT(正常组织)样本的barcode:NT()
dataSmTR<-TCGAquery_SampleTypes(barcode=samplesDown,typesample="TR") ###还有2个复发的样本barcode:NR(Recurrent Solid Tumor)
queryDown<-GDCquery(project="TCGA-LUAD",data.category="Transcriptome Profiling",data.type="Gene Expression Quantification",workflow.type="HTSeq - Counts",barcode=c(dataSmTP,dataSmNT)) ###重新按照样本分组建立查询
GDCdownload(query=queryDown,files.per.chunk=6,method="api",directory="lung_cancer") ###下载查询到的数据,默认存放位置为当前工作目录下的GDCdata文件夹中
(四)数据读入与预处理
dataPrep1<-GDCprepare(query=queryDown,save=TRUE,save.filename="luad_cases.rda",directory="lung_cancer") ###读取下载的数据并将其准备到R对象中,在工作目录生成luad_case.rda文件,同时还产生Human_genes__GRCh38_p12_.rda文件(project文件)
save(dataPrep1, file="dataPrep1_LUAD_TP_TN.RData")
rm(list=ls())
load("dataPrep1_LUAD_TP_TN.RData")
dataPrep <- assay(dataPrep1)
rreference:
https://www.jianshu.com/p/3b4c07f7e5f3
https://www.jianshu.com/p/563c2f23e1ad