课程页面
右上角是我google账户名称
地址:https://www.coursera.org/specializations/genomic-data-science
这个第一个课,Data Science那边可以着重了解下,其他没什么太大的重要性。
顺便说下,coursera的课有些付费的有7天免费时限,这种需要绑定visa、借记卡信用卡什么的,或者用paypal绑定下银行卡也是可以的,就可以付费了什么的,emmm但是国内的网速你懂的,想办法解决叭🤭
Molecular Biology
生物分类领域:Bacteria Archaea Eukaryota,前两个属于Prokaryotes,最后属于Eukaryotes,主要差异在于细胞核的有无。
Draft genome:仍未结束,但覆盖了基因组的99.9%。(针对human genome)
Human Protein coding mRNA:5'→3', 分别为Cap、5' UTR、CDS、3' UTR、Poly-A tail。
Tips: 可变剪切使得不同Exons得以排列组合保留形成不同的mRNA, Exons, Introns, CDS关系如下
(参照:https://www.biostars.org/p/104870/)
Exons = gene - introns
CDS = gene - introns - UTRs
CDS = Exons - UTRs
Measurement Technology
PCR
NGS(泛指两代测序,现在已经有三代了)
Computing Technology
Computer Science: 主要应用Linux(类 unix),程式语言(Python Java C++ perl等)
Algorithms: 程序执行的理论方式,不同算法的效率不同。
1 binary digit = 1 bit = 0 or 1
1 byte = 8 bits = 0000 0000
Data Science Techonology
功效:基本上,是指如果数据集中存在真正的效应,那么你就能够检测到它的概率。因此,它取决于几个不同的东西,它取决于样本大小,两组之间的平均值有多大差异,它还取决于它们的变化程度。
三种variability:取样变异(不同的取样有不同的误差和绕均值的波动程度)、表型变异(癌症患者表型和对照患者之间关于基因组测量的变异性)、自然生物变异
P-value: 观察到一个统计量或比计算得到的统计量更极端的概率
Multiple Testing: 想象一下你要检验的两组数据,是否有显著差异,实际是不显著的,那么你测量20次的情况下,Pvalue应该是均匀分布的,因此会有一部分pvalue小于0.05,然而大部分都是大于0.05,结果你只报告了小于0.05的实验,显然是错误的,常用的两种控制这种错误的方法为:①Family wise error rate = Pr(# False Positives >= 1) ,这种是很严格的标准,表明有一个或以上的错误的概率② False discovery rate = E[# False positives/ # Total Discoveries],表明错误数占总发现数的期望比例。
Examlple:
假设10000个基因中有550个在0.05水平显著(比如是找差异表达),对于不同标准来说:
P-value < 0.05: 0.05 * 10000 = 500 ,有500个期望的假阳性数
False Discovery Rate < 0.05: 0.05 * 550 = 27.5, 同上
Family Wise Error Rate < 0.05 : 至少有一个假阳性的概率<=0.05
批次效应:技术、手段、人为等各种因素导致的,不同采集批次的样本之间的差异性。因此,采样的手段和方法十分重要。实验的设计是关键,解决的主要采样方法有,随机化、分层等。