这个学期即将结束,生统课程也将随之结束,打算将课程中的知识点整理(含用R语言完成的例题分析)发布到简书中,也算是为2018年每周至少写一篇简书助力。
想要交流大家可以在文章后面留言~或者发送消息私戳我。如有错误,务必请大家指出,也请诸位多多包涵。
另外,本系列主要参考复旦大学生物统计学课程课件及中国人民大学出版社出版的《统计学》(第六版)。
1.1 什么是生物统计学
统计是处理数据的一门科学。
统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。
Biostatistics is the application of statistics to a wide range of topics in biology. The science of biostatistics encompasses the design of biological experiments, especially in medicine and agriculture; the collection, summarisation, and analysis of data from those experiments; and the interpretation of, and inference from, the results.-- Wikipedia
统计学被应用于多个领域,当数据来源于生物学和医学的时候我们就可以使用‘生物统计学’这个术语。
生物统计学主要可以用于以下几个方面:
1、 Identify and develop treatments for disease and estimate their effects, identify risk factors for diseases.
用于筛选疾病治疗手段,鉴定疾病的风险因子
2、Design, monitor, analyze, interpret, and report results of biological studies.
分析解释生物研究的结果
3、Develop statistical methodologies to address questions arising from medical/biological data
开发统计方法来解决医学/生物学数据产生的问题
4、Provide the hypothesis on the mechanisms
为机制提供假设
众所周知,真实的数据由两部分组成:系统成分和随机成分
即:Real Data=Deterministic + Random
因此目前生物统计所面临的最大挑战就是从真实的数据中分离出Detrministic的部分,并对其进行评估、推断。
1.2 统计数据的类型
数据的来源
1、Routinely kept records 定期保存的记录
如:医院的医疗记录
2、external sources 外部来源
如:来源于公共数据库、已发表的论文等
3、Surveys 调查
如:通过问卷调查所获得的数据
4、Experiment 实验
如:通过实验所获得,比如对病人进行药效检测
数据的类型
1、 Quantitative data 数值型数据
该类型的数据用数字表示,如:高度、质量、长度等
进一步可以细分为:
Discrete 离散型数据:如患有糖尿病的病人数量
Continuous 连续型数据:如基因的表达量
2、Qualitative data 质量型数据
该类型的数据不能用数字表示,而是被分为不同的类别,如成绩等级(A/B/C/D/E/F),性别(男/女)
数据的收集
1、Observational Study 观察研究
通过直接观察主体的特征收集,未对其进行实施任何其他措施。
进一步可分(主要在流行病学中有较多的应用):
1.1 Cross-Sectional 截面调查
在相同或近似相同的时间点上收集的数据
优点:不需要进一步跟进,花费低
缺点:由于同时测量暴露和疾病状态,所以不可能确定关联的方向即不知道是否暴露在疾病之前,是否是疾病的潜在原因。
1.2 Retrospective 回顾性调查
通过回想过去所收集的数据,如当你30岁时,询问在你18岁是否得过某种疾病
优点:花费低,需要的样本量少
缺点:容易出现选择偏差
1.3 Prospective 前瞻性调查
通过跟随一群有共同特点的人来收集,如调查一群都吸烟的人之后得肺癌的情况
优点:降低选择偏差
缺点:花费大,所需的样本量大
2、Experiment 实验
通过施加某种治疗(如给药)等,观察其效应所收集的数据。
1.3 生物统计学中的几个基本概念
总体(population):包含所有研究的全部个体(数据)的集合。
样本(sample):从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。
参数(parameter):用来描述【总体】特征的概括性数字度量,是研究者想要了解的总体的某种特征值,比如总体平均数(𝛍)、总体标准差(𝞂)
统计量(statistic):用来描述【样本】特征的概括性数字度量,它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。比如样本平均数(x-bar)、样本标准差(s)。