Biostatistics(1) 导论

这个学期即将结束,生统课程也将随之结束,打算将课程中的知识点整理(含用R语言完成的例题分析)发布到简书中,也算是为2018年每周至少写一篇简书助力。
想要交流大家可以在文章后面留言~或者发送消息私戳我。如有错误,务必请大家指出,也请诸位多多包涵。
另外,本系列主要参考复旦大学生物统计学课程课件及中国人民大学出版社出版的《统计学》(第六版)。

1.1 什么是生物统计学

统计是处理数据的一门科学。
统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。
Biostatistics is the application of statistics to a wide range of topics in biology. The science of biostatistics encompasses the design of biological experiments, especially in medicine and agriculture; the collection, summarisation, and analysis of data from those experiments; and the interpretation of, and inference from, the results.-- Wikipedia
统计学被应用于多个领域,当数据来源于生物学和医学的时候我们就可以使用‘生物统计学’这个术语。

生物统计学主要可以用于以下几个方面:
1、 Identify and develop treatments for disease and estimate their effects, identify risk factors for diseases.
用于筛选疾病治疗手段,鉴定疾病的风险因子
2、Design, monitor, analyze, interpret, and report results of biological studies.
分析解释生物研究的结果
3、Develop statistical methodologies to address questions arising from medical/biological data
开发统计方法来解决医学/生物学数据产生的问题
4、Provide the hypothesis on the mechanisms
为机制提供假设

众所周知,真实的数据由两部分组成:系统成分和随机成分
即:Real Data=Deterministic + Random
因此目前生物统计所面临的最大挑战就是从真实的数据中分离出Detrministic的部分,并对其进行评估、推断。

1.2 统计数据的类型

数据的来源
1、Routinely kept records 定期保存的记录
如:医院的医疗记录
2、external sources 外部来源
如:来源于公共数据库、已发表的论文等
3、Surveys 调查
如:通过问卷调查所获得的数据
4、Experiment 实验
如:通过实验所获得,比如对病人进行药效检测

数据的类型
1、 Quantitative data 数值型数据
该类型的数据用数字表示,如:高度、质量、长度等
进一步可以细分为:
Discrete 离散型数据:如患有糖尿病的病人数量
Continuous 连续型数据:如基因的表达量
2、Qualitative data 质量型数据
该类型的数据不能用数字表示,而是被分为不同的类别,如成绩等级(A/B/C/D/E/F),性别(男/女)

数据的收集
1、Observational Study 观察研究
通过直接观察主体的特征收集,未对其进行实施任何其他措施。
进一步可分(主要在流行病学中有较多的应用):
1.1 Cross-Sectional 截面调查
在相同或近似相同的时间点上收集的数据
优点:不需要进一步跟进,花费低
缺点:由于同时测量暴露和疾病状态,所以不可能确定关联的方向即不知道是否暴露在疾病之前,是否是疾病的潜在原因。
1.2 Retrospective 回顾性调查
通过回想过去所收集的数据,如当你30岁时,询问在你18岁是否得过某种疾病
优点:花费低,需要的样本量少
缺点:容易出现选择偏差
1.3 Prospective 前瞻性调查
通过跟随一群有共同特点的人来收集,如调查一群都吸烟的人之后得肺癌的情况
优点:降低选择偏差
缺点:花费大,所需的样本量大
2、Experiment 实验
通过施加某种治疗(如给药)等,观察其效应所收集的数据。

1.3 生物统计学中的几个基本概念

总体(population):包含所有研究的全部个体(数据)的集合。
样本(sample):从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)
参数(parameter):用来描述【总体】特征的概括性数字度量,是研究者想要了解的总体的某种特征值,比如总体平均数(𝛍)、总体标准差(𝞂)
统计量(statistic):用来描述【样本】特征的概括性数字度量,它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。比如样本平均数(x-bar)、样本标准差(s)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容