一. 毕业设计
1.背景
传统的诊断都是单变量的,既通过一个一个变量的筛查,如果有异常的特征便将其诊断为患病;否则直接将其诊断为正常。然而致病因子的致病机理不是简单的单个变量的累加,当多个变量之间的关系发成变化时,即使每个变量都是正常的,也有可能是患病的情况。而且,疾病诊断的机理是未知的,对医生来时完全是一个黑盒子,这对掌握病情的发展趋势是无法掌控的。
2.研究工作:
将数据按照孕周时间划分为多个时期,每个时期内假设数据服从同一分布且不同时期之间的分布是独立的。
- 1.在每个时期内,量化不同特征之间的关系。
- 在不同时期之间,各特征之间的关系是如何变化的。(增大还是变小,或者出现、消失)
- 可以量化正常胎儿特征关系的演变规律,为医生的诊断提供理论层面的解释;也在诊断方面提供参考。
3. 数据预处理
3.1 数据来源
临床收集的关于诊断胎儿先天性心脏病测量的结构化数据,分为阳性和阴性数据,分别在一万六千多条和一千条左右。每个人测量的特征多达五十多个,维度是十分的庞大。
3.2 数据清洗
- 异常值的检测
这里就是用简单的箱线图进行处理。从上至下分别是上限、上四分位数 、中位数、下四分位数 ,下限。 和 之间的距离称为箱子长度 ,箱线图定义的异常值数据是指样本数据值大于 和小于 的数据。 - 删除缺失严重的特征变量(缺失比例大于0.5左右)
- 数据缺失值处理
单个变量的线性回归填充的方法
3. 模型的建立
- 最小化负对数的似然函数(证明是凸函数)
- 增加L1正则化使其得到的结果是稀疏化的
4. 模型超参数的选择
- BIC贝叶斯信息准则(在模型的准确度和复杂度中间取中间平衡值)
5. 模型选择(评估)
- 仿真实验验证模型的准确性
精度:预测正确边数占总预测边数的比例
召回率:预测正确边数占总的正确边数的比例
F1-score:加权平均值