先介绍一下基本思路。后面挑选几篇文章来介绍一下各种分析方法。
数据处理演变:
首先来了解一下文章数据处理的演变过程:
均值对比 >> 直方图分析 >> 纹理分析 >> 影像组学分析 >> 人工智能
从上面的演变过程可以看出,其实整个数据分析的发展是特征由少到多的变化。
均值分析
- 思路很简单:
- 比较平均值在两组或者多组之间有无差异
- 判断指标在组间有无鉴别能力,
ROC
曲线。 - 判断均值在某一类里面与一些常规诊断指标有无相关性。
直方图分析与纹理分析
两者的分析方法一样,只是前者的分析对象是直方图特征,后者分析对象是纹理特征,也就是我们常说的肉眼不可见的特征。
直方图特征也称之为一阶特征,通常只反映体素灰度信息的整体效应,不包含空间信息。
纹理特征称为高阶特征,除包含灰度信息外,还包含灰度的空间分布信息。
- 数据分析思路也比较简单
- 寻找有组间差异的特征, .
- 利用单因素logistic回归与
ROC
曲线分析判断单个特征的鉴别能力。OR
值与 - 进行相关分析,共线性分析,剔除部分相关度比较高的特征。
- 进行后退式或者前进式的多元logistic模型,建立整体模型,判断保留的特征的值是否小于0.05, 可断定它为独立的预测因子。
- 将整体模型进行
ROC
分析,判定模型的诊断效能。 - 讨论最后保留特征的意义。
影像组学分析
组学分析不纠结单个特征的意义。只需要给出整体模型就可以了。
- 具体思路是:
- 图像分割
- 提取特征,一般越多越好。一般100+的特征数量
- 分训练集与验证集(这个是与前面直方图分析,纹理分析最大的不同,有验证集的存在)
- 特征清洗,包括上一步提取的特征有缺失值或者异常值,将不同量级的特征进行量级调整(或尺度调整,比如调整到0-1范围)
- 特征工程,从100+的特征里面挑选出与我们要分析问题最相关的特征。
- 建模与验证,基于训练集用机器学习模型,包括多元logistic回归,支持向量机,随机森林, xgboost方法,来构建分析问题的诊断或者预测模型。在验证集(验证集相当于新的病人,看模型对未知数据的鉴别能力)验证模型的能力。