一. 摘要
- 使用图像数据来量化、研究和比较生物体颜色和模式的变化,需要对图像进行对齐以建立同源性,然后对图像进行基于颜色的分割。在本文描述了一个用于图像对齐和分割的R包patternize,,它应用于量化各种生物体的颜色模式。
- patternize是一个从图像数据中量化颜色模式变化的R包。patternize首先通过手动放置同源地标或自动图像配准来定义样本之间的模式位置之间的同源性。模式识别是通过使用RGB阈值、k均值聚类或分水岭变换对颜色分布进行分类来实现的。
- 通过对蝴蝶、孔雀鱼、蜘蛛和蝾螈的图像数据进行分析,已经证明了patternize可以用来量化各种生物体的颜色模式。图像数据可以在不同的样本之间进行比较,以热图的形式显示,并使用主成分分析进行分析。
- patternize在种群比较、遗传关联研究和广泛生物中颜色模式变异的基础研究中具有精细量化颜色模式表现型的潜在应用
二. 功能解析
1. 图片比对
叠加颜色模式来量化其模式的变化,需要它们的结构的同源排列。这种对齐的图像转换可以通过基于地标的转换或图像配准技术获得。
1.1 基于地标点的图形转换(这里需要一些几何形态学知识)
基于地标的转换使用离散的解剖点,这些解剖点在分析中在个体之间是同源的。从一组“源”地标到一组“目标”地标,如仿射变换,包括平移,旋转,缩放和倾斜。此外,通过将转换存储为“薄板的弯曲”,即所谓的薄板样条(TPS)转换,可以解释源和目标地标之间形状的不均匀变化。仿射变换和TPS变换都可以从标志集中计算出来。使用R包提供的实用程序 Morpho 可以实现了这些转换。地标可以使用任意选择的参考样本或从一组样本中获得的平均地标形状进行转换。通过对样品叠加,得到了平均地标形状。
1.2 图片配准技术
除了基于地标的方法,快速准确的图像配准技术可用于计算转换通过一种基于图像中出现的强度模式或点、线或轮廓等特征的目标图像源。在 NiftyReg 图像配准库中,我们使用了一种计算效率高的基于强度的图像配准技术,并通过 RNiftyReg 包来实现,该方法通过查找两幅图像的子卷之间的对应关系来计算图像的全局变换。采用基于强度的相似性度量方法对对应关系进行评估,并通过最小二乘回归方法计算转换参数。
2. 颜色模式的提取
研究颜色图案的变化需要正确识别颜色边界,patternize提供了使用RGB阈值、k-means聚类或分水岭变换对颜色分布进行分类的功能。
2.1 RGB阈值
使用RGB阈值可以从图像或感兴趣的特征中提取颜色边界。通过选择指定颜色范围内的像素(指定为RGB值和偏移量),提供了一种基本的图像分割方法,可以很好地提取不同的颜色模式。此外,对于不同的颜色模式,可以迭代地重新计算RGB值,作为提取的颜色像素的平均值。后一种方法允许从可能在不同光照条件下拍摄的一组图像中提取模式时,可以轻松地组合模式。
2.2 K-means聚类
该包提出了一种基于k均值聚类的无监督图像分割方法,该算法通过迭代地将图像中的每个像素分配给RGB集群,从而将像素与集群中心之间的距离最小化,从而将像素RGB值分配给k个集群。在每次迭代中,通过对集群中的所有像素进行平均,重新计算集群中心,直到收敛为止。可以使用R包 stats 实现了k-means集群。首先从参考图像中获得聚类,然后作为初始聚类中心对随后分析的图像进行k-均值聚类。这允许程序匹配在不同图像中表示相同颜色模式的集群。对于k-means集群,必须手动定义集群的数量。对于模式边界不那么明显的生物体,最好的方法是测试不同数量的集群,并选择一个最适合为颜色模式分配像素的数字。
2.3 分水岭变换
分水岭变换是图像分割的有力工具。分水岭的概念是通过计算图像中像素值突变部分的高值梯度图,将图像视为地形图。随后,在梯度映射的基础上通过选择模式和背景标签确定用于分割图像的分水岭线(地形中的山脊)。可以使用使用基于图像处理库 CImg 的R包 imager (Barthelme, 2017)中的实用程序实现分水岭算法。在我们的实现中,通过手动标识至少一个模式和一个背景像素(每个单独的模式和背景元素至少一个)来选择模式和背景标签。此手动分配帮助用户克服图像闪电、眩光或模式与背景RGB值之间的潜在差异。
三. 输出
patternize 的主要功能是从作为栅格对象存储的每个图像生成提取的颜色模式列表。这些提取的图案可以汇总并可视化为热图或用于计算颜色图案的相对面积。为了更好地描述样本间颜色模式的变化,可以采用线性主成分分析(PCA)。对于提取的颜色模式,PCA可以对从每个样本中得到的对齐颜色模式栅格进行二进制表示。在这个矩阵中,样本中具有感兴趣颜色的像素坐标的值为1,而没有颜色的像素坐标的值为0。从颜色的二进制矩阵中得到的方差-协方差矩阵适用于主成分分析,它允许可视化样本组之间或组与组之间颜色模式边界的主要变化,以及沿着主成分(PC)轴预测的颜色模式变化。在预测颜色图案变化的可视化中,正值表示该图案的预测表达量较高,负值表示该图案的缺失。注意,在所有考虑的样本中表示的颜色模式的部分预测值为零,因为这些像素对PCA分析没有贡献方差。
参考文献
DOI: 10.1111/2041-210X.12853