“在生信分析之前对数据进行清洗,其过程对后续的分析起的重要的作用,有时直接影响结果的好坏”
01—研究背景
在以往的公众号推文中,小编给大家推送了很多实用又简单的生信小工具;
但是从小伙伴私底下说按照小编的教程,有时做的图形奇丑无比,之所以出现这样的原因,是因为有些原始数据在生信分析前,需要原始数据进行了数据预处理。
所谓数据预处理,就是在生信分析之前对数据进行清洗,其过程对后续的分析起的重要的作用,有时直接影响结果的好坏。所谓的数据清洗就是使用统计学方法对数据进行过滤,如均值,方差,分位数等,而这一点是很多初学者和其他培训机构最容易忽视的一点。
但是,对于初学者来说,对数据进行统计和删选最容易的工具是Excel,Excel对于少量的数据处理起来,过程繁琐。而对于数据量较大的数据如甲基化表达数据,一般数据大小在五百M以上,就会发现崩溃。不过不用担心,今天给小伙伴们介绍一个小工具,只需要输入表达矩阵,工具会自动算法行和列的各种统计指标,然后将结果下载到本地,用Excel根据特定的条件筛选出符合条件的行和列,然后把行名和列名再次输入到这个小工具中,就可以实现对数据的清洗和过滤了
快跟着小编一起学习一下这个工具
网址导航
http://sangerbox.com/Tool 点击“矩阵清洗工具”
02—使用方法
1.输入表达矩阵
----------
计算矩阵中每行和每列中的统计量,以TCGA中胰腺癌的数据为例,如下图所示;
特别注意:
1.如果是以文件的格式将数据导入到云平台,平台默认无法读取Excel中的数据,必须将Excel文件转为以制表位符分割的文本文件,否则小工具将无法运行。
2.将文件从本地上传到网站上应注意文件名只能用字母、数字或下划线命名不能有空格等特殊字符命名,否则将上传失败。
2.设置参数
----------
3.矩阵每行和每列统计结果如下图所示
----------
4.提取子矩阵
----------
根据指定的列名和行名提取子矩阵,这里小编为了大家能看到提取效果,行和列各取五个,小伙伴们可以根据自己的需求,在Excel表格中提取自己所需要的列和行,如下图所示。
注意:提取后的结果输出目录最好不要与第一次计算行与列统计量的目录相同,否则会覆盖第一次的结果
5.输入提取后的矩阵
----------