240 发简信
IP属地:广西壮族自治区
  • 左手python右手R

    写在前面 最近在学习python,结合一个实际案例,写一下python和R在做数据分析上的差异。本人还不是特别熟练python,所以python的代码来自于kagle的一个高...

  • 看代码这是将空值直接写为0值?这样会不会直接了?为何不用填补缺失值的方法进行填缺?

    将ICGC的基因表达数据处理成表达矩阵(perl)

    小程序的目的 最近在搞ICGC的数据库,想作为TCGA数据挖掘的验证集,然后发现ICGC下下来的数据不能够直接用于分析,于是写个小的perl处理了一下,能够分别输出标准化过的...

  • 120
    比较三种机器学习模型(随机森林,支持向量机,逻辑回归)的分类效果

    我把这个思路搬运到我的课题里,复现图如下: 相似度:75%。a和b是用AI画的,所以今天分享下c和d的代码 一 差异分析 假设我们有了这样的一个表达矩阵,叫Expr_all。...

  • @NICE_AGIS 两个我都试过了,都是存在的,我也很纳闷为什么会出现负值的情况。

    困扰的batch effect

    一、什么是批次效应 批次效应(batch effect),表示样品在不同批次中处理和测量产生的与试验期间记录的任何生物变异无关的技术差异。批次效应是高通量试验中常见的变异来源...

  • 这个5折交叉检验有得有点怪怪的,说不上来,难道5折交叉验证后不应该取的是5个折的结果中取平均类别吗?楼主做5个交叉验证只是每个折的结果简单的叠加会不会不妥?这样是不是只是分成5个部分做的预测而不是实质上的5折交叉验证呢?看着怪怪的,但是又指不出来应该怎样做,有哪位大佬能说说以上的过程到底合不合适呢?

    比较三种机器学习模型(随机森林,支持向量机,逻辑回归)的分类效果

    我把这个思路搬运到我的课题里,复现图如下: 相似度:75%。a和b是用AI画的,所以今天分享下c和d的代码 一 差异分析 假设我们有了这样的一个表达矩阵,叫Expr_all。...

  • @小洁忘了怎么分身 还有就是我做了一些肉眼的对比,发现UCSC队列TCGA_TARGET_GTEx里面的数据和单纯的GTEx队列里面的数据是一样的(TPM数据),但是TCGA_TARGET_GTEx里面的TCGA数据就跟自己转化的有些差别,所以就能够得出:“在TCGA_TARGET_GTEx队列里面的数据UCSC只是做了单纯的合并而没有去除批次差异”这样的结论了吗?如果是去除的话TCGA_TARGET_GTEx队列里面的GTEx部分应该和单纯的GTEx数据不同,所以这样理解是合适的吗?另外就是,对于这种TCGA样本内既有肿瘤又有样本的数据怎么和GTEx数据合并、处理才合适呢?还是说这种情况是不能合并分析的呢?很多文献说的这两个数据库的合并只是一笔带过,具体的处理过程都是很模糊的,真是发了愁了。:sob:

    TCGA和GTEx的数据联合分析实战

    0.缘起 很多文章中用到GEPIA这个网页工具来进行TCGA和GTEx表达量的联合比较,但在此之前我不知道要怎样在R语言中实现。​这个GEPIA的文章里说: The imba...

  • @小洁忘了怎么分身 老师您好,我在做数据合并的时候,通过聚类分析和PCA发现Gtex和TCGA里面的正常样本还是分得比较很开,而且相对于Gtex的样本,TCGA肿瘤样本和TCGA正常样本分得还要开,(怎么可能正常和正常比正常和肿瘤分得还要开?)请问这是什么原因引起得呢?如果是UCSC已经去除了批次,按道理来说Gtex和TCGA正常组织应该靠的比较近才对,但是现在不是这样的,现在是正常&正常分得比正常和肿瘤还要开。另外,我用的就是UCSC队列里面的TCGA_TARGET_GTEx的TPM数据做的聚类和PCA。请问这种现象是正常去除批次后的现象吗?还需不需要自己去除批次呢?另外老师是怎么知道说UCSC已经去除了不同平台得批次效应呢?还是说应该理解为UCSC已经重新计算各个平台的数据而没有去除各个平台的批次呢?希望老师能够看到解答一下🙏🙏🙏,谢谢小洁老师✌✌✌

    TCGA和GTEx的数据联合分析实战

    0.缘起 很多文章中用到GEPIA这个网页工具来进行TCGA和GTEx表达量的联合比较,但在此之前我不知道要怎样在R语言中实现。​这个GEPIA的文章里说: The imba...