240 发简信
IP属地:贵州
  • Transformer的一些理解

    最近又认真的看了一遍Transformer,但是研究的越多,反而也看不清真相了。 为啥这样的一些设计,竟然能让模型记住那么多信息。如今各大厂竞相...

  • Resize,w 360,h 240
    真正的利器:对比学习SimCSE

    最近看了一篇最新的Sentence Embedding论文,今年4月份的,丹琦大神发表的《Simple Contrastive Learning...

    0.1 11481 2
  • Resize,w 360,h 240
    Faiss那点事~

    最近看了下Faiss的原因,今天让我们来Faiss那点事~全名叫Facebook AI Similarity Search。顾名思义,Faceb...

  • Resize,w 360,h 240
    偏差(Bias)、方差(Variance)、噪声、泛化误差

    聊到这几个概念,一般人如果不认真看,还真容易搞混。看上去貌似很高大的术语,其实理解后很简单。接下来,咱们就看下。 偏差 是指在同一份数据集上,训...

  • Resize,w 360,h 240
    Hard Negtive

    题目 试想有一份数据集,有99个负样本,1个正样本。现在我们要学习一个模型,怎么学? 分析 看上去,直接学,模型会拟合大量负样本的特性。根本学不...

  • Resize,w 360,h 240
    深度语言模型-AlBert

    Google在2020年提出了AlBert模型。模型是对Bert的改进,效果肯定要好,不然怎么是改进呢,貌似说的是废话。闲言碎语不要讲,直接上结...

  • DropOut技术简述

    DropOut的概念首次在2012年,论文《Improving neural networks by preventing co-adaptat...

  • Resize,w 360,h 240
    UDA(Unsupervised Data Augmentation 无监督数据增强)

    Google在2019年提出了UDA方法(Unsupervised Data Augmentation 无监督数据增强),这是一种半监督学习方法...

  • 采样

    对于样本分布不平衡的分类,如果按照0.5阈值分类,容易造成虚假的指标。因为模型一直都在学习大样本类,这样最后预测的结果,倾向于大样本类。因此可以...

个人介绍
细雨湿衣看不见,闲花落地听无声~