南朝容止 - 简书

IP属地：贵州

Transformer的一些理解
最近又认真的看了一遍Transformer，但是研究的越多，反而也看不清真相了。为啥这样的一些设计，竟然能让模型记住那么多信息。如今各大厂竞相...

151 0 0
真正的利器：对比学习SimCSE
最近看了一篇最新的Sentence Embedding论文，今年4月份的，丹琦大神发表的《Simple Contrastive Learning...

0.1 11481 2

Faiss那点事~
最近看了下Faiss的原因，今天让我们来Faiss那点事~全名叫Facebook AI Similarity Search。顾名思义，Faceb...

2106 0 0
偏差（Bias）、方差（Variance）、噪声、泛化误差
聊到这几个概念，一般人如果不认真看，还真容易搞混。看上去貌似很高大的术语，其实理解后很简单。接下来，咱们就看下。偏差是指在同一份数据集上，训...

1397 0 0
Hard Negtive
题目试想有一份数据集，有99个负样本，1个正样本。现在我们要学习一个模型，怎么学？分析看上去，直接学，模型会拟合大量负样本的特性。根本学不...

0.1 307 0 1
深度语言模型-AlBert
Google在2020年提出了AlBert模型。模型是对Bert的改进，效果肯定要好，不然怎么是改进呢，貌似说的是废话。闲言碎语不要讲，直接上结...

1128 0 0
DropOut技术简述
DropOut的概念首次在2012年，论文《Improving neural networks by preventing co-adaptat...

593 0 0

UDA（Unsupervised Data Augmentation 无监督数据增强）
Google在2019年提出了UDA方法（Unsupervised Data Augmentation 无监督数据增强），这是一种半监督学习方法...

4378 0 0
采样
对于样本分布不平衡的分类，如果按照0.5阈值分类，容易造成虚假的指标。因为模型一直都在学习大样本类，这样最后预测的结果，倾向于大样本类。因此可以...

363 0 0