吹洞箫饮酒杏花下

IP属地：贵州

Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning
背景：基于大规模的语言模型。在pretrain-fineTuning两阶段的范式下，pretrain 阶段，数据量较大，学习到的知识泛化能力较强...

462 0 0
Match2: A matching over Matching Model for Similar Question Identification
任务背景：社区问答中，识别用户相似的问题。主要应用在两个产品中。1是，当用户提问时，需要一段时间后，才会有反馈。此时，可以给用户推荐相似问题的已...

327 0 0

Multi-Sample Dropout
1. 模型结构 orginal dropout ：对单个样本，进行单次drop out。 2. 思想 stacking方法中的子模型。事实...

854 0 0
drop-out在有监督任务上的应用—Rdrop
场景：有监督模型中，利用dropout的方式，增强模型的泛化能力。 drop-out在无监督学习上的应用：用于对比学习。同个query，dro...

547 0 0
ERNIE
主题：根据额外的信息输入（实体），增强语言表征能力。利用大规模的文本语料库以及KG图，训练得到一个增强的语言表示模型。问题：将额外的知识加入语...

311 0 0
降噪自动编码器（Denoising AutoEncoder）+BERT
背景：随着科技发展。出现处理更多的高维数据，比如图像、语音。1）传统的统计学-机器学习方法：由于数据维度过高，数据单调，噪声分布广，传统的特征工...

4563 0 0
Pytorch中的DataLoader, DataSet, Sampler
DataLoader：数据的迭代器，数据是model直接可用的格式。分成一个个的batch。 DataSet : 根据索引，拿到数据后。对数据...

1007 0 0

python3+pytorch+horovod 安装
最近研究poly-encoder ，用的是pytorch 进行的开发。在代码优化时，调研到torch本身的DataParallel实现，在效率上...

4864 0 0
lambdaMART-1.GBDT
boosting思想：叠加多个弱模型，渐进的逼近真实情况。问题在于：如何保证拟合方向正确，如何叠加弱模型的结果。问题：以什么目标学习下一棵树...

303 0 0