背景:基于大规模的语言模型。在pretrain-fineTuning两阶段的范式下,pretrain 阶段,数据量较大,学习到的知识泛化能力较强。fine tuning阶段的...
背景:基于大规模的语言模型。在pretrain-fineTuning两阶段的范式下,pretrain 阶段,数据量较大,学习到的知识泛化能力较强。fine tuning阶段的...
任务背景:社区问答中,识别用户相似的问题。主要应用在两个产品中。1是,当用户提问时,需要一段时间后,才会有反馈。此时,可以给用户推荐相似问题的已有答案。2是,需要减少相似的问...
1. 模型结构 orginal dropout : 对单个样本,进行单次drop out。 2. 思想 stacking方法中的子模型。事实证明,用多个子模型做模型融合可...
场景:有监督模型中,利用dropout的方式,增强模型的泛化能力。 drop-out在无监督学习上的应用 :用于对比学习。同个query,drop前后的预测结果相同。不同qu...
主题:根据额外的信息输入(实体),增强语言表征能力。利用大规模的文本语料库以及KG图,训练得到一个增强的语言表示模型。 问题:将额外的知识加入语言表达模型,有两个关键问题:1...
背景:随着科技发展。出现处理更多的高维数据,比如图像、语音。1)传统的统计学-机器学习方法:由于数据维度过高,数据单调,噪声分布广,传统的特征工程很难奏效。2)降维方法,如线...
DataLoader: 数据的迭代器,数据是model直接可用的格式。分成一个个的batch。 DataSet : 根据索引,拿到数据后。对数据进行 自定义的处理。具体处理逻...
最近研究poly-encoder ,用的是pytorch 进行的开发。在代码优化时,调研到torch本身的DataParallel实现,在效率上不如distributedDa...
boosting思想:叠加多个弱模型,渐进的逼近真实情况。问题在于:如何保证拟合方向正确,如何叠加弱模型的结果。 问题: 以什么目标学习下一棵树,保证损失函数的迭代方向正确?...
Redis是一种基于客户端-服务端模型以及请求/响应协议的TCP服务。这意味着通常情况下一个请求会遵循以下步骤: 客户端向服务端发送一个查询请求,并监听Socket返回,通常...
广义上搜索引擎的“相关推荐”包含这么几个模块: 1、suggest模块:输入query(关键词)过程中出现在搜索框下方的智能推荐。 2、相关搜索模块:就是搜索结果底部的那堆文...
场景:帮助用户找到商品,达成某个满减门槛(比如满400减50),完成跨店凑单。 对场景的理解:认为凑单的重要场景是当用户已经加购了商品A,还想找一个能一起打包买的商品B,而不...
第一问题描述 对于 idea 下的 maven 工程,特别是从其他地方导入的新工程,右边 maven 管理工具中 dependencies 若出现红色波浪线。通常用以下方式尝...
网络构成中,边上带了很丰富的交互信息,如何同时利用这部分信息进行节点Embedding。比如“用户”-“股票“之间的交易网络,边上带有丰富的“时间、价格、数量”特征,如何结合...
线上场景: 首页推荐 场景特点: 业务形态多样、消费场景多样;推荐系统,需要准确捕获用户的兴趣点或用户的实时意图。而且我们推荐的场景也会随着用户兴趣、地点、环境、时间等变化而...
罪魁祸首可能是你的/tmp目录由于某种原因没有足够的空间。在pip安装期间,pip将使用临时目录来执行执行安装所需的操作(例如下载源等)。因此,如果您在/tmp中没有足够的空...
典型场景:图像检索。高维检索。 本质: 很多稠密向量,要迅速找到某个点的临近点,并认为这是相似度最高的点。 原始数据的表达形式为,N维连续值的向量。如果针对一个query,进...
Fasttext最大的特点是模型简单,只有一层的隐层以及输出层,因此训练速度非常快,在普通的CPU上可以实现分钟级别的训练,比深度模型的训练要快几个数量级。 输入层:为了将w...
就是随机的生成一些超平面(如1024个),哈希方法是看一个特征向量对应的点,是在平面的哪一侧,从而得到一组1,-1 的列表 l 。再用新生成的向量去计算相似度。= (1024...