Hive 提供了 Transform 这一关键字,使用 python 脚本处理hive 的数据,实现 Map/Reduce 的效果,在一些场景下,相比直接编写 Hadoop ...
本文分享的论文题目是《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》 ...
本文介绍的论文题目是:《Real-time Personalization using Embeddings for Search Ranking at Airbnb》 本文...
一、时代背景 大数据时代产生了海量的数据,数据对企业来说是一种隐形的资产,里面蕴含了丰富的价值。但是,大数据体量之大、种类之繁以及产生速率之快,海量的数据并不都是有价值的,用...
原文标题:《知乎推荐页Ranking经验分享》 原文作者:DataFun —— 单厚智 原文链接:https://mp.weixin.qq.com/s/GUMz-HfbjQv...
简介 Louvain算法[1]是一种基于多层次优化Modularity[2]的算法,它的优点是快速、准确,被[3]认为是性能最好的社区发现算法之一。Modularity函数最...
异常检测技术被广泛应用到各个应用领域之中,包括疾病检测、金融欺诈检测、网络入侵检测等。在智能运维领域,异常检测处理的数据类型主要是时间序列数据(KPI序列)和文本数据(日...
Content Introduction Regularized Learning Objective - 正则化目标方程 Split Finding Algorithm -...
前言 在产品、运营这次做社区改版的过程中,我们大数据部门结合具体的业务细节,通过研究、讨论与试错,最终设计了一个基本符合需求的内容热度值算法,本文就简述其设计方法。 他山之石...
最近在读论文的的过程中接触到多标签分类(multi-label classification)的任务,必须要强调的是多标签(multi-label)分类任务 和 多分类(mu...
大家好,我叫loser,朋友和同事都这么叫我,我也习惯了这种称呼。I am a loser.这是我经常说的一句话。我是一名爱好山地山的java coder,很多的朋友可能认为...
商务部统计数据显示,2012年到2016年,我国网络购物用户人数从2.42亿人增长至4.67亿人,增长近一倍。电子商务交易额从8.1万亿元增长至26万亿元,年均增长34%...