互联网梯队理解 正如李彦宏形容2019年是冰与火之歌。整体经济提速换挡的压力下,即便是一路高歌猛进的互联网行业和企业也开始变得谨慎。有的公司调整事业架构,有的公司调整高管薪酬...
《我们与恶的距离》不仅中文名引人深思,它的英文翻译也留下诸多解读空间。the word between us 可以理解为群体与群体的隔阂。这个隔阂可能只是一小段距离, ...
最近做计算社会学的研究需要用到网络爬虫爬取一些数据,一开始打算用八爪鱼爬虫工具,后来发现这种爬虫工具不太稳定,那就自己从头学吧,以后说不定也能用的着,试着模仿了几个案例,其实...
可视化认识论整理 一、初级-《连环15关,玩转数据可视化》 无论数据总量和复杂程度如何,数据间的关系大多可分为三类:比较 / 构成 / 分布&联系。 一、比较类常用图形总结 ...
2018中国媒体市场发展趋势行研 作者:pre-learner NJU硕士搬砖中 中国拥有世界上竞争最激烈的媒体市场。现存出版社585家,期刊10130种,公共广播节目2...
这也是一个经典的描述性统计与建模的小案例了,主要用到pandas进行数据处理,用statsmodels进行统计建模。 数据来源: 红葡萄酒(http://archive.ic...
本文从深度学习卷积神经网络入手,基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 什么是推荐系统呢? 什么是推荐系统呢?首先我们来看看几个常见...
最近朋友面试有被问到文本聚类问题,总结如下: 聚类分析,又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的...
背景介绍 由于项目需要,需要对旅游游记文本进行聚类,为打标签做指导,所以调研了主流的短文本聚类方法,文本聚类主要还是分成两个方面。 1. 提取文本特征 在《数学之美》前几章中...
Terminology word2vec: doc2vec embedding: User profile R: 浏览过的文章数量 rh:doc2vec embedding ...
目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差别 工具 深度学习:keras ...
第一部分:论文 最近读了一遍Doc2Vec原文,整篇文章思路清晰明了,建议在读博客之前先看一遍文章,因为文章中将各个部分讲的很详细。 这里只记录文章中最最重要的一段话: At...