最近在参加共读活动,群里有书友对长篇大段划线的行为进行了讨论。 读书时究竟要不要划线,要怎么划线呢?这就涉及到读书方法的问题。 一、为什么读书要划线? 要想知道怎样合理划线,...
最近在参加共读活动,群里有书友对长篇大段划线的行为进行了讨论。 读书时究竟要不要划线,要怎么划线呢?这就涉及到读书方法的问题。 一、为什么读书要划线? 要想知道怎样合理划线,...
tidy结构要求:a table with one-token-per-document-per-row,这使得我们可以使用流行的一整套工具,比如 dplyr、tidyr 和...
1、载入数据 2、中文分词 3、使用unnest_tokens()函数整理为tidy结构 4、去除停用词 5、dplyr::count()函数查找频次最高的词 6、根据词频画...
加载相应R包 读取hlm.txt文件 [1] "闷来时敛额,行去几回头. " 文本分词 抓取“石头”相关内容,并输出第一段 [1] "此开卷第一回也.作者自云:因曾历过...
1 准备工作 备注微信好友真实姓名。 通过Python的itchat库爬取所有微信好友信息。代码如下: 2 文本整理 2.1 读取文本 2.2 将有用信息清洗成原始素材 2....
《精通机器学习:基于R 第二版》学习笔记 1、数据理解与数据准备 在这个案例中,我们研究美国前总统奥巴马的国会演讲。有两个主要的分析目标,首先使用7篇国会演讲建立一个主题模型...
主题建模的主要技术是隐含狄式分布(LDA),它假定在文档里能找到的主题和单词分布来源于事先按照狄式分布抽样的隐藏多项分布。主题建模可以视为聚类的一种形式。 1、数据准备 bb...
仙鹤草 AGRIMONIAEHERBA 来源 本品为蔷薇科植物龙芽草AgrimoniapilosaLedeb.的干燥地上部分。 图片 采收加工 夏、秋二季茎叶茂盛时采割,除去...
浙贝母Zhebeimu FRITILLARIAE THUNBERGII BULBUS 来源 本品为百合科植物浙贝母Fritillaria thunbergii Miq.的干燥...