Automated data collection with R
A practical guide to web scraping and text mining
关于R语言数据自动化处理,如爬虫,还有一些网页相关基础。
参考书就是Automated data collection with R
先是介绍一下本书的绪论和资源:
首先,怎么判断你的需求,是否需要爬虫来解决问题:
该任务是否经常需要重复执行,比如更新你的数据库?
你是否希望其他人能够重复你的数据收集过程?
你是否经常处理在线数据?
这个任务在规模上和复杂度上如何?
如果这个任务可以手动做,你是否有足够的人手资源或时间
你是否愿意通过编程来自动化你的分析
作者介绍了一些R的实用网站:
新手快速入门之QuickR:https://www.statmethods.net/
R bloggers: 非常有趣的R topics,收集了所有关于R的博客:http://www.r-bloggers.com/
recent advances in web technologies:关于R与其网站应用的一些更新:https://cran.r-project.org/web/views/WebTechnologies.html
整本书的website在:http://www.r-datacollection.com/ 包含本书配套的教程,代码,blog等等。blog会经常更新,推送一些实战资源。