先说一个遇到一个很大的问题,一开始我想要爬取大概一两万条的数据,然后发现虽然显示检索的数据有两百多万条但实际上只能查看280条的数据,我更换过不同的关键词检索,但是都是只能显示少量的数据。
这里选择的是百度的资讯,而不是网页,因为直接检索网页的话,不同网站上信息存储的位置不同,我暂时有两个想法,1.直接对抓取的网页,清除掉html的格式,也就是分析网页的结构。2.采用多个爬虫爬取(主流网站)
先说一个遇到一个很大的问题,一开始我想要爬取大概一两万条的数据,然后发现虽然显示检索的数据有两百多万条但实际上只能查看280条的数据,我更换过不同的关键词检索,但是都是只能显示少量的数据。
这里选择的是百度的资讯,而不是网页,因为直接检索网页的话,不同网站上信息存储的位置不同,我暂时有两个想法,1.直接对抓取的网页,清除掉html的格式,也就是分析网页的结构。2.采用多个爬虫爬取(主流网站)