昨天上午10点半,用采集器采集政府官网上需要的信息。
然后断断续续采集了一天。
工作时长:36h (算上为我通宵了一个晚上的电脑,虽然平常很嫌弃你但是还是爱你❤️
遇到了一系列问题,然后一点点解决,也是一点点上手这个采集器,接下来我会记录下这些问题和解决方法,以供其他上手后裔采集器的小伙伴使用:
(先列个框架,陆续编辑完成ing。这样下去可能还会再写几篇文章跟新。)
一、如果直接复制搜索结果的链接到采集器中,则显示不出来搜索结果/利用智能采集构建采集框架:
具体情况如下:
二、有的网页搜索结果的链接和搜索界面的链接没有变化:
三、有的网页的搜索结果是滚动加载的:
四、网页“下一页”(分页)位置改变,导致采集过程提前结束
五、打开网页之后,需要登录才能看到数据
六、打开网页之后,需要操作几个步骤才能看到数据
七、采集速度变慢了/卡壳了/重复采集同一个界面/网页没反应
八、有些选项可以勾选一下
九、有些未解之谜:
在我已经尽心尽力的完成了以上8个步骤之后,采集的时候仍然会出现数据没有全采集完便显示了“本次采集已经完成”的情况。
还有就是,在今天早上,遇到了一个不知道是不是bug的东西,具体情况如下: