url:http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html
需求:把此网页中表格数据全部爬取出来导到excel里
页面如下:
小白一枚,第一次拿到这个需求,整个人是懵的。咦?怎么每次url都不变?怎么照网上说的用xpath追踪定位table爬取不成功呢?百度了三四天网上也没有类似案例,最后,在一位大神帮助下成功解决。【这个网页应该跟异步加载型的网页差不多,或者这也算是是防爬虫的手段吧。数据是通过另一个接口的请求得到的,而不是直接由html文件给出的。】
实际网址:f12调试模式——>network里面——>xhr选项,看异步请求
思路:
(1)获取接口的数据(headers头部)
(2)提取接口数据 (json模块)
(3)时间戳的转换 (time模块)
附上详细代码: