今日头条上发布的视频都是跳转到阳光宽频这个网站,那么我们来分析一下具体该怎么爬。一样,先分析接口以及接口返回数据
https://www.toutiao.com/search_content/?offset=20&format=json&keyword=%E7%A4%BE%E5%8C%BA%E6%96%B0%E9%9B%B6%E5%94%AE&autoload=true&count=20&cur_tab=2&from=video
跟综合的接口有点差异就是cur_tab 和from这两个参数,其他的没有什么变化,该接口返回的只是相关的视频列表还没有拿到真正的视频现在地址,总之先拿到视频播放页的入口地址,接下来我们再来看如何拿到真正的播放地址。随便打开一个视频地址,然后分析网页结构,再次失望了,不过网页上采用vedio标签播放视频,不是采用流媒体播放,既然这样就存在着可能。再次分析播放页面的请求接口,发现一个有用的接口
http://ib.365yg.com/video/urls/v/1/toutiao/mp4/12531bab86f5416f8f21e1fdf1a07559?r=22820976088276734&s=1292880202&callback=axiosJsonpCallback1&_=1538793938274
这个接口用于返回视频的真实地址,查看数据结构
在vedio_list这个key值下就是我们真实的播放地址了,想想都好激动
打开一看,懵逼了,这是什么鬼,说好的地址了,直接百度了一下,好家伙,已经有大神指明了,这个main_url就是真实的地址,只不过是经过base64编码了,直接用base64解码,果然拿到了真实的地址。代码不难,所以没有系统的写代码,我们看到vedio_list中有三个值,只是针对于不同的分辨率,大家可以根据自己的需求进行获取。