利用插件对网站更新的即时检测

本文主要是利用「Distill Web Monitor」(旧称AlertBox)插件实现对B站直播的即时通知,对新浪微博更新的及时通知并存档。

主要的困难之处在于

  • 信息的抓取
  • 抓取信息的筛选

下面分述两者功能的实现

B站直播的检测

一开始,我大致观察了一下「直播」与「非直播」两者状态的区别,除了视频流外,比较明显的不同就是右上角的按钮。


直播
关闭

然而粗略查了下按钮的网页源码,并没有发现什么有用的信息。

此时我想到可以尝试利用B站的API来返回直播信息。

在经过一番查找后,我终于找到了相关的API接口:

def IsLiving(mid):
    """
    是否在直播
    """
    url = "http://live.bilibili.com/bili/isliving/%s"%(GetString(mid))
    jsoninfo = JsonInfo(url,pre_deal=lambda x:x[1:-2])
    info = LivingInfo()
    if jsoninfo.Getvalue('data'):
        info.url = jsoninfo.Getvalue('data','url')
        info.title = jsoninfo.Getvalue('data','title')
        info.cover = jsoninfo.Getvalue('data','cover')
        info.mid = mid
        return info
    else:
        return None

来源 : https://github.com/Vespa314/bilibili-api/blob/master/python%20API/bilibili.py

其中我们得到格式http://live.bilibili.com/bili/isliving/%s"%(GetString(mid))。其中(GetString(mid))即主播的MID号(并不是直播间号!)。

例如,长年直播滚滚卖萌的账号「PANDAPIA」,其MID=12444306。那么我们可以得到链接:http://live.bilibili.com/bili/isliving/12444306,直接用浏览器访问,得到返回结果:

({"code":0,"msg":"","data":{"url":"http:\/\/live.bilibili.com\/36979","title":"\u840c\u56e2\u5b50\u4eec\u7684\u6bcf\u5468\u6210\u957f\u8bb0","cover":"http:\/\/i0.hdslb.com\/bfs\/live\/8d877c1ce42cc1990f43d0b4cef988a2f0ca38e1.jpg","online":107

大概猜得出来,服务器返回了直播间地址、直播间封面、直播间名称和在线人数。总之,别人在直播。

而没有直播的直播间,返回结果如下:

({"code":0,"msg":"","data":""});

少了很多信息。

那么,我们只需要监测返回的信息改变,即可知道直播间是不是有人进来/离开。

但是,不要忘记在直播的时候,在线人数也是在时刻变化的。如果仅仅将信息发生「变化」作为判定条件的话,不直播还不打紧,只要一直播,提示信息就会不停的响起(人数一直在变)。

因此,后面的那一部分信息,我们直接剔除掉就行了。

「Distill Web Monitor」支持正则表达式,因此我们只需写个规则,只截取前面的一部分就够了。

规则如下:

^.{32}

意思就是,从前数,数任意32个字符(换行符除外),从这里掐断。

于是在不同情况下会得到:

({"code":0,"msg":"","data":""});   #未直播
({"code":0,"msg":"","data":{"url  #正在直播

仔细看还是有差别的~


新浪微博更新的检测

这个就比B站难对付多了,因为新浪微博在早些时候封掉了「读取他人微博」的API,除非你花大价钱去买。官方的解释是打击爬虫啊,打击信息贩卖啊(顺便赚外快)。但是没了接口,散户程序猿一片哀嚎。

因此用API来爬信息的方法就行不通了,还是用网页更新得了。

但是微博的排版太复杂了,必须找个简洁点的目标来抓。

这时候我想到了手机微博(weibo.cn),就是以前用那种诺基亚功能机上网看到的页面。

抓了一下,效果还不错。

但是问题来了,每个微博都有「赞」「转发」「评论」,这些数字都是变化的,需要屏蔽掉。这个时候再用正则表达式来过滤就力不从心了。于是我尝试使用XPath来进行过滤。由于各种模块相互错杂,简单的规则非常容易误杀有用的信息,或者过滤不完全。最后我写了6条规则,一起得到了比较满意的结果。config文件如下:

{
  "selections": [
    {
      "frames": [
        {
          "index": 0,
          "excludes": [
            {
              "id": 2,
              "type": "xpath",
              "expr": "/html/body/div//span[@class='ct']"
            },
            {
              "id": 4,
              "type": "xpath",
              "expr": "/html/body/div//span[@class='cmt']"
            },
            {
              "id": 5,
              "type": "xpath",
              "expr": "/html/body/div//a"
            },
            {
              "id": 6,
              "type": "xpath",
              "expr": "/html/body/div//a[@class='cc']"
            }
          ],
          "includes": [
            {
              "id": 1,
              "type": "xpath",
              "expr": "/html/body/div[@class='c']"
            },
            {
              "id": 2,
              "type": "xpath",
              "expr": "/html/body/div//img[@class='ib']"
            }
          ]
        }
      ],
      "dynamic": true
    }
  ],
  "regexp": {
    "expr": "",
    "flags": "gim"
  },
  "ignoreEmptyText": true,
  "includeStyle": false,
  "dataAttr": "text"
}

这个规则较好的保留了图片和文字,同时剥离了经常变化的干扰项。

此外,在Firefox上有一个插件,SiteDelta。它能够在有变化的情况下自动对网页进行备份,这个是上文的Distill所不具备的。但是这个插件其他地方还尚需打磨。我在写入XPath规则的时候居然找不到输入框!最后只能强行修改插件文件将规则写入。

两者合用,还是对网页变化具有比较强的敏感性,但是误报也时有发生,这个我仍无法科学的解释……

======

有个微博用户有个置顶,使用了下面的规则:

{
  "selections": [
    {
      "frames": [
        {
          "index": 0,
          "excludes": [
            {
              "id": 7,
              "type": "xpath",
              "expr": "(html/body//div/div[@class='cmt'])[position()>1]"
            },
            {
              "id": 3,
              "type": "xpath",
              "expr": "/html/body/div//span[@class='ct']"
            },
            {
              "id": 4,
              "type": "xpath",
              "expr": "html/body/div//a"
            },
            {
              "id": 5,
              "type": "xpath",
              "expr": "(//div//span[@class='cmt'])[position()>1]"
            }
          ],
          "includes": [
            {
              "id": 1,
              "type": "xpath",
              "expr": "(/html/body//div[@class='c'])[position()>1]"
            }
          ]
        }
      ],
      "dynamic": true
    }
  ],
  "ignoreEmptyText": true,
  "includeStyle": false,
  "dataAttr": "text"
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,268评论 25 707
  • WebSocket-Swift Starscream的使用 WebSocket 是 HTML5 一种新的协议。它实...
    香橙柚子阅读 23,615评论 8 183
  • 穷人富人 男人女人 商人艺术家 政治家平民 明星吃瓜群众 互相羡慕 互相折磨 相约升天
    巳廾阅读 210评论 0 0
  • 这天,还是那么普通,照例,我还是最晚上床的那个,还是在泡脚,阿娇在睡觉,阿丽在听着歌睡觉,阿荣在看视频,好像我们每...
    妖精哪里逃阅读 252评论 0 0
  • 推荐广告:汉堡王的《听话的小鸡》 推荐电影:《公民凯恩》《黑客帝国》 推荐读书 《戈西奇之书》 作者:霍华德.勒克...
    比波猴阅读 397评论 0 0