第二篇:自己动手抽取Web内容
- 正则表达式
- HtmlParser:文本抽取,链接抽取,资源抽取,链接检查,站点检查,URL重写,广告清除,将HTML转化为XML,HTML页面清理。
- 抽取正文:驱除杂质,JavaScript抽取方案。
- 提取PDF内容 |————|
- 提取Office内容 | 各种库 |
- 抽取RTF |————|
- 抽取视频:关键帧(基于镜头边界系数),镜头,情节,节目
- 抽取音频,MP3格式分为三个部分
- 网页中的噪声:与主要内容无关的文本、链接、图片、Flash等等。可以人工提取组织模式,一般用统计的方法实现网页去噪。