Deep Web调查

1.概念

深网,即深层网络(英语:Deep Web),又称:不可见网、隐藏网,是指万维网上那些不能被标准搜索引擎索引的非表面网络内容。
——维基百科

简单来说,一切搜索引擎搜索不到的网页都可以被称为深网,与之相对的概念即为我们平时生活中经常接触到的网络,即“表层网”。其最常见的应用网络邮件、网络邮件、网上银行以及用户必须付费来获取服务的网站。

许多人在说到Deep Web时,都会将暗网(darknet)、黑网(dark web)也包含在内,但这样并不准确。后两者的含义如下:

什么是暗网(Darknet)?

Darknet是建立在现有互联网之上的加密网络,并且需要特定的软件或工具来访问暗网。因为在互联网上使用的常规协议可能不应用于暗网。它为用户提供匿名性。比如Tor或洋葱路由,需要Tor浏览器进入Tor的网络。

当然Tor可以用来访问日常的互联网网站,但它也有许多隐藏的网站和服务,无法在常规互联网上访问。Tor使用其称为Tor隐藏服务协议来工作。而限制在Tor的网站有一个特殊的.onion地址。因此,Tor的暗网也被称为洋葱。

F2F是另一种暗网。两个熟悉的人直接通过互联网相互通信。他们可能通过P2P连接共享一些文件。这样的网络,不能被其他人访问,可以被加密或密码保护。

什么是黑网(Dark Web)

黑网是深网的一个子集。也就是说,在暗网上运行的服务和网站是黑网。暗网在技术架构上支撑黑网的体系。
——什么是深网、暗网与黑网?别混淆了

但在一般情况下,大家所说的暗网和黑网指的是同一个概念。
下面是网上一幅关于三层网络之间的关系图。


三层网络之间的关系图

2.Deep Web特征及发展现状

与SurfaceWeb相比,DeepWeb蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息。在2000年7月,Brightplanet对DeepWeb做了一次较为全面的宏观统计,发布了Deepw web的白皮书 (在该文中Brightplanet对DeepWeb的定义主要指的是Web数据库),指出整个Web上大约有43000~96000个Web数据库,并从宏观上对DeepWeb做了定量的调查统计,下面列出其中部分的调查结果:
(1)DeepWeb蕴含的信息量是SurfaceWeb的400~500倍。
(2)对DeepWeb数据的访问量比SurfaceWeb要高出15%。
(3)DeepWeb蕴含的信息量比SurfaceWeb的质量更高。
(4)DeepWeb的增长速度要远大于SurfaceWeb。
(5)超过50%的DeepWeb的内容是特定于某个域的,即面向某个领域。
(6)整个DeepWeb覆盖了现实世界中的各个领域,比如商业、教育、政府等等。
(7)DeepWeb上95%的信息是可以公开访问的,即免费获取。
(以上信息来源于百度百科

3.深网的内容类型

用以防止网页被搜索引擎索引的方法可以被分类为以下一个或多个:

  • Contextual Web(语境网络)
  • Dynamic content(动态内容)
  • Limited access content(有限访问内容)
  • Non-HTML/text content(非HTML或文本内容)
  • Private web(私人网站)
  • Scripted content(脚本内容)
  • Software:这类是指只有通过特殊软件才能访问的内容
  • Unlinked content(未被链接的内容)
  • Web archives:一种Web的存档服务,不可被搜索引擎索引

从这些分类中可以看出,深网不可索引的原因如下:
(1)深网内容并不是被直接存储在网页中的,而是通过用户填写表单发送请求而生成动态页面,但爬虫软件一般并不能填写表单,自然也就不能取到深网中的内容;
(2)有的内容则是因为没有与外网链接,爬虫也就没办法通过URL爬取到这些网站里的内容;
(3)被限制访问的内容也是爬虫无法获取的,譬如某些由政府主导的秘密任务数据的服务器和网站。

4.深网索引方法

由第二点对深网的特点阐述可以看出,深网在整个互联网中的占比极大,而且覆盖了现实生活中的各个领域。有机构为Deep Web构建了目录,并按照现实世界的各个领域为其制定了分类主要包括商业与经济、计算机与互联网、新闻媒体、娱乐等一共十几个分类。另外,这些分类下面还会有更小的分类。但即使是这样,列出来的也仅是整个web数据库的很小的一个比例。同时,深网中的数据质量也更高,所以研究如何获取深网中的信息是具有非凡意义的。

深网的研究目前主要分为两个方面:
(1) 深网的规模、分布和结构的研究。美国Bright Planet公司, 专门从事数据整合和企业信息分析, 开发了深网检索平台工具DQM。此外, 还对深网的规模和相关性进行了研究, 并发布了调查白皮书。
(2) 深网信息搜索中的关键技术的研究。目前主要的关键技术有Deep Web接口识别方法、信息提取算法、数据库选择算法、Deep Web集成查询接口生成方法等。
而深网的信息资源具有以下三个特点:
(1) 信息资源量巨大。深网是Internet中信息最快的增长点, 并且随着时间的推移, 深网的信息量会越来越大。
(2) 信息质量高。它与表层的一般网页相比, 深网的内容都更加的专业和有深度, 信息间的相关度也比较高, 具有巨大的商业价值和潜在信息。
(3) 信息便于处理。深网的信息多数容易使用一些统计软件处理, 格式相对整齐。
因此解析深网主要功能并研究其关键技术, 从而采集深网的巨大信息资源, 具有重要意义。
摘自:中国知网——全局模式下的深网数据抽取与挖掘

2001年, Sriram Raghavan 和 Hector Garcia-Molina 发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的 Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。
商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议(始创于Google)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个 HTML 表单并且添加结果 HTML 页面到 Google 搜索引擎索引。在这个系统里,使用三种方法计算提交词:
(1) 为输入搜索选择关键词允许的输入值;
(2) 确定是否只接受特定的值(例如时间);
(3) 选择少量的组合生成适合纳入网站的搜索索引网址。

——百度百科

5.深网搜索引擎的工作原理

深网搜索引擎能够模仿用户访问数据库的流程,从而通过以下步骤自动访问数据库。
(1)深网搜索引擎发现互联网上的深网数据源。使用传统的爬虫程序来发现和识别某个站点是否提供 Http 服务, 然后分析含有 Http 服务的站点页面,剔除非研究性表单,找到深网的数据源入口。
(2)对前面获得的表单页面进行分析和抽取。 将查询表单分解,集成同一个领域的集合,从而得到一个统一的查询表单,通过这个集成的查询表单,深网搜索引擎可以同时访问多个数据源。
(3)模仿用户自动填充并提交表单。 服务器端会产生一个完整的 HTML 页面, 深网搜索引擎将这些页面进行分析,并提取数据到本地计算机,然后统一查询结果页面,最终将结果返回给用户。
摘自:中国知网——深网和搜索引擎

6.深网搜索结果与表面网结果的区别

对DeepWeb信息的访问是通过在查询接口上提交查询,这和对搜索引擎的访问在某种程度上来说是相似的,但DeepWeb数据和搜索引擎二者之间是有着很大区别的:
(1)搜索引擎搜索结果是网页,而Deepweb中的搜索结果主要是结构化的数据。
(2)Web数据库通常有复杂的接口,而搜索引擎的接口较为简单,一般是关键字搜索。
(3)搜索引擎对结果的排序是根据搜索结果与所提交查询的相似性,Web数据库则是根据结果中对DeepWeb中信息的获取主要的途径是通过某个属性的值。
——百度百科

以上即为我对深网所做的一些调查。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,898评论 2 89
  • 写作是对时光最好的挽留 在我们班的讲台上,摆着一株大蒜。它不是盆栽,但在同学们的心中,它胜过盆栽。如今它已经枯萎变...
    江山吴阅读 63评论 1 3
  • 选村长 文/杜文琥 老村长因车祸提前退休了,村里一日不能无主,乡里领导准备重新配置村长。最有可能继任村长位置的...
    杜文琥阅读 329评论 0 0
  • 我走进酒吧,点了一杯金汤力。酒吧有整面的落地窗,可以看到街上的行人。我坐在落地窗前的一个桌子,摊开一个日记本,抽出...
    德克斯特实验室阅读 832评论 0 1