搜索引擎的未来

人工智能,众包和超级计算机来开发更好,更合理的信息提取和分类方法

搜索引擎如何生成相关链接列表?

结果是信息检索演进中的两个强大力量的结果:人工智能 - 特别是自然语言处理 - 和众包。

计算机算法根据系统训练的数十亿个文本中语言连接的频率,解释我们键入的词与大量可能的网页之间的关系。

但这不是唯一的信息来源。手工调整结果的专业注释器和生成它们的算法的重要性的语义关系得到加强,网络搜索者(我们)在我们的点击中告诉算法哪些连接是最好的。

尽管这个模式取得了令人难以置信的世界变化的成功,但它有其缺陷。搜索引擎结果通常不像我们想要的那样“聪明”,缺乏对语言和人类逻辑的真正理解。除此之外,他们有时会复制和加深嵌入在我们的搜索中的偏见,而不是带给我们新的信息或洞察力。

得克萨斯大学奥斯汀分校信息学院的副教授马修·莱纳斯(Matthew Lease)认为,利用计算机和人类智慧的双重力量可能会有更好的方法来创建更智能的信息检索(IR)系统。

他将AI与注解者的洞察力以及特定于领域资源的信息结合起来,他和他的合作者正在开发新的IR方法,这将有利于一般的搜索引擎,以及像医学知识或非英语文本那样的利基。

本周,在加拿大温哥华计算语言学学会年会上,UT Austin和东北大学的租赁和合作者提供了两篇论文,介绍他们的新型IR系统。他们的研究利用了德克萨斯高级计算中心的超级计算资源,这是世界领先的超级计算研究中心之一。

注释共识和归因为搜索结果提供依据

在一篇论文中,由博士生导师 学生An Nguyen,他们提出了一种组合来自多个注释器的输入的方法,以确定给定文本的最佳整体注释。他们将这种方法应用于两个问题:分析描述医学研究的自由文本研究文章,以提取每项研究的细节(例如条件,患者人口统计学,治疗和结果),并识别命名实体 - 分析突发新闻故事确定涉及的事件,人员和地点。

“自然语言处理中的一个重要挑战是准确地发现自由文本中包含的重要信息,从而使我们能够将其提取到数据库中,并将其与其他数据相结合,以便做出更明智的决策和新的发现。”Lease说。“我们一直在使用众包来规模化医疗和新闻文章,以便我们的智能系统能够更准确地找到每篇文章中包含的关键信息。”

这种注释传统上由内部领域专家执行。然而,近来的众包已经成为以较低成本获取大型标签数据集的流行手段。可以预见,来自外行人员的注释质量低于领域专家的质量,因此有必要估计人群注释者的可靠性,并对个人注解进行总结,以得出一套“参考标准”共识标签。

Lease的团队发现,他们的方法能够训练一个神经网络 - 一种以人类大脑为模型的AI模型,因此可以非常准确地预测命名实体,并在未注释的文本中提取相关信息。新方法改进了现有的标签和培训方法。

该方法还提供了每个工作者的标签质量的估计,这可以在任务之间传递,并且可用于错误分析和智能路由任务 - 识别最好的人来注释每个特定的文本。

利用现有知识创造更好的神经模型    

该小组的第二篇论文由博士生导师。学生叶,解释说,自然语言处理(NLP)的神经模型经常忽略像WordNet这样的现有资源,这是一个词汇数据库,用于将单词组合成同义词集,或者是特定于本体的本体,如统一医学语言系统,其编码关于给定领域的知识。

他们提出了一种通过权重共享来利用这些现有语言资源来改进自动文本分类的NLP模型的方法。例如,他们的模型学习分类描述临床试验的公布的医学文章是否与一个明确的临床问题相关。

在权重共享中,相似的词分享了一些重量的一部分,或分配了数值。权重共享限制了系统必须学习的自由参数的数量,从而提高了神经模型的效率和准确性,并且作为融合先前知识的灵活方式。在这样做的过程中,他们将最好的人类知识与机器学习相结合。

“神经网络模型有大量的参数,需要大量的数据来适应它们,”Lease说。“我们有这样的想法,如果你可以在某种意义上说一些话与先前与其他单词相关的原因,那么不必单独地为每个单词赋一个参数,所以你可以将参数绑定在多个单词之间,方式需要较少的数据来学习模型,它将在没有大量数据约束的情况下实现深度学习的好处。

他们采用一种重量分享的形式,对电影评论的情绪分析和与贫血有关的生物医学搜索。与没有利用重量分享的策略相比,他们的方法一直在分类任务上提高了性能。

“这为数据驱动神经网络模型中编码和利用领域知识提供了一个总体框架,”东北大学租赁公司的合作者拜伦·华莱士(Byron Wallace)说。(华莱士以前也是UT Austin的教职员工,也成为TACC的常客)

租赁,华莱士及其合作者在TACC的Maverick超级计算机上使用GPU(图形处理单元)来实现对机器学习系统的分析和训练。

“针对大数据的训练神经计算模型需要大量的计算时间,”Lease说。“这就是TACC适合作为一个很好的资源的地方,不仅是因为可用的存储空间,还有大量节点和高可用于训练神经模型的处理速度。”

除了GPU,TACC还部署了由英特尔开发的尖端处理架构,机器学习库正在追赶,根据租赁。

他说:“虽然许多深入学习的图书馆已经高度优化了GPU的处理能力,但有理由认为,这些其他架构一旦被优化,将会长期更快,”他说。

TACC数据强化计算总监Niall Gaffney说:“随着Stampede2及其许多核心基础架构的引入,我们很高兴看到更多的基于CPU的机器学习框架的优化。“像Matt这样的项目在测量和模拟数据分析中展示了机器学习的力量。”

Gaffney说,在TACC与Caffe的初步工作中,加利福尼亚大学伯克利分校开发的深入学习框架已经由英特尔为Xeon Phi处理器优化,他们发现,这些CPU在大量AI工作中的性能大致相当在GPU。

“这可能是变革的,因为它允许我们提供更多的节点,可以满足这些研究人员,并允许HPC用户在分析阶段利用AI,而无需移动到不同的支持GPU的系统。”

通过改进自动信息提取和文本分类的核心自然语言处理技术,基于这些技术的网络搜索引擎可以不断改进。

租赁已获得国家科学基金会(NSF),博物馆和图书馆服务研究所(IMLS)和国防高级研究计划署(DARPA)的资助,以提高各种任务,规模和环境下众包的质量。他说,虽然商业网页搜索公司投入大量资源开发实用,有效的解决方案,但行业的需求则导致他们专注于商业应用和短期解决方案的问题。

租赁公司表示:“行业在短期内看好,但是与学术研究人员没有一样的自由,就是追求高风险的研究思路,但长期来看可能更具变革性。” “这是我们从公共投资中受益于为发现发现的地方。像TACC这样的资源对研究人员来说是非常有吸引力的,使我们能够追求高风险,潜在的变革性研究。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容