《数学之美》

摘录

第一章:文字和语言 VS 数字和信息

通信的原理和信息传播的模型、(信源)编码和最短编码、解码的规则,语法、聚类、校验位、双鱼对照文本,语料库和机器翻译、多义性和利用上下文消除歧义,这些今天自然语言处理学者们研究的问题,我们的祖先在设计语言的时候其实已经遇到了,并且用类似今天的方法解决了,虽然他们的认识多是自发的,而不是自觉地。他们过去遵循的法则和我们今天探求的研究方法背后有着共同的东西,这就是数学规律。

第二章:自然语言处理——从规则到统计

基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上自然语言处理又和语言的初衷——通信联系在一起了。但是,科学家们认识到这个联系却花了几十年的时间。

第三章:统计语言模型

马尔可夫模型:假设任意一个词Wi出现的概率直通它前面的N个词Wi-1、Wi-2、。。。Wi-n有关。(N从1到2,从2到3对模型都有显著的提升,当从3到4提升不再明显)

统计语言模型在形式上非常简单,任何人都很容易理解。但是里面的学问却可以很深,一个专家可以在这方面研究很多年,比如我们在延伸阅读中提到的那些问题。数学的魅力就在于将复杂的问题简单化。

第四章:谈谈中文分词

中文分词以统计语言模型为基础,经过几十年的发展和完善,今天基本上可以看做是一个已经解决的问题。当然不同的人做的分词器有好有坏,这里面的差别主要在数据的使用和工程实现的精度。

第五章:隐含马尔可夫模型

隐含马尔可夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同事,隐含马尔可夫模型也是极其学习主要工具之一。和几乎所有的极其学习的模型工具一样,它需要一个训练算法(Baum-Welch算法)和使用时的解码算法(维特比算法),掌握了这两类算法,就基本上可以使用隐含马尔可夫模型这个工具了。

第六章:信息的度量和作用

信息熵不仅是对信息的量化度量,而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。信息熵的物理含义是对一个信息系统不确定性的度量,在这一点上,它和热力学中熵的概念相同,因为后者是对于一个系统无序的度量。这说明科学上很多看似不同的学科之间也会有很强的相似性。

第七章:贾里尼克和现代语言处理

信息科学大师——贾里尼克

第八章:简单之美——布尔代数和搜索引擎的索引

布尔代数(1和0,and or not)非常简单,但是对数学和计算机发展的意义重大,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了今天数字化的时代。在此,让我们用伟大科学家牛顿的一句话来结束这一章,“(人民)发觉真理在形式上从来是简单的,而不是复杂和含混的。

第九章:图论和网络爬虫

图的遍历是一件很简单的事情,没有多少人会去研究这件事情,也没有多少人用得到。可是互联网的出现,图的遍历方法一下子有了用武之地。很多数学方法就是这个样子,看上去没有什么实际用途,但是随着时间的推移会一下子派上大用场。

第十章:PageRank——Google的民主表决式网页 排名技术

今天,Google 搜索引擎比最初复杂、完善了许多。但是PageRank在Google所有算法中依然是至关重要的。

第十一章:如何确定网页和查询的相关性

TF-IDF是对搜索关键字的重要性度量,从理论上讲,它有很强的理论根据。因此如果对搜索不是很精通的人,直接采用TF-IDF效果也不会太差。现在各家搜索引擎对关键词重要性的度量,都在TF-IDF的基础上有些改进和微调。但是,在原理上与TF-IDF相差不远。

第十二章:地图和本地搜索的最基本技术——有限状态机和动态规划

有限状态机和动态规则的应用非常广泛,远远不止识别地址、导航等地图服务相关领域,它们在语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析等领域都有着极其重要的应用。其在拼音输入法中也有重大作用

第十三章:Google AK-47的设计者——Dr阿米特 辛格

介绍Dr Singhal

第十四章:余弦定理和新闻的分类

1、计算所有新闻之间两两的余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。这样N篇新闻被合并成N1个小类。

2、把每个小类所有的新闻作为一个整体,计算小类的特征向量,再计算小类之间两两的余弦相似性,然后合并成大一点的小类N2. N2<N1。

第十五章:矩阵运算和文本处理中的两个分类问题

计算大量新闻时一步到位的办法是利用矩阵运算中的奇异值分解(SVD),得到粗分类结果,再利用计算向量余弦的方法,在粗分类结果的基础上,进行几次迭代,得到比较精确的结果。

第十六章:信息指纹极其应用

信息指纹可以理解成将一段信息(文字、图片、音频、视频等)随机地映射到一个多维二进制空间中的一个点(一个二进制数字)。只要这个随机函数做得好,那么不同信息对应的这些点不会重合,因此这些二进制数字就成了原来信息所具有的独一无二的指纹。

第十七章:由电视剧《暗算》所想到的——谈谈密码学的数学原理

我们在介绍信息论中谈到,利用信息可以消除一个系统的不确定性。而利用已经获得的信息情报来消除一个情报系统的不确定性就是解密。因此,密码学的最高境界就是无论地方获取多少密文,也无法消除己方情报系统的不确定性。为了达到这个目的,就不仅要做到密文之间相互无关,同时密文还是看似完全随机的序列。在信息诞生后,科学家们沿着这个思路设计出很好的密码系统,而公开秘钥是目前最常用的加密办法。

第十八章:闪光的不一定是金子——谈谈搜索引擎反作弊问题

SEO——Search Engine Optimizer 搜索引擎优化者——作弊者

第十九章:谈谈数学模型的重要性

我们对任何问题总是再找相应的准确的数学模型

第二十章:不要把鸡蛋放到同一个篮子里——谈谈最大熵模型

最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性:从形式上看,它非常简单,非常优美;从效果上看,它是唯一一种可以满足各个信息源的限制条件,同事又能保证平滑性的模型。由于最大熵模型具有这些良好的特性,它的应用范围因而十分广泛。但是,最大熵模型的计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。

第二十一章:拼音输入法的数学原理

汉字的输入过程本身就是人和计算机的通信,好的输入法会自觉或者不自觉地遵循通信的数学模型。当然要做出最有效的输入法,应当自觉使用信息论做指导。

第二十二章:自然语言处理的教父马库斯和他的优秀弟子们

马库斯主要弟子:柯林斯、布莱尔

第二十三章:布隆过滤器

布隆过滤器背后的数学原理在于两个完全随机的数字冲突的概率很小,因此,可以在很小的误识别率条件下,用很少的空间存储大量信息。常见的补救无识别的办法是再建立一个小的白名单,存储那些可能被误判的信息。由于布隆过滤器中只有简单的算术运算,因此它的速度很快使用方便。

第二十四章:马尔可夫链的扩展——叶贝斯网络

叶贝斯网络是一个加权的有向图,是马尔可夫链的扩展。从认识的层面看,叶贝斯网络克服了马尔可夫链那种机械的线性的约束,它可以把任何有关联的时间统一到它的框架下面。

第二十五章:条件随机场和句法分析

条件随机场是一个非常灵活的用于预测的统计模型。和最大熵模型一样,条件随机场的形式简单,但是实现复杂。

第二十六章:维特比和他的维特比算法

高通公司创始人:维特比 CDMA 3G通信技术

第二十七章:再谈文本自动分类问题——期望最大化算法

EM算法只需要有一些训练数据,定义一个最大化函数,剩下的事情就交给计算机了。

第二十八章:逻辑回归和广告搜索

逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。和许多模型一样,都可以采用通用迭代算法GIS和改进的迭代算法IIS来实现。除了在信息处理中的应用,逻辑回归模型还广泛应用于生物统计。

第二十九章:各个击破算法和Google云计算的基础

我们现在发现Google颇为神秘的云计算中最重要的MapReduce工具,其实原理就是计算机算法中常用的“各个击破”法,它的原理原来这么简单——将复杂的大问题分解成很多小问题分别求解,然后再把小问题的解合并成原始问题的解。由此可见,在生活中大量用到的,真正有用的方法往往朴实而简单。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容

  • 很早之前看了几篇博文,只留下模糊印象 。这次是在学习人工智能的基础知识后再看,其中研究自然语言的方法从基于规则转变...
    轻舟阅读 5,865评论 0 9
  • 写在之前 如需转载,请注明出处。如有侵权或者其他问题,烦请告知。 第1章文字和语言 vs 数字和信息 文字和语言与...
    hainingwyx阅读 1,139评论 0 2
  • 第一章、 文字和语言vs数字和信息 简要介绍了语言和文字的发展过程 第二章、 自然语言处理 在上世纪50年代到...
    hyhchaos阅读 399评论 0 0
  • 1.1 统计语言模型 香农(Claude Shannon)就提出了用数学的办法处理自然语言。首先成功利用数学方法解...
    wzz阅读 1,922评论 0 10
  • 一轮明月挂在心头 温柔的洒满海面 月光抚摸你肆意的笑容 浪花追逐你调皮的脚步 我张开双臂望着你 来吧 走进我心海
    未々眠阅读 259评论 2 4