数学之美笔记

第一章、 文字和语言vs数字和信息

简要介绍了语言和文字的发展过程

第二章、 自然语言处理

在上世纪50年代到70年代,科学家们都想用人们理解语言的方法去让电脑进行自然语言处理。70年代到90年代之间人们在用语法规则和统计学进行自然语言处理之间争论不休,直到90年代之后,统计学彻底占据了上风。

第三章、 统计语言模型

对于一句话,因为自然语言是上下文相关的,所以要计算一句句子中所有词的概率积,如果够大,那么这句话正常的可能性极高。但是计算每个词的概率很困难,因为每个词出现的概率和前N个词相关,但是N太大有时不好算概率,马尔科夫就提出每个词的概率只参考前一个词,那么就好算多了。一般只参考前一个词太少,3个比较合适,google也只用了4个。
但是有时候一个词在语料库中没有,而我们又不能说它的出现概率为0,所以就要进行处理,这里用到了古德-图灵的方法(在统计中相信可靠的统计数据,而对不可信的统计数据打折扣,同时将折扣出来的那一小部分概率给予未看见的事件)。实际运用时,对于每个词的概率,如果相对前一个词出现的频度大于一个阈值,不打折扣,小于阈值,打折扣,再把多出来的概率赋予未看见的事件。
对于语料的选取,在哪个领域搜索就使用哪个领域的数据进行训练。比如搜索网页,虽然网页上夹杂着噪音和错误,也不能使用新闻稿作为语料。对于噪音和错误,成本不高的能过滤的就进行处理。

第四章、 谈谈分词

最容易的分词方法是查字典,遇到字典有的词就标注出来,并与最长的词匹配(上海大学),这么做能解决70%以上的问题,但是有很多歧义性的问题解决不了。统计语言模型分词的方法是把句子按照可能的拆分,对每种拆分计算概率。
分词的不一致性分为错误和颗粒度不一致。错误:比如“北京大学生”分成“北京大学-生”不合适(越界型错误),“贾里尼克”分成四个字(覆盖型错误)。颗粒度不一致,“清华大学”分成“清华大学”或“清华”+“大学”,这种颗粒度不一致不作为错误。

第五章、 隐含马尔可夫模型

自然语言处理可以理解为通信的发送和接受所要进行的编码解码。
隐含马尔可夫模型把计算可能的编码解码问题转换成了求概率的问题,使用鲍姆-韦尔奇算法(训练算法)和维特比算法(解码算法)就可以使用这个模型了。

第六章、信息的度量和作用

信息熵指信息的不确定性,不确定性越大,熵越大。互信息指的是两个随机事件的相关性,互信息取值在0-1之间,无关为0,完全相关为1。相对熵衡量两个取值为整数的函数的相似性,可以用来衡量文章的相似度,词之间的相似度。

第七章、 贾里尼克和现代语言处理

贾里尼克很厉害,把通信的方法运用到了自然语言处理上,他在约翰·霍普金斯大学设立的实验室很强。

第八章、 布尔代数和搜索引擎

搜索的本质是:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序(下载,索引,排序)

第九章、 图论和网络爬虫

构建爬虫的要点:

1、构建爬虫要考虑用BFS还是DFS
目标是在有限的时间里最多的爬下最重要的网页,,在最极端情况下,爬虫很小,那么只能爬每个网站的首页而放弃这些网页里的链接,所以原理上用BFS
但是因为爬一个网站需要建立连接(三次握手,四次挥手),这个时间也要算上,所以在BFS的时候适当的加入一些DFS比较合适,,所以要建立一个调度系统来判断优先级。

2、页面的分析和URL的提取
页面的分析要看网页的代码是不是容易分析

3、URL表(用于记录网页是否被爬过)
因为这张表很大,所以要分配给很多服务器执行,比较好的方法一般用到了两个技术:
(1)给每台服务器明确分工,,根据URL分配给对应的服务器
(2)批处理,每次向散列表发送一大批询问,更新一大批散列表内容,减少通信次数

第十章、 PageRank

信息检索课上过,懂的。

第十一章、 如何确定网页和查询的相关性

主要是基于TF-IDF,信息检索课上过,懂的。

第十二章、 有限状态机和动态规划

地图上地址的识别使用有限状态机,导航使用动态规划求最短路径

第十三章、 Google AK-47的设计者

阿米特·辛格致力于简单的搜索解决方案,比如如果暂时只能完成80%的提升幅度,那么放弃20%的提升留作以后改进也是可以的,免得一开始就想做大而全的方案导致整个工程无法完成。另外,他有一个很好的习惯,就是所有的搜索算法修改都要讲出为什么好的理由,从而让一切都变得有据可依,讲不清原理的算法改进不采用。

第十四章、 余弦定理和新闻分类

两篇文章的相似性可以根据他们TF-IDF所化向量的余弦来求得,,这个想法真的是巧妙。另外,对于计算大数据下的向量余弦,有几个可以简化的地方,向量长度不需要重复计算;只考虑向量中的非零元素;删除虚词;

第十五章、 矩阵运算和文本处理中的两个分类问题

余弦求相似性的运算在文本很多的情况下计算量很大,很耗时,,要一次性把所有新闻的相关性求出来,可以使用矩阵运算中的奇异值分解。

第十六章、 信息指纹及其应用

判断一段文本是否相同可以使用信息指纹(一段不太长的随机数),信息指纹的生成方法很简单,先把文本转成数字,然后使用伪随机数产生器算法(平方取中间算法等),如果两段文本相同,那么信息指纹也相同。如果文本大部分相同怎么办,可以使用相似哈希。另外,对于视频的相似性,因为每30帧中有一帧是关键帧,其他帧都和这帧差异很小,所以取得一系列关键帧后求信息指纹即可。

第十七章、 谈谈密码学的数学原理

RSA加密算法

第十八章、 搜索引擎反作弊

用通信模型对于反作弊也有用
(1)从信息源出发,加强通信(编码)自身的抗干扰能力
(2)从传输来看,过滤掉噪音,还原信息

在使用了PageRank算法之后,作弊者就想用大量链接指向同一个网站来提高这个网站的排名,但是导向这个网站的那一堆网站出链向量余弦距离接近1,这就说明都是同一个人建的,就是为了提高排名。
另外还可以利用图论的知识,在图中个,几个节点两两相互连接,那么很有可能是作弊的,为了提高排名。

搜索引擎的目的有两个,一个是导航,另一个是查找信息,但是搜索引擎也不能保证信息的权威性和准确性。怎么解决呐?有一个思路,比如提及吸烟的危害,与他一起出现的机构,如果出现频次很高,一般就更权威,当然,这需要对每句句子进行句法分析,工作量很大,Google的句法分析器足够快且服务器够多才办到。

第十九章、 谈谈数学模型的重要性

1、一个正确的数学模型应当在形式上是简单的。
2、一个正确的模型一开始可能还不如一个精雕细琢过的错误模型,但只要大方向是对的,就应该坚持下去。
3、大量准确的数据对研发很重要
4、正确的模型也可能受噪音干扰,而显得不准确:这时不因该用一种凑合的修正方法弥补,而是要找到噪音的根源,这也许通往重大的发现。

第二十章、 不要把鸡蛋放到一个篮子里

最大熵原理:对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。

另外,对于任何一组不自相矛盾的信息,最大熵模型存在,而且唯一,是以指数形式展示的。

第二十一章、 拼音输入法的数学原理

相比类似五笔输入法的拆分字结构,拼音输入法虽然键多,但是减少了思维的停顿,所以更合适,也不慢。另外,拼音转汉字的算法类似最短路径算法,使用了动态规划,输入法是一个将拼音串变到汉字串的转换器。

第二十二章、 自然语言处理的教父马库斯和他的优秀弟子们

马库斯最大的贡献是建立了LDC语料库,另外培养出了很多优秀的学生。做事情有两种可以成功的方法,要么追求完美,完善细节,要么以简为美,简单有效。

第二十三章、 布隆过滤器

把一个email地址通过8个随机数生成器生成8个信息指纹后再通过一个随机数生成器生成八个自然数,然后在一串全是0的字符串中把相应数字位置为1.那么以后遇到垃圾邮件直接就可以判断邮箱了,也很节省存储空间,不过可能有一点误判。

第二十四章、 马尔可夫链的拓展

贝叶斯网络是加权的有向图,是马尔可夫链的拓展,用于文本分类

第二十五章、 条件随机场文法分析及其他

马尔可夫链的拓展,无向图,用于句法分析,用于拼接出合理的句子,还有也可以一定概率上预测未来发生的事件(要有很大的训练数据量),美国警方就用这个达到有针对性的在某些区域防范某些犯罪。

第二十六章、 维特比和维特比算法

本质上是动态规划求最短路径。

第二十七章、 上帝的算法-期望最大算法

期望最大化算法属于EM算法。根据现有模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程(E过程),重新计算模型参数,以最大化期望值,称为最大化过程(M过程)。EM算法对于凸函数能得到全局最优解,然而文本分类不是凸函数,只能得到局部最优解。
用于文本分类就是一开始随机选定一些点作为文本分类的各个中心点,再针对每个点选出最近的点进行归类,产生很多的归类划分,但是这种划分肯定效果很差,因为是随机选的中心点。然后,对于每块划分,计算它的中心作为新的中心点(之前分类的时候只是算了最近点,不代表随机选的点是中心点),然后再归类,如此循环往复直到收敛,就完成了归类。

第二十八章、 逻辑回归和搜索广告

搜索广告的广告点击率可以使用逻辑回归计算,基本上就是对于每个可能的影响因素,乘以对应的参数后相加得到一个值,和最大熵函数很类似。至于参数的计算,因为它是一个一层的人工神经网络,所以所有训练人工神经网络的方法都适用。

第二十九章、 各个击破的算法和Google云计算基础

把大的问题拆分成小的问题进行解决后合并结果。

第三十章、 Google大脑和人工神经网络

不容易讲清楚,基本来说,人工神经网络相当于一个分类器,很智能的分类器。

第三十一章、 大数据的威力

大数据的作用很大

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容