在罗马体系的文字中,总体来讲,常用字短,生僻字长。而在意形文字中,也是类似。这完全符合信息论中的最短编码原理。
在通信时,如果信道较宽,信息不必压缩就可以传递;而如果信道较窄,信息在传递时需要尽可能的压缩,然后在接收端进行解压缩。
-
语言模型:
一个句子是否合理,就要看它的可能性大小如何。可能性用概率来衡量,演化成数学模型就是马尔可夫二元模型,即假设一个词出现的频率只与他之前一个词相关。
N元模型即是假设一个词由之前N-1个词决定
当N从1到到2时,再从2到3时,模型的效果上升显著。而模型从3到4时,效果的提升就不是很显著,而资源的耗费却非常快,所以除非不惜资源做到极致,很少有人使用4元以上模型。 中文分词:
一般使用查字典方法,查字典方法,从左往右扫描一遍,遇到字典里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的就分割成单字词。
其中用统计学+查字典的形式,解决分词歧义的问题。
在对中文分词时,一个问题就是词语的颗粒度问题。不同的应用中,会有一种颗粒度比另一种好的情况。比如在机器翻译中,一般说颗粒度大,翻译效果好。但在另外一些应用,比如网页搜索中,小的颗粒度比大的颗粒度反而要好。因此颗粒度看场景使用。-
马尔科夫链和隐含马尔科夫链
如果没有信息,任何公式或者数字的游戏都无法排除不确定性。信息的作用在于消除不确定性,自然语言处理的大量问题就是找相关的信息。
网页搜索:
网页搜索的本质是要从大量(几十亿个)网页中,找到和用户输入的搜索词最相关的几个网页。几十亿个可能性,如果只剩下几个网页,就几乎没有不确定性了。网页搜索的本质是消除不确定性,如果提供的信息不够,正确做法是挖掘新的隐含信息,或直接问问用户。不正确的做法是在关键词上玩数字和公式的游戏,由于没有额外信息的引入,很没有效果。
搜索引擎的道:下载(网页)→索引→排序
网络爬虫对网页遍历的次序不是简单的BFS或者DFS,而是有一个相对复杂的下载优先级排序的方法。管理这个优先级排序的子系统一般称为调度系统。
对于一个特定的查询,搜索结果的排名取决于两组信息:关于网页的质量信息和这个查询与每个网页的相关性信息。-
有限状态机
如果一条地址能从状态机的开始状态经过状态机的若干中间状态,走到终止状态,那么这条抵制就有效,否则无效。
图论/动态规划:找一个图给定两个点中最短路径,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。 模型原则
一个正确的数学模型应当在形式上是简单的
一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的精准,但是,如果认定大方向是正确的,就应该坚持下去
大量准确的数据对研发很重要
正确的模型也可能受噪音干扰,而显得不正确。这时不应该用一种凑合的修正方法来弥补,而是要找到噪音的根源,这也许能通往重大的发现。拼音输入法的数学原理:
输入法输入汉字的快慢取决于对汉字编码的平均长度,用通俗话来讲,就是击键次数乘以寻找这个键需要的事件。
《数学之美》读书笔记
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...