01-导论

1 模式识别的应用领域

模式识别是一门以应用为基础的学科、目的是将对象进行分类。这些对象与应用领域有关,它们可以是图像、信号波形或者任何可测量且需要分类的对象。

在工业生产中,对自动化以及信息处理和检索的需求越来越重要,这种趋势吧模式识别推向今天的工程应用和研究的高级阶段,在大多数机器只能系统中,模式识别是用于决策的主要部分。

具体应用领域:

1)机器视觉中的模式识别:

机器视觉系统通过照相机捕捉图像,然后进行分析,生成图像的描述信息,典型的机器视觉主要应用在制造业,用于自动视觉检验或自动装配线。

2)字符(字母或数字)识别的模式识别

主要用于自动化和信息处理,如光学字符识别(Optional Character Recognition,OCR)系统包含前端设备,由光源、扫描镜头、文档传送机和检测器组成;在光敏检测器的输出端,光的强度变化转换成数字信号,并形成图形阵列;然后用一系列的图像处理技术完成线和字符的分段,模式识别软件完成字符识别的任务,也就是将一个符号分到相应的“字符、数字、标点符号”类中。与储存扫描图像相比,存储经识别处理的文档的好处是:更容易进行文字处理;存储ASCII字符比存储文档的图像效率更高,如手写识别;

3)计算机辅助诊断(Computer-aided diagnosis)模式识别

目的是帮助医生做诊断决定

4)语音识别(Speech recognition)模式识别

5)数据挖掘和知识探索(Data mining and knowledge discovery)模式识别

数据挖掘广泛用于医学和生物学、市场和财务分析、企业管理、科学探索、图像和音乐检索。

为什么需要数据挖掘和知识探索(Data mining and knowledge discovery)模式识别:

在数据库中,查找信息的最传统方法是基于模型描述,对象检索是基于关键词描述和部分字匹配,然而,这种搜索的前提是,已存储信息已经进行了人工标注,这是一项很费时的工作,当存储信息广为分布、由不同类型网站和用户共享时,人工标注就变成了问题,这种系统是根据提交到系统中的对象与全世界各网站上对象间你的“相似性”来查询信息的;

在基于内容的图像检索(Content-Based Image Retrieval,CBIR)系统中,图像传送到输入设备中(如扫描仪),该系统返回基于可测量信号判断“相似”图像,信号是可编码的(如颜色、纹理和形状等相关信息);

在基于内容的音乐检索系统中,从音乐作品中摘录,用麦克风输入,系统返回“相似”的音乐作品。

典型的应用包括指纹识别、签名认证、文本检索、表情和手势识别等。

2 特征、特征向量和分类器

如识别良性、恶性肿瘤图像,第一步确定可测量的值,用来区别两个图像区域,我们可以确定每一个区域中强度均值和其标准偏差的关系;每一个点代表着已知数据库中一副不同的图像,这表明A类样本和B类样本分布于不同的区域,使用一条直线将两类样本分开。

备注:

标准偏差(Std Dev,Standard Deviation) -统计学名词。一种度量数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。

分类测量方法(均值和标准偏差,称为特征值),例如,有n个特征组成特征向量

X=[x_{1},x_{2},...,x_{n} ]^T,T表示转置,每个特征向量表示一个样本对象,特征和特征向量分别视为随机变量和向量,直线称为决策线,由它决定的分类器将特征空间划分为不同的类空间。

分类图中每一个点的类别标签,即用来设计分类器的样本(特征向量)的所属类是已知的,这些样本称为训练样本(训练特征向量)

分类任务的基本问题:

1)如何提取特征:通过特征完成已知样本的识别。

2)特征数n为多大是最好的:在分类系统设计的特征选择阶段完成,需要选择大量特征中最好的使用。

3)对特定任务选择了合适的特征后,怎样设计分类器:在实际项目中,不可能划分分类使用一条简单的直线,必须按照最优标准将线画在最优的位置。较好性能的线性分类器(直线或n维空间的超平面)可能没有判定规则,一般情况,不同类别的区域划分是是非线性的,在n维的特征空间中,采用什么样的非线性分类器以及采用什么样的优化准则,这些问题在分类器设计阶段解决。

4)当分类器设计完成后,如何评估分类器的性能: 如何评测分类误差率,这是系统评估阶段的任务。

分类系统设计的各个阶段,每一步都不是独立的,它们相互关联、相互依赖;为了提高整体性能,每一个阶段都有可能返回到前一个阶段重新设计,而且有一些阶段可以合并。

3 有监督、无监督和半监督学习

1)监督模式识别:假设有一个可用的训练数据集,并通过挖掘先验已知信息来设计分类器

2)无监督模式识别或聚类:没有已知类别标签的训练数据可用,在这种情况下,给定一组特征向量X来揭示潜在的相似性,并且将相似的特征向量分为一组。

无监督模式识别主要用于确定两个特征向量之间“相似度”以及合适的测度,并选择一个算法方案,基于选定的相似性测度对向量进行聚类(分组)。

3)半监督学习/模式识别,当模式设计者得到数量有限的标记数据和一系列原始未知类别的模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容