信息架构6- 元数据及叙词表、受控词表

本文主要为《WEB信息架构：构建大型网站》读书笔记。
书本内容有点晦涩，但对系统性理解信息架构很有帮助，我尽量找了一些流行的应用作为案例，整个系列分为6篇：
1. 概述
描述信息架构的定义，组成，要完成的目标，背后的用户需求及信息架构的具体成果。
2. 组织系统
信息架构最重要的组成部分，我们平常提到信息架构，也大多是指组织系统，这里介绍了信息架构的常见模式与常用分类方法。
3. 标签系统
如果说组织就是分类，标签就是给分类命名，这里介绍了一些命名的主要方法来源。
4. 导航系统
信息的组织方式基本决定了导航的方式，这里更多的是介绍了一些辅助导航方式。
5. 搜索系统
如何让用户搜索到信息，事情可能有比你想象的多。
6.元数据、受控词表与叙词表
这几个一听就是专有名词，主要是为了改进搜索，是属于界面以下看不见的背后工作。不是有大量内容的站点可能用不上。
7. 信息架构构建流程与方法论
看完这个就会搭建信息架构了吗？并不能。这里只是有一些流程方法建议。

在淘宝搜索铲子，会得到下图的结果，那系统是如何推测我想找的是什么，又为什么这么建议呢？

这就是元数据与叙词表、受控词表的应用，为了更好的搜索体验而生。
元数据与受控词表一起，描述系统间的关系，是信息架构的基础。
叙词表(thesaurus)则能让前端的用户感受到更无暇且令人满意的体验。

1. 元数据metadata

描述数据的数据。
这样定义很抽象，我们可以把元数据简单的理解成，最小的数据单位。
元数据可以为数据说明其元素或属性（名称、大小、数据类型、等），或其结构（长度、字段、数据列），或其相关数据（位于何处、如何联系、拥有者）。

举几个简单的例子：
使用过数码相机的同学都应该知道，每张数码照片都会存在一个EXIF信息。它就是一种用来描述数码照片的元数据。根据EXIF标准，这些元数据包括：Image Description(图像描述、来源. 指生成图像的工具 )、Artist(作者)、Make( 生产者)、Model (型号)、….、等等。

生活中我们填写的《个人信息登记表》，包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等这些就是锁定某个人的元数据。

通常情况下元数据可以分为以下三类：结构化元数据、管理性元数据、描述性元数据。
固有性元数据：对象实际是什么。
管理性元数据：与事物处理方式有关的元数据。描述一类信息的属性，帮助信息通过相同属性进行划分。
描述性元数据：与事物本质有关的元数据。

当然，并不是说所数据总能清晰的划分在以上3类中。
比如：一张由kent拍摄的大小为20K的JPG格式的印着一只小狗的圣诞卡照片。
它的结构化元数据包括：20K、JPG；
管理性元数据：kent拍摄、圣诞卡；
描述性元数据：狗、小狗、圣诞、照片、圣诞节、…
但是，圣诞卡则可以放在以上任何一个分类中。与事物构成有关（说明这个东东是什么）、与事物处理方式有关（说明这个东东的用途是什么）、与事物本质有关（可以直接用来描述这个东东）。

元数据实际上是为产品的可查找性（Findability）服务的。
而用户在查找信息的时候不会按照机器思维去找（不会输入该照片的ID），而是直接输入关于信息的描述性信息如：“小狗圣诞卡”。
也就意味着在创建关于描述性元数据的时候要尽量的提取出任官关于这个对象所讲述的故事，这些才是人们能记住的和习惯搜索的细节。

2. 叙词表与受控词表

词与词之间的语义关系从简单到复杂我们可以划分为三种：等价、等级、相关。
以下图为例：
等价：同义词。internet与互联网，基本等同。
等级：整体与部分，包含与被包含，抽象与实例，分类与子分类。例如计算机与互联网，经理与产品经理。
相关：关联关系，但不时等价或等级。例如经理与经营，互联网与电商。

然后我们再来看看这些专业术语：

优选术语（Preferred Term，PT）：可接受术语的最优解，标准用语。是所有关系的基础。例如对学校的描述中，“哈尔滨工业大学”是标准的表达方式。它就是我们学校的优选词语
异形术语（Variant Term，VT）: 入口词或非优选术语。与优选术语定义等价。例如“哈尔滨工业大学”又称为“哈工大”
上位类术语（Broader Term，BT）：优选术语的上层术语，术语等级中的较高一层。比如“哈尔滨工业大学”这个词汇的上位类术语可能是“高等院校”、“大学”等词汇
下位类术语（Narrower Term，NT）：优选术语的子术语，处于等级中较低的一层。相对“哈尔滨工业大学”，它的下位类术语可能是“航天”、“工科”等词汇
相关术语（Related Term，RT）：通过相关关系与优选术语关联，用以表达词汇间的“强烈暗示”关系。例如“哈尔滨工业大学”这个词汇，可能强烈的暗示着“部属院校”，“985工程”等词汇
用（Use，U）：叙词表使用的语法，A 用 B
代（Used For，UF）：叙词表使用的语法 A 代 B
范围注释（Scope Note，SN）：优选术语定义的特定类型，用来限定术语的定义，尽可能消除模糊性

2.1 受控词表

受控词表是一份等价术语（equivalent terms）清单，按同义词环圈（synonym ring）的形式排列。或者是一份优选术语（preferred terms）清单，储存在规范文档（authority file）中。或者定义术语之间的等级关系（上位类——broader、下位类——narrower）就有了分类体系（classification scheme）。下图说明了这几种不同受控词表的关系：

2.2 同义词环圈（Synonym Rings）

把一组定义为等价关系的词汇连接起来，以供搜索之用。
将具有相同含义的元数据描述信息放到一起，在搜索的时候首先匹配全字符，然后再匹配相关同义词，这样可以提高搜索的查全率，也是模糊搜索的一个特性。如下图所示：

同义词环圈主要解决的问题是：当挖掘网站日志或者做关键词分析的时候，就会发现不同的人在寻找同样的内容时，会输入不同的术语。同义词环圈就是要覆盖这些用户可能输入的同义词。

20世纪80年代Bellcore所做的研究中发现：同义词环圈可以大幅提高查全率，同时也会降低查准率。解决办法是规定精确匹配的关键词结果要放在搜索结果清单的顶端。或者最初的搜索可以忽略同义词环圈，但是提供选项在结果稀少或者无结果时，扩展搜索包含相关术语。

2.3 规范文档（Authority Files）

一份优选术语或可接受值的清单，不含词形变化或同义词。

规范文档定义术语的基本范围，主要包含优选术语，即定义出来的最高层级的叙词表，其他异形术语或同义词可以从规范文档中进行扩展。

这就使选择限定在一定的范围之内，对于大型系统，要保证一致性，必须提高规范的作用。下图是个规范文档的示例：

事实上，规范文档通常包含优选术语（preferred terms）和异形术语（variant terms）。
换句话说，规范文档也是同义词环圈，其中包括优选术语或可接受的值。
例如：美国各州有标准简写，规范文档中只包含可接受的代码：
AL, AK, AZ, AR, CA, CO, CT, DE, DC, FL, GA, HI, ID,
IL, IN, IA, KS, KY, LA, ME, MD, MA, MI, MN, MS, MO, MT, NE, NV, NH. . .

然而，为了让这份清单可以应用在在大部分场合里，则至少还需要包括各州完整州名的对照表：
AL Alabama
AK Alaska
AZ Arizona
AR Arkansas
CA California
CO Colorado
CT Connecticut
. . .
为了满足更多的应用场合，也可以包含各州州名的各种不同称呼：
CT Connecticut, Conn, Conneticut, Constitution State

2.4 分类体系（Classification Schemes）

优选术语的等级式排法，例如杜邦十进制分类法。最近很多人喜欢用分类法（Taxonomy）这个词。

在优选术语中也需要进行等级的分类，否则数量多了以后对于信息检索会成倍的复杂。

而涉及分类，则会有各种各样的方式，其中的杜邦十进制分类法则是在图书馆中应用最广泛的方法。杜邦十进制分类法（Dewey Decimal Classification，DDC）诞生于1876年，是世界上使用最广泛的分类系统。杜邦十进制分类法最简单的形式是一个等级式的清单，由10个顶级分类开始，再逐一向下延伸细节：
000 计算机科学、资讯与总类（Computers, information, & general reference）
100 哲学与心理学（Philosophy & psychology）
200 宗教（Religion）
300 社会科学（Social sciences）
400 语言（Language）
500 自然科学（Science）
600 技术应用科学（Technology）
700 艺术与休闲（Arts & recreation）
800 文学（Literature）
900 历史、地理与传记（History & geography）
下图是加拿大国家图书馆使用DDC作为一个可浏览的登记系统：

2.5 叙词表（Thesauri）

一种受控词表，把很多词对应到某个优选术语或概念上，其中的等价、等级和相关关系会被识别出来，以改进信息检索。

我们的第一张图就是一份叙词表实例，下图显示了每个优选术语都是其自身语义网络的中心

叙词表的种类

经典式叙词表——按照我们上面描写的步骤，完整创建形成的叙词表，是一种全方位的叙词表。
索引式叙词表——信息结构相对固定，用户也相对固定，没有能力提供引擎级搜索，只能将受控词表拿出来做一个索引让用户进行浏览式查找。
搜索式叙词表——面向大众的信息系统，信息更新很快或者用户群不固定，无法建立相对固定的索引，在搜索时匹配受控词表，在应用叙词表的3种关系时权衡查准率和查全率，并通过搜索界面的设计，提供更加灵活的浏览方式。

2.6 分面分类法

现实生活中，单一的等级或等价关系有很大局限，不同用户所理解信息的方式难以用一种方式表达。而是有了多维度或分面的分类表示法，这给搜索，结果展示提供了良好的灵活性。

常见的分类方式有：

主题
产品
文件类型
用户
地理位置
价格

这种多维度分类方式在电商零售领域已经普遍应用，比如在淘宝搜索铲子：

1.. 品牌，材质等多维度分类。
2.. 叙词表的应用，铲子厨艺，铲子户外等推测用户用途，搜索结果也是多种用途铲子混排。

原文

最后编辑于：2017.12.06 00:26:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,311评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,339评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,671评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,252评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,253评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,031评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,340评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,973评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,466评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,937评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,039评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,701评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,254评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,259评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,497评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,786评论 2赞 345