标签系统

前言

不管你是一个什么样的社会角色,在数据横行霸道的这个时代,面对充斥着屏幕的巨型体量的数据信息,你该怎么管理?无奈的面对等待挑选的信息,你该如何选择?

如果说这些数据被定义好了正确的属性,明确的内容特征,这时候是不是就解决了我面对数据时的无奈和尴尬。


举个栗子

画风突变一下

来来来,我们来聊聊各种文胸;

今天在公司做运营培训,多次提到文胸这个生活必需品,我们就拿它来搞事情。


案例背景是这样的:小张、杨先生、李先生同去内衣店(为什么是同去?搞事情啊)

小张:万年单身宅男,没交过女朋友,谁知道他为什么要去内衣店买文胸,进店后低着头说要普通文胸,黑色的。

杨先生:跟女朋友如胶似漆(不是我),打算趁热打铁,送女朋友个礼物,要一套性感的情趣内衣,升级一下男女之间的革命友谊,大小暂时还不知道,要聚拢的,最好是黑色或红色的,有蕾丝,V型款式晚上回去不可描述...

李先生:老婆下班前打电话,内衣坏了,你下班早,爱我就去帮我买个内衣,大小你知道,颜色素一点,无痕的,后双排搭扣。

小张、杨先生、李先生,他们到内衣店会懵逼的,好多品种,好多颜色,布料不多,形式不少;怎么挑啊... ...


让开让开让开,我来了(假装我是卖内衣的)

我们要做的就是怎么帮助迷失在文胸中的男性同胞们,提供一个快速定位的解决方案!

怎么做这个解决方案呢?

文胸那么多,我们对文胸规整分类、标属性呀。


站在商家角度:

1、化分类

文胸、情趣内衣、少女文胸、抹胸、塑身美体...

2、标属性

有无钢圈:无钢圈、有钢圈

胸围尺码:70A,70B,70C,70D... ...

模杯厚度:薄模杯、上薄下厚模杯、超薄杯... ...

适合胸型:小胸、大胸、外扩... ...

罩杯型:3/4罩杯、全罩杯、背心式... ...

功能:聚拢、无痕、调整、上托... ...

搭扣:后四排搭扣、后三排搭扣、后双排搭扣... ...

使用季节:春季、夏季、秋季、冬季、全季... ...

有无钢托:无钢托、有钢托

款式:V型、U型、背心型... ...

... ...


站在数据角度

1、分类

分类是一个将思想或事物进行识别、差异化和理性化的过程,他是对事物集合的一个宽泛的描述整理。

就如同上面我们将各种文胸首先按应用类型进行归类一样。

分类是抽象化,大纲级别。

2、标签

对应就是我们上面说的属性,他是对分类的进一步细分,是对商品的更加细化的描述。

标签是实例化,关键词级别。


我们将所有文胸进行了分类化、标签化,其实就是在数据概念里对资源的清洗、整理、特征提取。重新被明确特征后,我们想要找到目标资源还会手足无措么?


章节

一、Tag & Tagging

Tag:是对信息进行描述的一种元数据;

元数据是所谓描述数据/信息的数据;Tag是一种被普通用户或专家定义的,能够用来对资源进行描述的一种关键词。Tag是一种用户自创的元数据,特点是无层次结构、自定义。

Tagging:是用户为资源进行赋予Tag的一种行为。


tag这种设计,是http://del.icio.us开发者Joshua Schachter最早采用的,Joshua也曾经解释过,为什么他要用tag。

摘录如下:

据Joshua介绍,1998年他在做一个网站时,手头有大量链接需要保存,最初这些链接是被保存在一个文件中。随着保存的内容越来越多,为了更快捷地找到某个链接,他开始在链接后面加上单词的备忘,这就是后来的标签(Tags)。

他说,“我希望借助电脑的帮助,把存储和取回分成两个独立的行为,因此当你给你存储的东西加上tags,你就可以更容易地取回它们。在这么做的时候,你取回其他人存储的东西也会变得更简单。tags促进并放大了这一点。”

Delicious,Flikr等队标签的应用促进了标签的快速发展,现在已经成为了我们常见的对内容描述的功能。

图书馆学者们很快发现,随着在社会化网站中tag被大量采用,它成为传统的本体论分类方式之外的一种新的分类方式,群体行为在某些情况下具有惊人的一致性,这种一致性产生了对事物的有意义的社会定义。这种新的分类方式,被称为“大众分类”(folksonomy)。

精确性、唯一性,我们都习惯于传统信息组织的这些特性;这些特性常常会使用户对tag的理解上造成误区,我们会将传统信息组织的特性来要求大众分类,这就有点像传统数学家对解模糊数学的某种抵触。

我们现在要从一片西瓜地里找出一个最大的西瓜,那是件很麻烦的事。必须把西瓜地里所有的西瓜都找出来,再比较一下,才知道哪个西瓜最大。

西瓜越多,工作量就越大。如果按通常说的,到西瓜地里去找一个较大的西瓜,这时精确的问题就转化成模糊的问题,反而容易多了。由此可见,适当的模糊能使问题得到简化。


二、Tagging不是一个万金油,有利也有弊

关于标签这个东西,有人说好,好在他极大地方便了用户对数据的管理,使数据更加清晰,让无序的,杂乱的数据能够按指定的规则进行重整,极大提高了管理的效率和高效的数据挑选;


同样有人说他不好,Tagging在分众分类法时,无法保证标签在数量和质量上的控制,用户在使用标签时,质量受环境、心情、理解等各种因素影响,有造成大量无意义的关键词的危险,这些低效能的关键词根本不能达到作为一个标签的要求。

对于系统而言,标签定义的范围是否需要限制?Tag是否越多越好?尤其困难的就是我们根本无法提前预知被标签描述的资源,将来会发展成什么样。

另外,Tagging本身对与用户来说就是一件具有学习成本的事情,用户本身对信息的描述可能就很陌生。


我们能进行信息组织时,主要有两种:

1、分众分类法(folksonomy):指大众自发利用Tag对信息进行描述、分类,构成与信息架构中。

2、传统分类法(taxonomy):以专家意见或行业规则定义的,大众共识的一种标记方法。

二者区别见下图:

taxonomy VS. Folksonomy

图片来自网络

Tagging的优势

结合vs图的对比,可归纳出Tagging的以下好处:

1、使信息组织更经济、高效、灵活

我们描述的资源处在一个高速成长,持续复杂化演进的过程中,随着信息越来越多,传统分类法和分众分类法的区别就会越来越明显;

在高速成长的数据体量下,传统分类法的劣势愈发明显:开发、维护的成本不断增加;而基于标签、运用普通用户来维护的分类法则相反;

更明显的是在当下的社会环境中,针对各个行业,数据越来越体现个性化,因为个人产生的数据越来越多,系统的分类、描述能力和效率可说远不如内容创造者本身。

2、对信息的索引、描述更丰富

a.传统分类法中因为控制词表(thesaurus)的存在,限定了严谨的规则标准,Tag固然没有传统分类的严谨,但一个资源是可以持续被无穷多个用户进行无穷多个标签的描述,在标签被重复描述到资源的过程中,大众对于资源的认知总会趋于几个大众方向,人们对资源的理解在数量上爆炸后总会惊人地趋于一致,这时候针对标签的搜索就有了不次与传统分类的获取。

在针对一些图片、视频、音频进行描述标注时,传统分类的成本极高、效率更低,这时候Tagging的价值就会越发明显。


b.Tag是一个开放的资源描述,这种描述的关键词一般是具备共享性质的,其分布往往呈长尾状收敛(Shirky, C. 2005)。

给个标签及其使用频率,既可以反映大众对于资源认知上广泛一致性的定义,又不至于让小众意见(minority opinion)完全被淹没。

两条deli.cio.us书签的Tag频率分布

两条deli.cio.us书签的Tag频率分布

图片来自网络


3、更人性化的信息检索

标签的应用最终优化的是搜索过程的高性能和结果的高匹配度,以及获取更多资源的可能性;

当资源的种类和内容不断丰富(如Flikr的所有相片、Youtube的所有video),资源的接触点更多了,通过接触点用户对资源的描述也越加丰富,最终用户在海量的信息当中进行资源搜索时,也就能有更多的机会获得与搜索预期匹配的内容。利用大众对资源的理解,和描述的不断丰富,来让搜索更加语义化、人性化、社会化。


小结:

以上描述的都是标签在#社会性#上的优势,标签在标引信息时的一大特点在于#自我性#。

Golder et al(2006)提出Tag大致在描述信息的7方面:

1、它关于什么(主题、分类、属性等)

2、它是什么(标题、类型等)

3、谁拥有它(作者、协作者)

4、修饰Tag的Tag

5、它的品质(有趣、雷人等)

6、自我参考(我买过的、我的书等)

7、任务管理(待读、找工作等)

标签因其高度自定义的特性,使用户在使用标签时,能够更加个性化地去描述资源,每个人对于资源的理解差异,需要这种个性化的支持来满足用户的理解差异。从最后3条我们就可以看出自我性的影子,

这种自我性带来的好处是

1、辅助个人信息管理

同样因为标签的自定义特性,使用户可以对资源进行个性化的描述,使用户的使用场景(context)成为资源描述的一部分,例如:我喜欢这首歌,我想买这个手办,这类标签时传统分类所无法支持的。

2、用户识别

2.1当标签被频繁关联到用户,我们通过标签就可以更加清楚地认识到我们的用户,是一个什么样的画像,我们就可以针对用户进行个性化的推荐,或营销活动的精准化。

例如:用户经常性的听一些歌曲,这些歌曲都带有#古典乐#标签,我们通过用户的听歌行为,可以分析出用户的个人偏好;

网易音乐的个性化推荐

网易云音乐个性化推荐

2.2同样,如果一些标签被直接定义在用户身上,我们也可以直接读取到用户的标签形态,对用户进行一个清晰的认知。

某营销云软件

猜猜我是哪家软件

Marlow et al (2006)与Ames & Naaman(2007)曾探讨用户Tagging的动机,表现出社会性自我性的结合

社会性自我性的结合

标签社会性、自我性的特点又会带来另外一个优势:社会化网络的构建

标签总是有能力将人或物进行聚合。

从单体角度讲,标签可以具象一个用户的特征属性,让用户更清晰。

从群体角度讲,标签能将所有单体聚合成一个团体。

举个例子:

例如Flikr上一个语法错误、表意模糊的Tag,sometaithurts(so meta it hurts,如此“元级别”,如此痛),却聚集了来自各色用户的各色相片。


Tagging的弊端

Tagging最为人所诟病的特性有:缺乏一致性、歧义、语法错误

这是由于与专家相比:

大众是“懒惰”的:Tagging可能停留在粗浅的表层,而不做深入思考或精准描述。尤其当Tag与系统固有分类维度重合的时候,就会失去价值。

例如为豆瓣上的电影打上“电影”这个Tag的意义是零。

大众是“虚伪”的:有人会为了让自己出现在搜索结果更前面等目的而乱Tag;

大众很“笨”:拼写问题:除了拼错字词,英文里词组的分隔、大小写、单复数等就会造成大量混乱的Tag;

没记性:表现为个人在同一系统中使用不一致的Tag(如字面相异,意义相同等)来标注同一或相似内容。

这些都会导致大量污染性的垃圾Tag,即所谓搜索结果中的噪音出现,从而降低检索效率。

但这并非Tagging的致命伤,通过设计的引导是可以改善这些问题的。


二、Tagging系统

Tagging系统模型

Marlow et al (2006)提出一个Tagging系统模型,包括资源、Tag、用户三部分,它们的关系如图:

tag+resource+user

一方面,标签可以同时用来描述多个资源,这些统一标签描述的资源彼此具有相似性,标签促使资源之间产生联系;

另一方面,资源可以被多个标签进行描述,多维度的标签描述使得资源更加立体,标签的丰富性使得资源个轮廓更加清晰。

站在用户的角度,通过标签对用户个性化的描述,更容易使用具有相同属性的用户聚集到一起,形成细分的概念,便于形成用户团体的社会化人群,或者方便企业更加精准的针对人群进行营销活动的触达。

针对模型相应的设计维度

Tagging系统的维度及设计启示

Tag清理维护

你能保证系统里的标签都是用户真正感兴趣的么?高度的标签自由度让我们对这一点没有说yes的勇气。

举个例子:

在一个视频网站中,用户可能对一个视频赋予了一个表示情绪的标签,比如“不好笑”(no funny)。

但我们不能因此认为用户对“不好笑”有兴趣,并且给用户推荐其他具有“不好笑”这个标签的视频。

相反,如果用户对视频打过“成龙”这个标签,我们可以据此认为用户对成龙的电影感兴趣,从而给用户推荐成龙其他的电影。

标签控制

在标签不断丰富的过程中,系统内标签的体量会越来越大,站在系统的角度来看,面对越发泛滥的的Tag我们什么都不做么?

Gruber (2006)提出通过Tag内在的规范名(Canonical Name)对字面各异、实质相同的Tag进行清理。

如通过算法将User Experience, UX, user_experience在系统内部统一为规范名User Experience。

无论用户输入的是哪个形式的Tag,系统都将返回所有的结果。

标签清洗

在标签体系形成一定体量后,结合传统的机器索引、专家人工干预,等一切我们能够提高标签质量、控制标签数量的手段,进行适当的标签清理、聚合

主要有三点:

去除词频很高的停止词。

去除因词根不同造成的同义词,比如 recommender system和recommendation system。

去除因分隔符造成的同义词,比如 collaborative_filtering和collaborative-filtering。

注:

停止词:是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。



Tag规范

1、提供推荐tag建议,尽量引导用户规范输入。

推荐选择+客户强制输入

如罗列个人常用Tag,他人常用高频Tag,系统默认的推荐标签,可有效减少拼写相异语义重复的Tag,提高Tag之间关联性,并可减轻用户思考负担。

根据用户的标签历史对用户进行高频、高质的标签直接添加(感兴趣标签)

打标签基础形态

根据用户输入内容,进行尽可能的内容匹配,引导用户对现有标签的选择,尽可能控制标签的数量

候选交互引导标签的控制


2、自定义标签与系统标签并存,自定义标签转化为系统标签。

a自定义标签转化为系统标签

b自定义标签自身通过事件模型进行目标搜索

3、对用户Tag进行评级,Tag拥有权重体系。

#草稿#

权限最终应当是通过计算得出,不能简单的通过客户配置简单数字来实现

规则

标签作用范围(优惠码、人...)、使用频次(被打到资源上的次数)、使用时间(最近使用时间)、标签作用资源被产生的行为(商品被购买...)

举例:

品牌有 苹果、三星

苹果被用来描述电脑+手机+pad...

三星被用来描述手机、显示器...

苹果被应用过,苹果权重+1,权重为1;三星没有被应用过,权重0;权重苹果高于三星

苹果电脑被买过2,权重+2,权重为3;三星被应用过,权重为1,权重苹果高于三星

1.7能搜索模糊搜索出标签+使用频次权重就行


End吧

Tag以及Tagging的社会性、自我性,能帮助实现个人化、社会化、情景化搜索

但前提是:

有更成熟的Tagging系统构建。

底层技术上,目前对于垃圾Tag的收敛、清理,做得不够,也尚未良好地结合传统分类与大众分类。

UI上,尚未实现有效引导用户去Tag系统已有维度之外、更具附加值的维度。

如在豆瓣上打“友情”这个Tag是有价值的,但打“电影”就无甚价值了。


卖文胸的,我们来谈谈合作吧,我们做标签的~


注:部分图片内容引用自网络

2016-12-17 22:24

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容