翻译:《Data Science for Business》

第二章:Business Problems and Data Science Solutions(业务问题以及数据科学方案)

P24-P27

Supervised Versus Unsupervised Methods

监督学习和非监督学习方法

Consider two similar questions we might ask about a customer population. The first is: “Do our customers naturally fall into different groups?” Here no specific purpose or target has been specified for the grouping. When there is no such target, the data mining problem is referred to as unsupervised. Contrast this with a slightly different question: “Can we find groups of customers who have particularly high likelihoods of canceling their service soon after their contracts expire?” Here there is a specific target defined: will a customer leave when her contract expires? In this case, segmentation is being done for a specific reason: to take action based on likelihood of churn. This is called a supervised data mining problem.

考虑下述两种与客户群体相关的数据问题。第一个问题是:“我们的客户会自然分成不同的群体吗?”“这里没有为分组指定特定的目的或目标。当没有这样的目标时,数据挖掘问题被称为无监督分类问题。与此相反的是另一个稍微不同的问题:“我们可以找到那些在合同期满后很快取消服务的客户群吗?“,这里有一个明确的分组目标:当合同到期时,客户会取消合同吗?在这种情况下,因特定的原因而进行的细分:根据流失的可能性而进行的分析。这称为有监督分类问题。
这些问题之间的区别很微妙,但很重要。如果可以提供一个特定的分类目标,这个问题可以表述为一个监督问题。监督任务需要不同于无监督任务的技术,但是结果通常更有用。监督技术提供了特殊的分组目标——预测目标分组。聚类是一种无监督的任务,它基于相似性产生分组,但不能保证这些相似性是有意义的,或者对于任何特定用途都是有用的。

The difference between these questions is subtle but important. If a specific target can be provided, the problem can be phrased as a supervised one. Supervised tasks require different techniques than unsupervised tasks do, and the results often are much more useful. A supervised technique is given a specific purpose for the grouping—predicting the target. Clustering, an unsupervised task, produces groupings based on similarities, but there is no guarantee that these similarities are meaningful or will be useful for any particular purpose.

从技术上讲,监督数据挖掘必须满足另一个条件:目标上必须有明确的数据(也就是需要相应的训练集)。目标信息在原则上存在是不够的,它也必须存在于数据中(训练集需要有明确的标记)。例如,了解给定的客户是否会停留至少六个月可能是有用的,但如果在历史数据中,保存的历史信息出现丢失或不完整(如果数据只保留两个月),则无法提供目标值(无法明确的知道哪些历史客户是停留过六个月)(训练集不完整)。对于数据科学研究来说获取目标数据通常是很重要的一个步骤。个体的目标变量的值通常称为个体的标签,而这些标签通常是需要在进行数据分析前对数据进行处理,标记。

Classification, regression, and causal modeling generally are solved with supervised methods. Similarity matching, link prediction, and data reduction could be either. Clustering, co-occurrence grouping, and profiling generally are unsupervised. The fundamental principles of data mining that we will present underlie all these types of technique.

分类、回归和因果建模一般用监督方法来解决。相似性匹配、链接预测和数据约简的问题一般也是用监督方法进行处理。聚类、共生分组和概要分析通常是无监督的。我们将提出的数据挖掘的基本原则是所有这些技术的基础。

Two main subclasses of supervised data mining, classification and regression, are distinguished by the type of target. Regression involves a numeric target while classification involves a categorical (often binary) target. Consider these similar questions we might address with supervised data mining: “Will this customer purchase service S1 if given incentive I?” This is a classification problem because it has a binary target (the customer either purchases or does not). “Which service package (S1, S2, or none) will a customer likely purchase if given incentive I?” This is also a classification problem, with a three-valued target. “How much will this customer use the service?” This is a regression problem because it has a numeric target. The target variable is the amount of usage (actual or predicted) per customer.

有监督数据挖掘的两个主要子类,分类和回归,其主要是由目标类型区分的。回归涉及一个数字连续性目标,而分类涉及一个分类(通常是二进制)目标。考虑我们可能在监督类数据挖掘中处理的问题:
“如果给予激励,这个客户是否会购买服务S1?”
这是一个分类问题,因为它有二进制目标(客户购买或不购买)。
“如果给予激励,客户可能会购买哪种服务包(S1,S2,否)?”
这也是一个三重目标的分类问题。
“这个客户将使用多少服务?”
这是一个回归问题,因为它有一个数字目标。 目标变量是每个客户的使用量(实际或预测)。

There are subtleties among these questions that should be brought out. For business applications we often want a numerical prediction over a categorical target. In the churn example, a basic yes/no prediction of whether a customer is likely to continue to subscribe to the service may not be sufficient; we want to model the probability that the customer will continue. This is still considered classification modeling rather than regression because the underlying target is categorical. Where necessary for clarity, this is called “class probability estimation.”

在这些问题中存在一些需要注意的细节, 对于商业应用,我们经常希望对分类目标进行数值预测。 比如在客户流失示例中,利用基本的 是/否 来预测客户是否有可能继续订阅服务可能还不足够; 我们想模拟客户将继续使用的概率。 这仍然被认为是分类建模而不是回归问题,因为基础目标是分类的。为了更加精准的定义这个问题,通常这被称为“类概率估计”问题。

A vital part in the early stages of the data mining process is (i) to decide whether the line of attack will be supervised or unsupervised, and (ii) if supervised, to produce a precise definition of a target variable. This variable must be a specific quantity that will be the focus of the data mining (and for which we can obtain values for some example data). We will return to this in Chapter 3.

在数据挖掘过程的早期阶段,比较重要的部分是:
(i)明确被研究问题是监督还是无监督问题,
(ii)如果是监督性问题,需要确定目标变量的精确定义。 这个变量必须是一个特定的数量,这是监督性数据分析的重点(我们可以为此获取某些示例数据的值),之后我们将会第三章来详细讨论这方面的问题。

Data Mining and Its Results

数据挖掘及其结果

There is another important distinction pertaining to mining data: the difference between (1) mining the data to find patterns and build models, and (2) using the results of data mining. Students often confuse these two processes when studying data science, and managers sometimes confuse them when discussing business analytics. The use of data mining results should influence and inform the data mining process itself, but the two should be kept distinct

在数据挖掘中存在着另外一种比较重要的差别:以寻找相关数据模式和构建数据模型而进行的数据挖掘,和为了得到并使用数据挖掘结果而进行的数据挖掘。学习数据处理相关的科学知识时,学生经常会混淆这两个过程,而在讨论业务分析时,管理者有时会混淆这些过程。 数据挖掘结果的使用应该影响和反作用于数据挖掘过程本身,但两者应该保持不同。

图 2-1 数据挖掘与数据挖掘结果的使用。 该图的上半部分说明了挖掘历史数据以生成模型。 重要的是,历史数据具有指定的目标(“类”)值。 下半部分显示了使用数据挖掘的结果进行数据的预测,其中模型应用于我们不知道分类的新数据。该模型同时预测了相应数据的分类以及产生该类值的概率。

In our churn example, consider the deployment scenario in which the results will be used. We want to use the model to predict which of our customers will leave. Specifically, assume that data mining has created a class probability estimation model M. Given each existing customer, described using a set of characteristics, M takes these characteristics as input and produces a score or probability estimate of attrition. This is the use of the results of data mining. The data mining produces the model M from some other, often historical, data.

考虑一下上述使用数据挖掘结果的方案并应用在之前所提到的客户流失的案例中。比如我们想使用该模型来预测我们的哪些客户会流失。具体地说,假设数据挖掘已经创建了一个类概率估计模型M。给定每个现有客户,使用一组特征描述,M将这些特征作为输入,并产生一个分数或概率来预测客户的流失。这就是使用数据挖掘结果的例子。其中模型M通过数据挖掘并使用相关的历史数据而产生的。

Figure 2-1 illustrates these two phases. Data mining produces the probability estimation model, as shown in the top half of the figure. In the use phase (bottom half), the model is applied to a new, unseen case and it generates a probability estimate for it.

图2-1说明了这两个阶段。 如图的上半部分所示数据挖掘产生概率估计模型。 在使用阶段(下半部分),该模型被应用于一个新的,不可见的样本,并且它为其生成概率估计。

The Data Mining Process

数据挖掘过程

Data mining is a craft. It involves the application of a substantial amount of science and technology, but the proper application still involves art as well. But as with many mature crafts, there is a well-understood process that places a structure on the problem, allowing reasonable consistency, repeatability, and objectiveness. A useful codification of the data mining process is given by the Cross Industry Standard Process for Data Mining (CRISP-DM; Shearer, 2000), illustrated in Figure 2-2

数据挖掘是一种工艺。 它涉及大量的科学和技术的应用,但是如何合理的使用它仍然是一门艺术。 但是与许多成熟的工艺一样,there is a well-understood process that places a structure on the problem, allowing reasonable consistency, repeatability, and objectiveness。 数据挖掘过程是由跨行业数据挖掘标准流程(CRISP-DM; Shearer,2000)给出,如下图2-2所示:

图2-2 CRISP 数据挖掘过程

This process diagram makes explicit the fact that iteration is the rule rather than the exception. Going through the process once without having solved the problem is, generally speaking, not a failure. Often the entire process is an exploration of the data, and after the first iteration the data science team knows much more. The next iteration can be much more well-informed. Let’s now discuss the steps in detail.

这个过程图显示了反复的进行数据循环分析,这是数据分析很重要的一个过程,而并不是一种异常。如果一个问题没有立即解决,一般来说,这并不是一种失败,因为整个过程通常是对数据的探索,在第一次迭代之后,数据科学团队能够知道的更多,下一次迭代可以更加清楚。 现在来详细讨论这些步骤。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容

  • 2017年,对我来说算是一个新的开始,这一年,我正好踏上迈入社会这个大熔炉的脚步。像所有的毕业生一样,我对未来、对...
    h不懂阅读 195评论 0 1
  • 今天故事的主角是小爱。 她想感谢她的两位朋友。一个在她生病时会从别的城市搭车赶来守在手术室外七小时,一个怕她情况恶...
    二喜的深夜食堂阅读 715评论 9 24
  • 那天我把我在简书里写的文章发到各个群里。没想到第一时间有人打赏,接着清馨给我鼓励;紧接着阅读量到了40,当我再次打...
    谭念爱阅读 301评论 1 5
  • 直接插入排序 基本思想: 将一个记录插入到已排序好的有序表中,从而得到一个新,记录数增1的有序表。即:先将序列的第...
    Fern16阅读 279评论 0 0