钻石与价格预测

本课的目标是创建钻石价格的预测模型


Scatterplot Review

library(ggplot2)
ggplot(aes(x=carat,y=price),data=diamonds)+
  xlim(0,quantile(diamonds$carat,0.99))+
  ylim(0,quantile(diamonds$price,0.99))+
  geom_point(color=I('black'),fill=I('#F79420'),shape=21)

ggplot(aes(x=carat,y=price),data=diamonds)+
  scale_x_continuous(lim=c(0,quantile(diamonds$carat,0.99)))+
  scale_y_continuous(lim=c(0,quantile(diamonds$price,0.99)))+
  geom_point(color=I('black'),fill=I('#F79420'),shape=21)
  

在价格和克拉的图中,我们可以看到非线性关系(可能是指数关系或者其他)


ggpairs Function

Notes:

# install these if necessary
install.packages('GGally') #做散点图矩阵
library(GGally)
install.packages('scales')
library(scales)
install.packages('memisc') #汇总递归
library(memisc)
install.packages('lattice')
library(lattice)
install.packages('MASS')    #用于各种函数
library(MASS)
install.packages('car')     #重写变量代码
library(car)
install.packages('reshape')
library(reshape)
install.packages('plyr')
library(plyr)

# load the ggplot graphics package and the others
library(ggplot2)
library(GGally)
library(scales)
library(memisc)

# sample 10,000 diamonds from the data set
set.seed(20022012)
diamond_samp <- diamonds[sample(1:length(diamonds$price), 10000), ]
ggpairs(diamond_samp,
  lower = list(continuous = wrap("points", shape = I('.'))), 
  upper = list(combo = wrap("box", outlier.shape = I('.'))))

钻石的价格和carat高度相关
钻石的重量是体积的函数,而体积是xyz,因此我们特别感兴趣的变量可能是:
克拉重量的立方根


The Demand of Diamonds

library(gridExtra)

plot1 <- ggplot(aes(x=price),data=diamonds) + 
  geom_histogram(fill=I("#099DD9"),binwidth=100)+
  ggtitle('Price')

plot2 <- ggplot(aes(x=price),data=diamonds) +
  geom_histogram(fill=I("#F79420"),binwidth=0.01)+
  ggtitle('Price (log10)')+
  scale_x_log10()

grid.arrange(plot1,plot2,ncol=2)

plot2中出现了两个峰值,这两个峰值符合
我们对钻石消费者特点的富人买家和穷人买家两个类别的推测:


Scatterplot Transformation

将y轴的价格转化为log10

ggplot(aes(x=carat,y=price),data=diamonds)+
  geom_point()+
  scale_y_continuous(trans=log10_trans())+
  ggtitle("Price (log10) by Carat")

将克拉转换为立方根

cuberoot_trans = function() trans_new('cuberoot',
                                      transform=function(x)x^(1/3),
                                      inverse = function(x)x^3)

ggplot(aes(x=carat,y=price),data=diamonds)+
  geom_point()+
  scale_x_continuous(trans=cuberoot_trans(),limits=c(0.2,3),
                     breaks=c(0.2,0.5,1,2,3))+
  scale_y_continuous(trans=log10_trans(),limits=c(350,15000),
                     breaks=c(350,1000,5000,10000,15000))+
  ggtitle("Price (log10) by Cube-Root of Carat")


Overplotting Revisited

通过jitter和alpha,我们能在图中更好地看出关键区域数据的疏密程度

head(sort(table(diamonds$carat),decreasing=T))
head(sort(table(diamonds$price),decreasing = T))

ggplot(aes(x=carat, y=price), data = diamonds) + 
  geom_point(alpha=1/2,position='jitter',size=0.75) + 
  scale_x_continuous(trans = cuberoot_trans(), limits = c(0.2, 3),
                     breaks = c(0.2, 0.5, 1, 2, 3)) + 
  scale_y_continuous(trans = log10_trans(), limits = c(350, 15000),
                     breaks = c(350, 1000, 5000, 10000, 15000)) +
  ggtitle('Price (log10) by Cube-Root of Carat')

经过数据转化后的图形,看上去carat和price之间存在近乎现行的关系,但肯定还有其他因素影响钻石的价格


Price vs. Carat and Clarity

使用颜色对图形进行可视化,关系为克拉和价格,使用颜色表示不同的clarity

library(RColorBrewer)

ggplot(aes(x = carat, y = price,color=clarity), data = diamonds) + 
  geom_point(alpha = 0.5, size = 1, position = 'jitter') +
  scale_color_brewer(type = 'div',
    guide = guide_legend(title = 'Clarity', reverse = T,
    override.aes = list(alpha = 1, size = 2))) +  
  scale_x_continuous(trans = cuberoot_trans(), limits = c(0.2, 3),
    breaks = c(0.2, 0.5, 1, 2, 3)) + 
  scale_y_continuous(trans = log10_trans(), limits = c(350, 15000),
    breaks = c(350, 1000, 5000, 10000, 15000)) +
  ggtitle('Price (log10) by Cube-Root of Carat and Clarity')

Clarity and Price

上面生成的图中,可以看出clarity能够解释价格变化的很多方面,将carat保持常量,可以看出净度较低的钻石始终比净度较高的钻石价格低
Response:


Price vs. Carat and Cut

ggplot(aes(x = carat, y = price,color=cut), data = diamonds) + 
  geom_point(alpha = 0.5, size = 1, position = 'jitter') +
  scale_color_brewer(type = 'div',
    guide = guide_legend(title = 'Cut', reverse = T,
    override.aes = list(alpha = 1, size = 2))) +  
  scale_x_continuous(trans = cuberoot_trans(), limits = c(0.2, 3),
    breaks = c(0.2, 0.5, 1, 2, 3)) + 
  scale_y_continuous(trans = log10_trans(), limits = c(350, 15000),
    breaks = c(350, 1000, 5000, 10000, 15000)) +
  ggtitle('Price (log10) by Cube-Root of Carat and Cut')

Cut and Price

我们在切割上看不到太多的价格差异


Price vs. Carat and Color

ggplot(aes(x = carat, y = price,color=color), data = diamonds) + 
  geom_point(alpha = 0.5, size = 1, position = 'jitter') +
  scale_color_brewer(type = 'div',
    guide = guide_legend(title = 'Color', 
    override.aes = list(alpha = 1, size = 2))) +  
  scale_x_continuous(trans = cuberoot_trans(), limits = c(0.2, 3),
    breaks = c(0.2, 0.5, 1, 2, 3)) + 
  scale_y_continuous(trans = log10_trans(), limits = c(350, 15000),
    breaks = c(350, 1000, 5000, 10000, 15000)) +
  ggtitle('Price (log10) by Cube-Root of Carat and Color')

颜色能解释价格的一些变化


Linear Models in R

在R中,我们可以使用lm() function创建模型
格式:lm(y~x)
其中y是结果变量,x是解释变量
例:log(price)~carat^(1/3)


Building the Linear Model

m1 <- lm(I(log(price)) ~ I(carat^(1/3)), data = diamonds)
m2 <- update(m1, ~ . + carat)
m3 <- update(m2, ~ . + cut)
m4 <- update(m3, ~ . + color)
m5 <- update(m4, ~ . + clarity)
mtable(m1, m2, m3, m4, m5)

我们最后的模型是

log(price)=0.415+9.144*carat^(1/3)-1.093*carat+
  (..*cut+..*color+..*clarity)

Model Problems

What could be some problems when using this model?
What else should we think about when using this model?
2008-2014
-inflation
-2008 global recession
-diamond market in china heating up
-uneven recovery/price increase across different carat weight


A Bigger, Better Data Set

加载更大数据/法一:

install.packages('bitops')
install.packages('RCurl')
library(bitops)
library(RCurl)

diamondsurl = getBinaryURL("https://raw.github.com/solomonm/diamonds-data/master/BigDiamonds.Rda")
load(rawConnection(diamondsurl))

加载更大数据/法二:

load("BigDiamonds.rda") 

Building a Model Using the Big Diamonds Data Set

只采用GIA认证的钻石,以及价格在1万美元一下的钻石

diamondsbig$logprice <- log(diamondsbig$price)
m1 <- lm(I(logprice) ~ I(carat^(1/3)), 
         data = subset(diamondsbig),cert=='GIA'&price<10000)
m2 <- update(m1, ~ . + carat)
m3 <- update(m2, ~ . + cut)
m4 <- update(m3, ~ . + color)
m5 <- update(m4, ~ . + clarity)
mtable(m1, m2, m3, m4, m5)

Predictions

由于对价格取了log10,我们需要对模型的结果取幂

thisDiamond = data.frame(carat=1.00,cut="V.Good",
                         color="I",clarity="VS1")
modelEstimate = predict(m5, newdata = thisDiamond,
                        interval="prediction", level = .95)
exp(modelEstimate)

fit
--fitted point estimate

lwr&upr
--the lower and upper bound of the 95% confidentical interval

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容