爬虫 - 京东商品数据分析（入门）

爬虫如何实现

1.要实现的功能

爬取商品的评论

实现方式：requests、xpath

CSV文件保存数据

商品名称，商品ID，商品价格，商品好评，商品中评，商品差评，商品追评，评论时间，购买商品使用的平台，顾客会员等级，顾客ID、顾客名称

对结果进行数据分析

通过使用jieba分词，配合Panda、Matplotlib进行数据分析，分析商品好在哪里【好的前10个】（柱状图），哪里让顾客不满意【坏的前十个】（柱状图）。

绘制购买产商品会员等级的饼图，哪个会员等级的顾客更贱愿意购买该商品。

分析购买商品的平台，统计顾客更喜欢用哪个购物平台购买商品。

2.分析商品url构成

# 手机版网页
https://item.m.jd.com/product/4586850.html

代码可以表示为：

'https://item.m.jd.com/product/{product_id}.html'.format(product_id = 3995645)

# 电脑版网页
https://item.jd.com/3995645.html

代码可以表示为

'https://item.jd.com/{product_id}.html'.format(product_id = 3995645)

3.分析商品评论url构成

电脑版（get请求）

当前商品ID相关商品的评论url构成

https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv13283&productId=3995645&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&fold=1

当前选中商品的评论url构成
说明：以下这种url构成不通用，换一种商品评论的url构成有可能就不一样

https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13288&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1

如选中的是红色的iPhone7 Plus，用下面这个评论url只能获取红色iPhone7 Plus的评论。用上面的url可获取iPhone7 Plus所有的评论。

网页url传递了8个参数，参数描述如下：

callback：参数由```'fetchJSON_comment98vv' + commentVersion`构成，commentVersion可以在商品信息的html代码中通过正则表达式获取

commentVersion
productId：商品的ID，如3995645
score：表示商品的评论栏
全部评价：0
好评：3
中评：2
差评：1
追评：5
晒图：4

score对照表
page：表示当前是第几页评论
sortType：排序方式
- 时间排序：6
- 推荐排序：5
pageSize：每页的评论数量，默认是10个
isShadowSku：不知道，默认为0
fold：不知道，默认为1

手机版（post请求）

当前商品ID相关商品的评论url构成

https://item.m.jd.com/newComments/newCommentsDetail.json

post需传递了6个参数，参数描述如下：

wareId:商品ID，如3995645
offset:评论页码数
num:没有评论数量，默认为10
type:表示商品的评论栏，默认为0

全部评价：0
好评：3
中评：2
差评：1
晒图：4

商品评论栏

checkParam:不详，默认为LUIPPTP
evokeType:不详，默认为空

4.爬虫代码如下

说明：爬虫待完善，爬取的数据不全（电脑版）

import requests
import re
from lxml import etree
import json
import csv
import time

product_url = 'https://item.jd.com/3995645.html'

product_comment_url = 'https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv{commentVersion}&productId={productID}&score={score}&sortType={sortType}&page={pageNum}&pageSize=10&isShadowSku=0&fold=1'


def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    }
    resp = requests.get(url, headers=headers)
    if resp.status_code == 200:
        return resp
    else:
        return None


# 获取commentVersion，用于构造评论页的url
def get_comment_version(resp):
    pattern = re.compile(r"commentVersion:'(.*?)'")
    commentVersion = re.search(pattern, resp).group(1)
    return commentVersion


# 解析网页内容，获取下一页的链接
def get_next_page_url(current_url):
    left_url = current_url.split('page=')[0]
    # print(left_url)
    right_url = '&'.join(current_url.split('page=')[-1].split('&')[1:])
    # print(right_url)
    current_page_num = int(current_url.split('page=')[-1].split('&')[0])
    # print(current_page_num)
    next_page_num = current_page_num + 1
    next_page_url = left_url + 'page=' + str(next_page_num) + '&' + right_url
    return next_page_url

# 根据参数生成商品评论url
def generate_product_comment_url(product_url, score, sortType, page):
    commentVersion = get_comment_version(get_html(product_url))
    productID = product_url.split('/')[-1].split('.')[0]
    return product_comment_url.format(
        commentVersion=commentVersion, productID=productID, score=0, sortType=6, page=1)

# 爬取单页的评论信息
def parse_comment_info(resp):
    # fetchJSON_comment98vv13288();
    if resp.text:
        comments_json = resp.text[len('fetchJSON_comment98vv13288('):][:-2]
        with open('comment.json', 'w') as f:
            f.write(comments_json)
        comments = json.loads(comments_json).get('comments')
        for comment in comments:
            comment_info = []
            # 商品名称
            comment_info.append(comment.get('referenceName'))
            # 商品ID
            comment_info.append(comment.get('referenceId'))        
            # 评论内容
            comment_info.append(comment.get('content'))
            # 评论时间
            comment_info.append(comment.get('creationTime'))
            # 评论人昵称
            comment_info.append(comment.get('nickname'))
            # 顾客会员等级
            comment_info.append(comment.get('userLevelName'))
            # 购物使用的平台
            comment_info.append(comment.get('userClientShow'))
            with open('comments.csv', 'a') as csvFile:
                writer = csv.writer(csvFile)
                writer.writerow(comment_info)
        return comments_json
    else:
        return None

def get_all_comments(url):
    print('获取第{}页评论'.format(int(url.split('page=')[-1].split('&')[0]) + 1), '<>', url)
    parse_comment_info(get_html(url))
    time.sleep(2)
    next_page = get_next_page_url(url)
    if get_html(url).text:
        get_all_comments(next_page)
    

def main():
    with open('comments.csv', 'w') as f:
            writer = csv.writer(f)
            writer.writerow(['商品名称', '商品ID', '评论内容', '评论时间', '评论人昵称', '顾客会员等级', '购物使用的平台'])
    get_all_comments('https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13308&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1')

if __name__ == '__main__':
    main()

手机版

实打实大

商品数据分析

1.说明

本例子以Apple iPhone 7 Plus 128G 红色特别版移动联通电信4G手机商品为例，非广告。
由于爬虫代码不够完善，只爬取了到了3000多条数据，远远小于商品数据实际的数量

2.分析购买人群的京东会员等级

会员等级分布的饼图

从会员等级分布的饼图来看，购买该商品顾客的会员等级大部分为金牌会员和钻石会员，即京东的老客户。

3.分析客户通过哪种渠道进行购买

购买渠道的柱状图

从分析结果来看，大部分客户都是通过京东的手机客户端购买商品的。
可以对比爬取热门Android手机的客户购买渠道，来分析IOS用户与Android用户的忠诚度。

4.数据分析代码（仅供参考）

#-*- coding: utf-8 -*-
import pandas as pd
import numpy
import matplotlib.pyplot as plt
from matplotlib import rcParams

# 读取商品的评论信息
df = pd.read_csv('/home/d4ngy4n/Desktop/comments.csv')
# 设置字体，避免中文出现乱码
rcParams['font.family'] = "Source Han Serif CN"

# df['顾客会员等级'].replace('PLUS会员[试用]', 'PLUS会员', inplace=True)
labels = list(set(df.顾客会员等级))
sizes = [list(df.顾客会员等级).count(level) for level in list(set(df.顾客会员等级))]
userLevelDataFrame = pd.DataFrame(numpy.array([labels, sizes]).T, columns=['会员级别', '人数'])

#调节图形大小，宽，高
plt.figure(figsize=(12,9))
#定义饼状图的外侧显示的文本标签，标签是列表
labels = sorted(list(set(df.顾客会员等级)))
# 定义饼图的颜色
colors = ['red', 'blue', 'yellow', 'cyan', 'purple', 'orange']
#sizes：设置每个标签在饼图中占多大，本例子是绘制会员分配的饼图
sizes = [list(df.顾客会员等级).count(level) for level in labels]
#将某部分爆炸出来， 使用括号，将第一块分割出来，数值的大小是分割出来的与其他两块的间隙
explode = (numpy.array([0.02 for i in range(len(labels))]))
#labeldistance，饼图外侧文本的位置离中心点有多远，1.1指1.1倍半径的位置，1表示在饼图的边上，<1表示文字在饼图内
#autopct，圆里面的文本格式，%.2f%%表示小数有两位的浮点数
#shadow，饼是否有阴影
#startangle，起始角度，0，表示从0开始逆时针转，为第一块。一般选择从90度开始比较好看
#pctdistance，百分比的text离圆心的距离
plt.pie(sizes,explode=explode,labels=labels,colors=colors, 
        labeldistance = 1.1,autopct = '%.2f%%',shadow = False,
        startangle = 90,pctdistance = 0.6)

# 设置x，y轴刻度一致，这样饼图才能是圆的
plt.axis('equal')
# 绘制图例,loc用于设置图例的位置，upper right表示图例位于右上方
plt.legend(loc='upper left')
plt.title('购买商品的会员分配图')
plt.show()

# 缺失值处理
df = df.fillna('不详')

# 根据购物平台的名称，已经购买次数构造一个DataFrame
userClientCol = ['购物平台', '次数']
# 注意：需数组转置
userClientDataFrame = pd.DataFrame(numpy.array([list(set(df.购物使用的平台)), [list(df.购物使用的平台).count(level) for level in list(set(df.购物使用的平台))]]).T, columns=userClientCol)

plt.figure(figsize=(12,9),dpi=120)
labels = list(userClientDataFrame['购物平台'])
plt.bar(range(len(labels)),userClientDataFrame['次数'],tick_label=labels)
plt.title('购物使用的平台')
plt.show()

5.CSV文件信息

CSV文件信息

红框就是缺失值，所有要用df = df.fillna('不详')处理缺失值

6.参考资料

7.待分析商品的优点、缺点

思路：取到商品的评论信息，jieba分词处理，配合词云或者是Panda、Matplotlib做可视化处理。

最后编辑于：2017.12.07 21:05:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343