爬虫 - 京东商品数据分析(入门)

爬虫如何实现

1.要实现的功能

  • 爬取商品的评论

实现方式:requests、xpath

  • CSV文件保存数据

商品名称,商品ID,商品价格,商品好评,商品中评,商品差评,商品追评,评论时间,购买商品使用的平台,顾客会员等级,顾客ID、顾客名称

  • 对结果进行数据分析
  1. 通过使用jieba分词,配合Panda、Matplotlib进行数据分析,分析商品好在哪里【好的前10个】(柱状图),哪里让顾客不满意【坏的前十个】(柱状图)。
  2. 绘制购买产商品会员等级的饼图,哪个会员等级的顾客更贱愿意购买该商品。
  3. 分析购买商品的平台,统计顾客更喜欢用哪个购物平台购买商品。

2.分析商品url构成

# 手机版网页
https://item.m.jd.com/product/4586850.html

代码可以表示为:

'https://item.m.jd.com/product/{product_id}.html'.format(product_id = 3995645)
# 电脑版网页
https://item.jd.com/3995645.html

代码可以表示为

'https://item.jd.com/{product_id}.html'.format(product_id = 3995645)

3.分析商品评论url构成

电脑版(get请求)

  • 当前商品ID相关商品的评论url构成
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv13283&productId=3995645&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&fold=1
  • 当前选中商品的评论url构成
    说明: 以下这种url构成不通用,换一种商品评论的url构成有可能就不一样
https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13288&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1

如选中的是红色的iPhone7 Plus,用下面这个评论url只能获取红色iPhone7 Plus的评论。用上面的url可获取iPhone7 Plus所有的评论。

网页url传递了8个参数,参数描述如下:

  • callback:参数由```'fetchJSON_comment98vv' + commentVersion`构成,commentVersion可以在商品信息的html代码中通过正则表达式获取


    commentVersion
  • productId:商品的ID,如3995645

  • score:表示商品的评论栏

  • 全部评价:0

  • 好评:3

  • 中评:2

  • 差评:1

  • 追评:5

  • 晒图:4


    score对照表
  • page:表示当前是第几页评论

  • sortType:排序方式

    • 时间排序:6
    • 推荐排序:5
  • pageSize:每页的评论数量,默认是10个

  • isShadowSku:不知道,默认为0

  • fold:不知道,默认为1

手机版(post请求)

  • 当前商品ID相关商品的评论url构成
https://item.m.jd.com/newComments/newCommentsDetail.json
  • post需传递了6个参数,参数描述如下:
  1. wareId:商品ID,如3995645
  2. offset:评论页码数
  3. num:没有评论数量,默认为10
  4. type:表示商品的评论栏,默认为0
  • 全部评价:0
  • 好评:3
  • 中评:2
  • 差评:1
  • 晒图:4


    商品评论栏
  1. checkParam:不详,默认为LUIPPTP
  2. evokeType:不详,默认为空

4.爬虫代码如下

说明:爬虫待完善,爬取的数据不全(电脑版)

import requests
import re
from lxml import etree
import json
import csv
import time

product_url = 'https://item.jd.com/3995645.html'

product_comment_url = 'https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv{commentVersion}&productId={productID}&score={score}&sortType={sortType}&page={pageNum}&pageSize=10&isShadowSku=0&fold=1'


def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    }
    resp = requests.get(url, headers=headers)
    if resp.status_code == 200:
        return resp
    else:
        return None


# 获取commentVersion,用于构造评论页的url
def get_comment_version(resp):
    pattern = re.compile(r"commentVersion:'(.*?)'")
    commentVersion = re.search(pattern, resp).group(1)
    return commentVersion


# 解析网页内容,获取下一页的链接
def get_next_page_url(current_url):
    left_url = current_url.split('page=')[0]
    # print(left_url)
    right_url = '&'.join(current_url.split('page=')[-1].split('&')[1:])
    # print(right_url)
    current_page_num = int(current_url.split('page=')[-1].split('&')[0])
    # print(current_page_num)
    next_page_num = current_page_num + 1
    next_page_url = left_url + 'page=' + str(next_page_num) + '&' + right_url
    return next_page_url

# 根据参数生成商品评论url
def generate_product_comment_url(product_url, score, sortType, page):
    commentVersion = get_comment_version(get_html(product_url))
    productID = product_url.split('/')[-1].split('.')[0]
    return product_comment_url.format(
        commentVersion=commentVersion, productID=productID, score=0, sortType=6, page=1)

# 爬取单页的评论信息
def parse_comment_info(resp):
    # fetchJSON_comment98vv13288();
    if resp.text:
        comments_json = resp.text[len('fetchJSON_comment98vv13288('):][:-2]
        with open('comment.json', 'w') as f:
            f.write(comments_json)
        comments = json.loads(comments_json).get('comments')
        for comment in comments:
            comment_info = []
            # 商品名称
            comment_info.append(comment.get('referenceName'))
            # 商品ID
            comment_info.append(comment.get('referenceId'))        
            # 评论内容
            comment_info.append(comment.get('content'))
            # 评论时间
            comment_info.append(comment.get('creationTime'))
            # 评论人昵称
            comment_info.append(comment.get('nickname'))
            # 顾客会员等级
            comment_info.append(comment.get('userLevelName'))
            # 购物使用的平台
            comment_info.append(comment.get('userClientShow'))
            with open('comments.csv', 'a') as csvFile:
                writer = csv.writer(csvFile)
                writer.writerow(comment_info)
        return comments_json
    else:
        return None

def get_all_comments(url):
    print('获取第{}页评论'.format(int(url.split('page=')[-1].split('&')[0]) + 1), '<>', url)
    parse_comment_info(get_html(url))
    time.sleep(2)
    next_page = get_next_page_url(url)
    if get_html(url).text:
        get_all_comments(next_page)
    

def main():
    with open('comments.csv', 'w') as f:
            writer = csv.writer(f)
            writer.writerow(['商品名称', '商品ID', '评论内容', '评论时间', '评论人昵称', '顾客会员等级', '购物使用的平台'])
    get_all_comments('https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13308&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1')

if __name__ == '__main__':
    main()

手机版

实打实大

商品数据分析

1.说明

2.分析购买人群的京东会员等级

会员等级分布的饼图
  • 从会员等级分布的饼图来看,购买该商品顾客的会员等级大部分为金牌会员和钻石会员,即京东的老客户。

3.分析客户通过哪种渠道进行购买

购买渠道的柱状图
  • 从分析结果来看,大部分客户都是通过京东的手机客户端购买商品的。
  • 可以对比爬取热门Android手机的客户购买渠道,来分析IOS用户与Android用户的忠诚度。

4.数据分析代码(仅供参考)

#-*- coding: utf-8 -*-
import pandas as pd
import numpy
import matplotlib.pyplot as plt
from matplotlib import rcParams

# 读取商品的评论信息
df = pd.read_csv('/home/d4ngy4n/Desktop/comments.csv')
# 设置字体,避免中文出现乱码
rcParams['font.family'] = "Source Han Serif CN"

# df['顾客会员等级'].replace('PLUS会员[试用]', 'PLUS会员', inplace=True)
labels = list(set(df.顾客会员等级))
sizes = [list(df.顾客会员等级).count(level) for level in list(set(df.顾客会员等级))]
userLevelDataFrame = pd.DataFrame(numpy.array([labels, sizes]).T, columns=['会员级别', '人数'])

#调节图形大小,宽,高
plt.figure(figsize=(12,9))
#定义饼状图的外侧显示的文本标签,标签是列表
labels = sorted(list(set(df.顾客会员等级)))
# 定义饼图的颜色
colors = ['red', 'blue', 'yellow', 'cyan', 'purple', 'orange']
#sizes:设置每个标签在饼图中占多大,本例子是绘制会员分配的饼图
sizes = [list(df.顾客会员等级).count(level) for level in labels]
#将某部分爆炸出来, 使用括号,将第一块分割出来,数值的大小是分割出来的与其他两块的间隙
explode = (numpy.array([0.02 for i in range(len(labels))]))
#labeldistance,饼图外侧文本的位置离中心点有多远,1.1指1.1倍半径的位置,1表示在饼图的边上,<1表示文字在饼图内
#autopct,圆里面的文本格式,%.2f%%表示小数有两位的浮点数
#shadow,饼是否有阴影
#startangle,起始角度,0,表示从0开始逆时针转,为第一块。一般选择从90度开始比较好看
#pctdistance,百分比的text离圆心的距离
plt.pie(sizes,explode=explode,labels=labels,colors=colors, 
        labeldistance = 1.1,autopct = '%.2f%%',shadow = False,
        startangle = 90,pctdistance = 0.6)

# 设置x,y轴刻度一致,这样饼图才能是圆的
plt.axis('equal')
# 绘制图例,loc用于设置图例的位置,upper right表示图例位于右上方
plt.legend(loc='upper left')
plt.title('购买商品的会员分配图')
plt.show()

# 缺失值处理
df = df.fillna('不详')

# 根据购物平台的名称,已经购买次数构造一个DataFrame
userClientCol = ['购物平台', '次数']
# 注意:需数组转置
userClientDataFrame = pd.DataFrame(numpy.array([list(set(df.购物使用的平台)), [list(df.购物使用的平台).count(level) for level in list(set(df.购物使用的平台))]]).T, columns=userClientCol)

plt.figure(figsize=(12,9),dpi=120)
labels = list(userClientDataFrame['购物平台'])
plt.bar(range(len(labels)),userClientDataFrame['次数'],tick_label=labels)
plt.title('购物使用的平台')
plt.show()

5.CSV文件信息

CSV文件信息

红框就是缺失值,所有要用df = df.fillna('不详')处理缺失值

6.参考资料

7.待分析商品的优点、缺点

  • 思路:取到商品的评论信息,jieba分词处理,配合词云或者是PandaMatplotlib做可视化处理。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容

  • CREATE TABLE IF NOT EXISTS ecs_order_info (order_id mediu...
    cookie口阅读 15,658评论 0 16
  • 抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化。下面是要抓取的商品信息,一款女士文胸。这个商品共有红色...
    _hahaha阅读 6,111评论 2 7
  • 1.打开C:\Users\YouUserName\ .gradle\wrapper\dists2.找到对应版本的g...
    码农明明阅读 2,475评论 0 2
  • 今天雨,早七点半起床,到上班楼下吃过早餐。打扫卫生,后开始工作,对了昨天的问题所在,但没能交接成功。 一发现问...
    李红烨阅读 213评论 0 0
  • 【一个免费且特殊的铺子】 你有没有一个特别喜欢的明星? 当然他(她)也有可能不是明星 我们把他当做明灯,当做信仰,...
    白淋濯阅读 233评论 0 0