我用Python分析1585家电商车厘子销售数据,发现这些秘密

大家好,我是J哥~

众所周知,中国是智利车厘子最主要的出口对象,占据了其95%的市场份额。

智利驻华大使馆商务参赞娜塔曾表示:“2020-2021产季车厘子实现了丰收,预计今年有50万吨左右的车厘子进入中国市场。”自2020年12月中旬开始,智利海运车厘子陆续到达中国,运输成本较此前空运方式大幅下滑。这意味着,国内消费者将能以更低的价格买到车厘子。然而,近日国内已有多地进口车厘子核酸检测结果为阳性,在这种情况下,你还敢大呼“车厘子自由”吗?

01 数据获取

本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数:

def main:

browser.get('https://www.taobao.com/')

page = search_product(key_word)print(page)

get_datapage_num =70

whileint(page) != page_num:

print("-"*100)

print("正在爬取第{}页数据".format(page_num +1))

browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))

browser.implicitly_wait(10)

get_datapage_num +=1

print("数据抓取完成")

if__name__ =='__main__':

key_word ="车厘子"

browser = webdriver.Chrome("./chromedriver")

main


02 数据处理

1.数据读取并预览

importpandasaspd

import numpyasnp

df = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None,

names=['商品名称','商品价格','付款人数','店铺名称','发货地址'])#添加字段名称

df.sample(5)

2.查看数据信息

df.info

<class'pandas.core.frame.DataFrame'>

Int64Index:1595entries,0to1674

Datacolumns(total5columns):

#ColumnNon-CountDtype

----------------------------

0商品名称1595non-object

1商品价格1595non-float64

2付款人数1595non-object

3店铺名称1595non-object

4发货地址1585 non- object

dtypes:float64(1),object(4)

memoryusage:74.8+KB

发现数据存在以下几个问题:

(1)发货地址有缺失值

(2)付款人数需做提取

(3)发货地址需做分割

(4)自定义索引并降序

3.数据清洗

#剔除缺失记录

df.dropna(axis=0, how='any', inplace=True)

#从发货地址字段中切分出省份和城市df["省份"] = df["发货地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的内容直接分列

df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市

df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充

#用正则表达式从付款人数中提取数字importre

df['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0]foriindf['付款人数']] # 提取数值

df['数字'] = df['数字'].astype('float') # 转化数值型

df['单位'] = [''.join(re.findall(r'(万)', i))foriindf['付款人数']] # 提取单位(万)

df['单位'] = df['单位'].apply(lambda x:10000ifx=='万'else1)

df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数

df.drop(['发货地址','数字','单位'], axis=1, inplace=True) # 删除多余的列

#按商品价格降序并重置索引df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序

df = df.reset_index(drop=True) #重置索引

清洗后,数据预览如下:


03 数据可视化

在以往的数据可视化中,常常以Python可视化库作图。而本文将尝试用Excel进行车厘子数据可视化,因为在绘图方面,Excel完全不输Python!

1.国内哪些地方车厘子卖的最火?


利用省份和付款人数字段数据制作地图,发现上海、浙江和广东等地车厘子销售量最大,西藏、青海和内蒙古销量较小。沿海地区的经济和人口优势,成为车厘子主要的消费市场。


车厘子作为“明星水果”,不菲的价格常常让打工人望而却步。根据国家统计总局发布的最新数据,上海人均可支配收入居首,超过7万元,自然更容易实现“车厘子自由”。北京虽然收入较高,但可能受疫情影响较大,车厘子销量并不多。


2.车厘子到底有多贵?


由上图可知,40%的车厘子价格在201-500元之间(淘宝挂牌价,非每斤价格),50元以下的车厘子占比不到4%,我表示有被贵到,你呢?如果你不嫌贵,那我帮你找到一家,可能符合你的需求,如下:


3.哪些店铺卖的最好?


从销量较高的淘宝店铺来看,基本都是旗舰店,看来大家对店铺品牌度关注较多。福瑞达旗舰店月销量超6万,名副其实车厘子销冠,百果园紧随其后。

4.在售的车厘子具有哪些特点?


为了了解车厘子的特点,对商品名称字段做了文本分析,以果篮为背景绘制了车厘子词云图。主要的特点还是可以看出来的,新鲜、智利、当季、特大等词都是水果店家推销的点。至于孕妇提及频率这么高,有点纳闷,于是百度之:


那么问题来了,特殊时期,我们打工人能不能剁手买车厘子?截至目前,根据中国疾控中心公布的消息,目前并没有发现因为食用进口冷链食品而感染新冠肺炎的病例。因此对于普通消费者来说,无须过于恐慌。当然如果你确实非常焦虑的话,疫情期间也可以多选择国内生产的食品。

结语

1.本数据分析只做学习研究之用途,提供的结论仅供参考,还请独立思考。

福利

入门Python的最强三件套《ThinkPython》、《简明Python教程》、《Python进阶》的PDF电子版已打包提供给大家,关注同名公号/Python小白集训营/回复/电子书/即可自动领取。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容