基于汽车垂直媒体网站和门户汽车频道,维护一个全网汽车行为的行为特征配置库

这个是去年夏天开始参与的一个任务,断断续续到年前差不多维护的比较完善了。

任务目的是,要做购车人群的目标人群定向的时候,怎么从为某一类型行为、或者某一个垂直细分市场,基于公开的数据,维护一个汽车关注行为特征的配置库。

比如,我们想比较一下“倾向买10万左右整车进口的潜客”和“倾向买10万左右国产合资品牌车”的潜客,他们的选车考量因素和购车习惯有什么不同吗?

假设我们可以有这些人群的上网行为信息,我们可以知道哪些cookie在什么时候,访问的完整的URL,这些网站也包括垂直汽车媒体和门户的汽车频道。

那么通过正则表达式,我们可以识别URL所代表的行为类型,可以是,比如:a0 =品牌\工厂\车系\车型信息列表页,a1 = 查看品牌/工厂信息,a2 = 查看车系信息,a3 = 查看车型信息,a4 = 查看车型价格,a5 = 查看车型口碑,b0 = 车型图片列表页,c2 = 查看测评文章,e2 = 查看试驾活动,e3 = 团购,f0 = 对比车型,g0 = 二手车,m2 = 申请车贷,等等。

也可以从URL行为中解析出,车型信息、车系信息、经销商ID等信息。

这样如果我们能把一个ID在汽车垂直媒体和门户汽车频道的所有的URL都解析出来,那么对这个人的购车阶段和购车意向无疑会有比较好的了解。

于是,这就是我前面提到的这个任务,就是,我们就需要一个完整的信息库,不仅有完整的车系和车型信息,还要有商品标签。

问题来了,我怎么能方便的知道,汽车之家对于CS35的车系的代码比如123,和爱卡汽车队与CS35的代码‘abc456’,其实是同一个车系呢?车型也类似。

比如主流的汽车媒体,汽车之家,爱卡,易车,腾讯汽车频道,还有很多的汽车团购、汽车资讯网站。

所以我们需要一个数据库,里面有各个车型、车系、品牌、厂商,在各个汽车媒体站的ID,对应到自己的统一ID上。这样,无论我得到这些汽车媒体站的任何的URL,我都能解析出来,实际这个行为对应的是哪个车系和车型。

所以,我们做的事情就是:

1)爬取这些媒体站的高频URL,全站的全部URL都爬下来也不可取,可以把主要频道的URL爬下来。

2)用正则表达式解析出URL中的业务参数,比如,车系,品牌,车厂,车型,等等。

有了车系和车型后,元数据的记录就会有,国别,价格,配置,口碑,等信息。

3)设计自己的元数据体系,比如,第一级,厂商和品牌有交叉关系,比如,长安马自达、一汽马自达,等等。

下面是车系,再下面是经销商。经销商和车系车型又是网状关系。

4)把爬取到的各站参数,统一到自己设计的车系、车型参数上来。

5)维护潜客ID,和行为参数之间的对应关系。

6)做一些应用BI,比如,查看和某车系的潜客交叉最多的车系是哪个车系,竞争交叉最严重的品牌是谁,在同价位竞争的SUV是谁、B级轿车是谁,等等。

又比如,某个车系的潜客,在哪个门户网站的汽车频道或者垂直媒体上占比最多?这些信息,对于营销广告投放都很有意义。

这样,通过常规的维护,以后,当需要知道某个车系的潜客,某个价位的潜客行为,某车长某关键配置的国产/进口车的人群画像,的时候,就可以从库里得到一个初步的数据素材了。

前段时间,我花时间比较多的,在第4)步上。

关于多站的车型车系ID,怎么打通,也有不少的坑。刚开始,想车系的数量级大概在2000左右,而车型的数量级在3万左右,明显是车系更容易对应。

但是,经过一研究发现,其实除了车型是汽车厂定义好的之外,车系其实各个站点的划分方法是可以不同的,比如,朗逸,可以有经典朗逸,可以有新朗逸,或者朗逸二代,三代;有的站点,都算一个车系叫朗逸,有的却划分成好几个细分的车系。所以,看一个新朗逸的人,不一定就是关注整个朗逸。

所以,想了想,还是先匹配车型比较合理。因为一个车型只可能属于一个唯一的车系,车型匹配上之后,再根据车型的匹配,定义自己的车系库的车系代码,自己的车系代码和几个汽车资讯站的车系的代码的关系也就确定了。

车型的比对也不容易,各个站的车型的个数都是上万,而且车型的名称,配置信息常常有错误,有的站连厂商指导价、手动还是自动,这样的信息都会维护错,肉眼看都不知道哪个车型应该对哪个车型,有程序自动匹配,也只能尽量匹配了。

还要考虑每个月都有会有的新车系、新车型,怎么持续的加入到自己维护的信息库里,也是需要考虑的。

试了几种方法:

1)根据名称、价位、车长、轴距,等参数给他们的相似度打分,由此判断汽车之家的车型代码567和爱卡汽车的车型代码345是不是同一个车型。

2)后来发现python有个函数fuzzywuzzy,直接可以用来判断两个字符串的相似度。

3)最后还有一个方法可以检验,使用爬虫,批量的用车系名称,在汽车媒体和门户汽车频道里搜索,这样批量的得到一个车系名称在网站对应的参数ID。比如,用‘新朗逸’当搜索关键字,在汽车媒体和门户汽车频道里搜索,出来的ID,就是新朗逸的车系代码。不过这个方法还要注意:有的网站搜索引擎不是精准匹配,即使没找到这个车系,也会返回一个推荐车系。

最后,再发动大家人工看一遍车系,大概2000多车系,一个小时也就扫描完了。总比人工查找要靠谱点。

这也是刚开始没有经验,在积累元数据库的时候遇到的一些问题。其实,现在想想,完全可以去‘乘联会’或者什么汽车行业协会里找到更多的借鉴的行业元数据库。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容