DoraHacks 武汉二等奖复盘

Dorahacks 武汉 华科安步咖啡 2017/10/22
首先能够参与这样一个盛大互联网hackaton活动本身就极具吸引力,连续工作24h,产出对现实问题的解决方案,本来抱着试一试的态度去参加,但没想到最后能在16组队伍中得到二等奖,收获很多,复盘。
主要项目人员有产品组两人、爬虫组两人、算法组两人。
项目为爬取微博用户粉丝,建立用户画像。
通过:爬取数据-预处理-建立样本集-建立某标签的测试集-特征提取-筛选变量-使用函数-得到结果。
项目成果:建立假粉测试集与真粉测试集,对关晓彤粉丝分析得到其假粉数量大约在百分之5%,对项目应用场景进行了合理推广。

一开始对于项目的设想是做互联网招聘垂直领域聚合平台,结合简历插件,以及运营方案。
问题:整个项目完整过程并没有理清思路,以及这三者的关联,做产品的hackton最好以前就有PPT与整体思路。
后来这个项目没有被团队采纳,我觉得是一个正确的决策,一来这个的实现难度不一般,也不太符合比赛geek的气质,二来团队没有前端,所以最优选择是放弃。
后续团队采取了分析大V用户画像的idea,本身这个项目与dorahacks的气质也最相衬。

在一个技术驱动、算法为主的团队里做PM,确实工作量上确实与常接触的用户需求方面的产品工作不同,我的工作内容有:

   寻找对标产品。
   分析市场现状。
   考虑商业与变现方面。
   将抽象需求转化为具象的实现方法。
   提供技术解决方案的建议。
   对技术应用场景进行考虑。

在整个hackton过程,一直处于兴奋的状态24h没有睡觉也依然没有困意。前期主要做对于爬取数据的分类,在整个微博中能爬取哪些数据?爬取哪些数据是有意义的?将抽象的爬取用户信息变成爬取用户的哪几个数据。后期想通过人工做一个分类,限定某些数据量大小,这也取决于对于我们想筛选人群的定义。后来发现依靠经验以及人工的分类低效而不准确。改变想法后利用技术实现,有两个方案:将大V粉丝关注的其他ID与已爬取的某垂直领域大V的ID进行对比,大于n个贴上相应标签,通过机器学习发现特定粉丝的模式,再进行筛选。在技术实现沟通后,人工采集了真粉与假粉的账号,建立样本集,用于机器学习与某大V粉丝对比。由于开发时间以及爬取数据时间的问题,第一项想法没有实现,但是后一种方法同样可行且可信任,通过使用不同的样本集可以利用这一套技术的方法,实现多种应用场景。

微博的开放性越来越差以及越来越不友好,导致爬数据时出现了没有意识到的问题。粉丝列表只能看前20页,虽然前20页可以不断更新粉丝列表,但是并不明确更新粉丝列表排名的规则,可能是活跃粉丝被排在前面,导致样本集的数据可能是被污染的。(尤其是目前样本量较小。)以及Python 2的编码问题。

在进行一个项目前先过流程与最小可行化产品,以此作为前期调研可以在后面传递需求时沟通的更好。

工作量安排上一个从零到一的项目难免出现一部分人工作另一部分人清闲。

对于需求的传递,一定要跟紧技术人员的开发进度,随时沟通需求,确认需求的变更。

在讨论时涉及的数据量太大,想做标签是是一个模糊的需求,需要进一步明确与量化,分词、语义分析等方法难度明显。

在整个项目过程中,一开始宏大的设想与定位,之后抓取粉丝发现的问题而焦虑。在缺乏灵感时找其他同学聊天得到假粉样本集,得知无法贴标签后想去扩展技术应用价值,刚刚开始爬数据时其实还没想清楚如何利用数据,后来去不断地和算法同学聊,讨论明确了方法。

感觉产品懂技术甚至本身会技术还是很有必要的,在沟通需求与进度跟踪还是很重要的。

一开始有些方向不清晰,后来发现技术的扩展性与想象空间都很大,再后来遇到问题停滞不前,再到深夜寄希望于数据处理。有过失去信心,没有定位的时候,也有焦虑的时候,不断地身陷自我怀疑,甚至PPT答辩时有过关于讨论技术细节的风格是不是合适的焦虑,上台的演讲风格有没有清楚传达。后来发现其实坚定初心保持信心才是合适的。我自己的缺点也在比赛中有体现,演讲的没有重点与语速过快,本身缺乏leadership,对于现实与理想有不同,无法实现确实是需要接受。

作为一个产品,从里面收益颇丰,不过最重要的是有一群极其靠谱的技术小伙伴,大家都很有激情,与探索的实力,让我体验到一种make things happen的感觉,主办方的赞助商闪银主动联系我们,说期待有技术合作,很感谢主办方,也希望技术同学有更多收获。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容