AI产品经理—智能相册的“道与法”

引言:今天要谈的这个产品是一个大家每天都在用,但是大部分人感知特别弱的产品,但实现这个产品的智能化会给用户体验带来极大的改善,创造用户的“aha时刻”。他不仅仅依赖于某一个单一的深度学习算法,而是多模态的算法融合,构建的系统级的AI产品。

    这个产品就是我们日常都会用的智能相册。市面上智能相册的产品很多,优秀的产品也很多,随便抄一个叠加一些差异化功能都能做到70-80分。因此接下来我们不谈智能相册具体如何打造从0-1的术和器,而是从相册本身这个产物去探讨其背后的底层逻辑,探寻相册这个现象背后的道与法。


    了解相册背后的底层逻辑,我们还是套用常用的方法论,从what、where、when、why和how来进行拆分。

1、what

    什么是相册?其实相册这个产品并不是近些年才有,应该是伴随人类文明诞生就存在。从远古时代的人类祖先在洞穴居住的时候,就会洞穴墙壁上进行绘画,这一副一副的画作我们就将其定义为相册集。通过这种方式人们来记录对于世界的理解,人物之间的关系、发生的事件、世界的万物(动物、植物等)、人们脑海里的想象、梦境等等;

约2.5万年史前文明:洞穴上记录下狩猎场景

随着宗教逐渐的发展,记录的内容除了客观存在的世间万物之外,相册内容包含了大量的宗教传说中描绘的景象;随着人们对于工具的开发和应用,内容更加精美,可读性更好,更易于传递创作者想要表达的意图和人物所处的环境。

魏晋南北朝(约公元100-400年),公元敦煌飞天系列壁画

到了近代,在照相机发明之前(1839),我们对于相册的定义是通过各式各样的画作的集合,比如艺术大家的作品集,里面的内容范畴与史前人们对于世界理解和记录并无二致;比如宫廷帝王在一些重要场合下聘请画师进行写实的肖像绘画,画家户外的写生,同样也包含大量基于宗教故事、宗教人物的理解再创作。

路易十四(1638-1715)
康熙皇帝(1661-1722)

    随着相机的发明,人们对于世界的记录和理解方式又多了一种。但是记录的东西想要传达的情感并没有因为记录的工具发生变化而改变。通过相机的方式,让相册不再是王公、宗教贵族等少数社会顶层的人们拥有的东西,相册的全民化与普及,让普通人也可以通过更丰富的元素光影、色彩来记录下对于世界的理解、人与世界的关系,帮助人们更好的审视自己的人生。

老相册(黑白照片)


国内毕业纪念册
国外yearbook

    综上,相册虽然随着科技的进步载体和表现形式不同,但是其本质及发挥的作用并没有改变。且是人做为人区别于其他生物最大的区分,通过一种形式承载情感与传递思想,记录每个人与外界交互产生的片段。相册的归属可以是个体、家庭又或是一个组织。

2、where&when

什么场景下会使用相册,

1、比如在一些仪式上,毕业日、婚礼、生日上、家庭聚会等,与其他人产生交集的会分享的场景(用于传递表达情感);

2、自己日常使用,查找一些过去的记忆(基于时间、事件、人物、地点、场景);比如去年今日、婚礼上的照片、闺蜜的照片、马尔代夫的旅游记忆、备忘录(知识、信息、名片、证照等)

3、基于相册的内容进行进一步加工二次创作,基于某个主题进行编辑加工制作短视频、vlog等等;(图片、视频、其他素材等等)

随着进入“万物皆可屏”的时代到来,相册存在的载体也更加丰富了:比如车载的中控大屏,内容可以是行车记录仪、车内的旅行乘客记录、车外的风景等;

华为hicar车载相册

比如电视大屏,内容可以是适合家庭一起观看的家人们的视频与照片,生活记录的点滴;

小米电视-共享相册

家中的电子相册(带屏音箱等其他智慧中屏),内容可能是艺术画作、亦或是家庭的合影等等;

BOE画屏-电子智能相册

手表上的相册,可以是人物的大头照、自然风景、宠物、建筑或者是用于作为壁纸的内容;如果是儿童手表的话,内容则更加丰富(现在儿童手表很多支持双摄),自拍、合影,小朋友的第一视角认知的这个世界、周遭的环境;

小天才儿童手表-儿童相册(童趣)

3、why

为什么相册亟需智能或者是AI加持,赋予其更多功能呢?

其原因在于我们的电子相册里面记录了人与世界交互产生的痕迹,人看外界的视角、人抽象的情感&思想、人与人的关系;如何理解相册内容,其实是能帮助智能体更好的理解人本身理解人的情感、意图,从而进一步帮助智能体更好的为人提供千人千面的进一步服务(航班信息、证件信息、名片信息等)。

其次,前面提到人使用相册很大一部分原因是需要进行查找、分类进行进一步的创作,因此通过人工智能机器学习的算法可以作为工具提升查找效率、并且帮助人们进行二次加工创作。

最重要的是,相册本身承载了人的情感,通过机器学习的方法理解相册的内容,理解人们的情感、记录人生活的点滴,在合适的时间通过已有相册内容制作视频帮人们唤起一段回忆,与人们产生共情。这可能是一个好的相册产品能达到的最高境界了。而想要做到这些必须依赖于人工智能机器学习算法模型的加持,相册需要背后有强大的算力支持。

4、how

如何打造一款有情感方便好用的相册呢?有什么可以应用的机器学习算法,像魔法一样,让相册也可以像哈利波特世界中的一样鲜活起来?

哈利波特魔法世界中的情感化生动的照片-已经可以实现

首先我们可以看看国内外的科技巨头都是怎么做的?

竞品分析

国内外科技巨头-智能相册竞品分析


我们如何打造一个情感化属性的智能相册呢?

首先是基础的图像分类能力,这个是计算机视觉最为基础的任务,但如何分类更符合用户相册的场景定义,如何分类却不冒犯到用户(之前有人提到过某相册把某用户的母亲分类为黑猩猩,当时引起争议),宁不分也不要分错(再同样的前提下,优先保证准确率而不是召回率),在相册分类的场景下人们可能更希望的是大类的区分而不是像学术人物里面针对物种的类间区分;

图像分类

除了事物的分类之外,另外一大类就是对于人脸聚类,就是按人物ID进行区分,把同一个人分到一起,可以找到这个人的照片。但是某个人的照片哪些要展示出来,哪些不展示,也需要进行设计,比如说用户并不愿意看到自己脸部很模糊、或者很丑态的照片,在人脸质量打分中、质量分低于某个阈值的是否就不以分类的结果进行展示。

人脸聚类-相册常用功能

图像美学质量评价:如何选择机器学习里质量分较高(人脸大小、光照、正面角度、清晰度等等)、且人主观也认为比较好看的照片进行图片优选?甚至进行进一步加工创作、制作回忆视频等等,这里就涉及到关于图像美学质量的模型设计以及人像美学质量的深度学习模型设计了。

人像美学打分

看图说话:基于已建立好的照片/视频(多帧时序图片)分类及美学评价体系建立的基础上,我们进一步可以理解照片所表达的背后意图,传递的感情,比如现在主流的image caption方向和visual question answering方向,都是基于CV+NLP的多模态学习任务,非常适用于相册智能化的场景中。image caption就是看图说话,比如我们提到Instagram做的视觉障碍人士可以听见ins上的图片所表达的含义就是image caption的典型应用。


image caption

VQA:(visual question answering)其实是更近了一步,除了理解画面所表示的含义之外,还可以基于图片进行提问,机器需要理解的内容除了表述画面所显示的内容之外,还要理解问题,并且在画面中找到相应的答案,VQA无疑是将图像理解更推进了一个维度。包含的问题包括二分类问题、计数问题、开放问题等等。

VQA-图文理解

在比如通过一些全局搜索/语音助手的query可以找到满足用户意图的相册里的匹配图片、视频,理解了用户意图的基础上,进行相应的回复,这也是让相册更加理解用户,与用户共情的必要条件。

GAN-趣味体验:最后增加相册体验的可玩性,趣味性,增加产品的魅力因素的功能包括。比如,让2D平面照片像施了魔法一样动起来的3D photo,通过深度估计、matting、inpainting等一系列技术,如果想要将人脸也变得立体,需要将人脸进行三维重建,现在也有基于单张或多张RGB相片进行3D人脸重建的技术,可以想象一下未来你相册里的人脸可以转动,可以做不同的表情,是不是非常有趣呢?

人脸3D重建后,进行表情、角度、动作等编辑,比如制作鬼畜视频类似抖音上非常火的蚂蚁牙黑短视频

此外围绕GAN展开的一系列应用,也非常适合在相册里作为拓展功能增加用户的粘性,比如把旧时的黑白老照片进行修复,恢复色彩、变得清晰,把相册里的人物制作漫画风格、迪士尼风格的各种人像的风格迁移头像;同样可以进行年龄编辑,看看老了什么样子、小的时候什么样子、换一种性别又是什么样子,人脸与人脸融合是什么样子等等。

年龄编辑,看看自己老了什么样子

    同样对于相册里拍摄的各种风景、建筑照片也可以模仿艺术家的各种风格,一键变梵高风、一键变莫奈风;虽然这些名师大家已经离我们远去了,但是通过AI的技术我们还是能得到他们风格的画作,不也是一种人类文明精神的传承与延续。


GAN帮助人们展示主观与客观融合的世界,表达人的思想与情感、对于世界的认知

    最近这两年做了人工智能的产品并积攒了相应的经验,逐步了解探索深度学习学科的逻辑并发现能佐证哲学中关于人与世界关系的一些设定,通过深度学习能帮助我们看到客观世界与人们的主观感受投射之融合,对立统一的呈现于世。

    最后送给大家一句话,来自王国维的《人间词话》: “诗人对宇宙人生,须入乎其内,又须出乎其外。入乎其内,故能写之;出乎其外,故能观之。” 希望大家既入世又出世,既现实又浪漫的生活,让AI赋能的产品为人类社会创造更大价值、给予更多美好。


作者:大仙河  小红书 :大仙河。专注分享关于人工智能、产品、智能硬件、哲学的思考。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,523评论 28 53
  • 人工智能是什么?什么是人工智能?人工智能是未来发展的必然趋势吗?以后人工智能技术真的能达到电影里机器人的智能水平吗...
    ZLLZ阅读 3,763评论 0 5
  • 首先介绍下自己的背景: 我11年左右入市到现在,也差不多有4年时间,看过一些关于股票投资的书籍,对于巴菲特等股神的...
    瞎投资阅读 5,664评论 3 8
  • ![Flask](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAW...
    极客学院Wiki阅读 7,234评论 0 3