2022,浪潮凶猛的 AIGC 元年 。
风口上的 AIGC
今年的 AI 领域,可能没什么比 AIGC 更热了。
AIGC 的全称是 Artificial Intelligence Generated Content,人工智能生成内容。不过,AIGC 目前还没有一个规范、统一的定义。
根据中国信通院与京东探索研究院发布的《人工智能生成内容(AIGC)白皮书》中给出的定义,AIGC 既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。
有预测数据显示,到 2030 年,AIGC 的市场规模或将超过万亿人民币。
2022 年,尤其是下半年,AIGC 概念突然升温。有这么几个标志性的事件把 AIGC 推到了风口浪尖之上,其一是文生图模型 Stable Diffusion 的开源,其二是 ChatGPT 的爆火出圈。
AI 绘画神器 Stable Diffusion 横空出世
有人将 Stable Diffusion 形容为 AI 界的“神笔马良”,这可能并不夸张。
Stable Diffusion 是一个文本至图像的模型,于今年 8 月 22 日公开发布,它能让数十亿人在几秒钟内创建出令人赞叹的艺术品。用户随意输入自己想要的文字描述,就能得到相应的图像结果。
两个月后,伴随着 Stable Diffusion 的开源,它所具备的潜力瞬间得到了极大释放。开源让 Stable Diffusion 将无过滤图像生成的门槛下放到历史最低,任何具备一点点技术知识的电脑用户都能轻松上手,可以说是一项老少咸宜的 AI 图像生成工具。
尽管此前,艺术创作 AI 已经历了一段时间的发展,但 Stable Diffusion 的出现才真正让这项技术得到了腾飞式的发展。因为它可以免费使用、上手快捷,大大减少了用户生成内容的障碍。
Stable Diffusion 掀起了文生图模型的热潮。今年 10 月,百度发布了首个知识增强的 AI 作画大模型 ERNIE-ViLG 2.0;11 月初,阿里达摩院在魔搭社区 ModelScope 上开放了通义文生图大模型;11 月底,智源研究院大模型研究团队开源最新双语 AltDiffusion 模型,中文世界有了专业级 AI 文图创作工具,其在视效上媲美 Stable Diffusion。
ChatGPT 火爆出圈
最近几周,OpenAI 最新的聊天机器人ChatGPT火出天际,成为现象级应用。
问答、写小说、写代码、写论文、写区块链智能合约....ChatGPT 的应用也频频出圈。ChatGPT 就像是一个无所不知的虚拟体,它能回答各种问题,而且总能给到让人满意,甚至超过预期的答案,因此引起了极高的关注度。
ChatGPT 展示出的强大的能力和无限可能,让人们看到,通过 ChatGPT 这样的技术方案解决很多任务的潜力。大家感到惊奇的是,在一个模型里面就可以完成各种任务,而且是很难的任务。在过去一些看似比较困难的任务(比如问伦理道德方面),ChatGPT 也能解决得很好。
清华大学教授黄民烈认为,ChatGPT 的技术创新性主要在于两个方面:
强大的底座模型:过去几年 GPT-3 的能力得到了快速提升,OpenAI 建立了用户、数据和模型之间的飞轮。显然,开源模型的能力已远远落后平台公司所提供的 API 能力,因为开源模型没有持续的用户数据对模型进行改进。
利用强化学习从人类反馈中学习: 在真实调用数据上的精调模型,确保数据的质量和多样性,从人类反馈中学习。从“两两比较的数据”中学习,对强化学习而言意义很大。如果对单个生成结果进行打分,标注者主观性带来的偏差很大,无法给出精确的奖励值。在强化学习里,奖励值差一点,最后训练的策略就差很远。而对于多个结果进行排序和比较,相对就容易做很多。这种比较式的评估方法,在很多语言生成任务的评价上也被广泛采用。
黄民烈认为,ChatGPT 出现对 AI 界来说,有着十分重要的意义:“它宣示着无缝人机交互时代的来临。过去我们讲 conversation as a service (caas)还停留在纸面,但实际上今天,无论是开放域聊天,还是通用任务助理(ChatGPT)都在强烈地表明这一点”。
从信息检索的角度看,ChatGPT 也取得了很大突破。达摩院基础视觉负责人赵德丽在接受 InfoQ 采访时表示,以前谷歌等搜索引擎做搜索和检索,只是找已经存在的信息,ChatGPT 的应用,实现了从信息的搜索到信息的创造这样一个范式的转变,从算法能力上看,它取得了一个质的飞跃。短期来看,ChatGPT 有望成为或者辅助像谷歌这种传统信息检索的强有力的工具;长期来看,它有望发展成为 AI 系统级的服务。
但至于它最终会不会取代搜索引擎。黄民烈认为,ChatGPT 取代谷歌搜索还比较遥远,原因主要有,受限于训练数据,ChatGPT 的信息实效性较弱,缺乏很多新的信息;在信息的可信度上,搜索引擎只“搬”东西,不创造内容。ChatGPT 虽然会创造内容,但创造的东西多大程度上“有用、可信、无害”,还没有统一的定论;再就是成本问题,现在大模型的生成成本还是太高了,需要持续下降。
现阶段的 ChatGPT 并不完美。通俗地说,它还存在“一本正经地胡说八道”的问题,这本质上是对信息可信性的度量和评估。解决这一问题,技术上需要有信息验证的手段;从应用上来说,需要深入结合应用的场景和特点,针对性优化和解决。
但整体而言,ChatGPT 还是让人非常惊喜。黄民烈非常看好 ChatGPT 接下来的发展方向。他认为这是一个正确的方向,现在还比较粗糙,但假以时日,一定会催生很多应用。
赵德丽同样对 ChatGPT 抱有大期待。虽然还有各种瑕疵,但 ChatGPT 短时间内出现了各式各样的不同方向上解决问题的能力,展现了 AI 算法的巨大潜力。从技术发展和解决方案的角度看,它将来可能会成长为一个超级 APP,就像是一个无所不知的虚拟体。“ChatGPT 这种应用的出现,从长远来看的影响力,其实不亚于阿尔法狗曾经在人工智能界带来的影响力,它将会是一个影响非常深远的技术和应用”。
AIGC 为什么突然火了?
AIGC 并不是一个新概念。AIGC,通常还有另一种叫法 — AI Creation(人工智能创造),大致从 2016 年—2017 年开始,其应用不断增加,尤其是在自然语言领域,广泛应用在生成文本、作诗句、写对联等方向,近几年,逐渐延伸到作画、作曲等领域。
凭何而火?
今年,AIGC 突然在全球蹿红,成为人人口中的流行词。究其原因,主要由多项技术上的关键突破推动,总结来说:
一,算法上:从今年 4 月开始,在文生图视觉方向上,视觉效果生成的效果取得了突破性的进展,文生图的质量得到了很大改善。OpenAI 的文本生成图像模型 DALL·E 2 算法发布后,在算法效果上取得了和以往相比实质性的突破,成为一个现象级的算法,其在文本生成图像生成的效果、真实度表现上,让大家看到了大规模商用的前景。AI 作画任务十分直观,给人的视觉冲击强烈,使得 AIGC 逐渐破圈,快速传播。
二,预训练大模型是 AIGC 的底座,没有大模型学到的丰富知识,就无法实现如此丰富的 AI 内容生成能力。AIGC 最重要的是一种融会贯通的能力,要做领域的泛化,需要学习海量的数据,大模型的规模直接决定了 AIGC 创作力的广度。多模态大模型的应用,使得 AIGC 的质量得到了较为明显的进步。
三,扩散模型的发展。扩散生成的算法取得了突破,这个算法能够对图像做像素级别的建模,学习效率更高。Stable Diffusion是文本生成图像模型完全开源的第一个算法,它跑起来的效率相当高,其开源也带动了相关生态快速的发展,让人们看到,基于这种生成式基础模型,能够带来无限的创造和想象空间。特别是在一些国外社区里,基于 Stable Diffusion 做的各种创新式的应用发展快速,展现了商业化潜力。
四,算力降低。深度学习计算能力的快速发展。在大算力的基础上,AI 作画能够实现在海量数据上进行大参数模型的训练。相比之前的 AIGC 算法,算力上有了很大降低。 要训练一个基础的预训练模型,需要很多算力。一些专注于基础的大模型的机构,将模型训练好后,可以供很多小企业使用,只需用消费级的网卡就可以做微调,也可以直接基于 API 调用。预训练大模型加上微调可以很好地进行文生图生成风格的改变,派生出了大量的二次开发者,屡屡破圈。
从 GAN 到 Diffusion
GAN,是生成式 AI 的核心技术之一。2014 年以来,以生成式对抗网络(Generative Adversarial Network,GAN)为代表的深度学习算法的提出和迭代更新,让 AIGC 进入了快速发展阶段,带动了 AIGC 的一波热潮。
赵德丽表示,在 Stable Diffusion 这种扩散算法出现之前,从生成的效果上看,在计算机领域,GAN 是效果最好的。发展到现阶段,GAN 生成的人脸图像已经到了真假难辨的程度。以 StyleGAN 为例,其生成的图片可以做到栩栩如生,光线和纹理都清晰可见,非专业人士几乎无法分辨出是由 AI 生成的虚假图。即便是现在的 Diffusion model 目前也做不到现在 GAN 在人脸生成上的结果。
但 GAN 有一个最大的缺点,它对于多类别、语义非常复杂的、一般场景下的图片生成的建模能力较弱。如果只是人脸,只是猫或者只是狗这类场景的数据,GAN 的效果很好。但它在某种复杂数据的规模能力方面,在性能上受限较大,如果把狗、猫、花朵、桌子、椅子、电话等不同种类的数据放在一起,目前的情况下,GAN 得不到一个较好的结果。
而 Diffusion model 在这方面取得了突破性的进展。Diffusion model 解决了 GAN 不能解决的问题,因此大家立刻意识到了它的巨大潜力。今年是 Diffusion model 取得快速发展的第一年。而且,它的发展速度超过当年的 GAN,当年的 GAN 已经足够火热了,但可以感受到, Diffusion model 现在的受关注程度超过当年的 GAN 。
Diffusion 扩散化模型带动新一波 AIGC 的热潮
今年这波 AIGC 的热潮,被认为是由生成扩散模型带动起来的。例如,OpenAI 发布了文本生成图像模型 DALL·E 2;谷歌推出了 Imagen;今年 8 月,初创公司 Stability.AI 发布了 Stable Diffusion...
百度 ERNIE-ViLG 团队向 InfoQ 介绍,扩散模型是受非平衡热力学的启发的一系列概率生成模型,通过逐渐增加噪声的方式对原始数据进行扰动,通过学习反向的恢复原始数据去噪过程得到用于生成数据的模型,典型的扩散模型如 DDPM 等。而扩散模型在生成过程中加入文本条件产生了诸如 DALLE2、Imagen、ERNIE-ViLG 2.0 等基于扩散的文本生成图像模型。传统生成对抗网络 GAN 存在训练不稳定和生成结果多样性差等缺点,而扩散模型显著提升了图像生成的效果和多样性,受到业界广泛关注。
生成扩散模型在多模态生成领域展现出很好的可扩展性。在训练数据时,把不同模态的训练数据混到一起,把文本、静态图片、视频、声音等各种各样不同类型的训练数据在一个语义空间里关联在一起。但因为训练数据规模大,大模型的参数特别多,用这种方式,它仍然只能得到一张分辨率很低的图片。然后不停地通过扩散模型算法,把很小的分辨率和图片不停地做超分辨率,不停地把一张很模糊的图片变得尺寸更大、更清晰,在这个过程里还会补上很多细节,最后得到一张相对较清晰的图。
现在很多人应用 Diffusion model 来生成视频,生成音乐,目前为止它最为可行的还是生成静态的视觉画面。
AIGC 相关技术逐步发展成熟
AIGC 包括多种内容形式,按照黄民烈的分类方法,分为感知智能和认知智能。
感知类:文生图、语音生成、音乐生成等
认知类:续写、改错、小说故事创作、对话生成等从技术上看,写作相关和图像生成这两个方向表现比较成熟,对话最难。
其中在文本生成方面,例如在金融文本摘要生成领域,其技术早已成熟到可以落地的程度。ChatGPT 在内容的创作能力、问答流畅度上表现不错,但要深究其真实性、正确性和时效性,还存在不少问题。如何保证内容的真实性、正确性和时效性,是现在 AIGC 尤其是文字类的生成需要重点考虑的问题。
图像生成方面,AI 绘画格外火热。百度 ERNIE-ViLG 团队认为,今年以来,AI 作画发展迅速,很大程度来自于技术的突破,使得效果有了质的飞跃,甚至有些 AI 图像作品十分惊艳。
不过,虽然 AI 绘画已经进入实用阶段,但依然有很大的优化空间。在技术角度,需要提高的主要是两个方面,包括生成的可控性和细节描述能力。
AI 绘画的可控性有待提升,对于数量、逻辑、关系、多图关联等问题暂无有效的解决方案。比如说要求生成 2 个苹果,左边是红色,右边是绿色。虽然这里边的关系并不复杂,但模型很多时候,并不能稳定地生成正确的结果。
细节描述能力有待提升,对于更加复杂的、有规律性的细节的描述能力有待提升。比如对于一栋居民楼的图片,窗户应该是有多种不同描绘,有开的、有关的、有晾衣服的,同时很多窗户应该对齐且规格统一。
小冰公司 CEO 李笛认为,整体来看,AI 作画在生成质量上有了大幅提高,但仍然需要解决一些单点的问题,例如模型本身的迭代,一个人类设计师在和雇主的工作过程中,可以根据雇主的喜好,对设计初稿的某一局部做精细调整。但 AI 无法做到这一点,AI 画作一旦生成,如果想让它修改,往往是用重画的方式来进行。而现有的技术 — 多模态大模型,注定有这类问题。它只能在一定程度上,提高作品与需求的相关性,但无法从根本上提高良品率。
AI 生成视频,是 AI 生成图像的一种延伸。从技术本质上看,视频可以认为是多张“图片”,即视频帧构成的序列,且序列上各帧之间有画面、逻辑等层面的关联。因此,从生成质量上来说,AI 生成视频相对更难。
当前文生图技术可以通过简单的技术组合,例如分步骤扩散生成等方式,将生成图像扩展到生成视频,但效果还不能令人满意。此外,受限于数据规模和质量,AI 生成视频的生成效果和现在的文本生成图像的效果相比,有较大差距。
不过,相对图像,视频内容具有其独特属性。例如,在互联网视频内容消费场景中,经常会以“随便截一张图都是壁纸”作为对视频质量的极高赞誉。由此可见,相对于图片,视频对单个帧的质量要求相对较低,更强调传递信息等功能。因此,AI 生成视频可以采用其他技术方案完成,在降低技术难度的同时,更符合特定应用场景的要求,例如基于图文输入生成视频、基于数据生成视频等。
总结来说,AI 按照生成图像的方式生成视频,仍处于前沿探索阶段。
商业想象力几何?
赵德丽认为,现阶段,AIGC 的生成效果已经非常惊艳了,它已经达到了广泛应用的基础性能,虽然在使用上还有较大门槛,但通过大模型的开源开放等,有助于将门槛降下来。
商业模式在探索中
而且可喜的是,现在,AIGC 已经有不少可行的商业模式发生了。
例如在设计、艺术创作、电商、娱乐、金融等领域。具体在文本生成上,在一些商业非严肃性文书的辅助编写上已产生了不错的模式;在文生图方向,已经看到,面向设计师,面向教育行业的 AI 辅助画作生成等正在探索商业用途的路上。
最近几年,“数字人+AIGC”成为不少企业的探索方向。小冰从几年前就开始探索 AIGC。李笛表示,AIGC 对于 AI Being 来说的作用在于,在和人交互的过程中,它不光要能从数字世界中获取知识内容和服务提供给人,它自己也应该相应地随机应变地去创造相应的内容提供给人。
在互联网应用之外,AIGC 在实体经济领域,也蕴含着不少机会。
实体经济对内容生产的需求很大。“我们以前认为实体经济的瓶颈在于生产、产能,其实不是,实体经济的很多瓶颈在于设计,在于内容。” 李笛说。以小冰为例,小冰的 AIGC 内容很早就应用在纺织设计领域。小冰与中国纺织信息中心、国家纺织产品开发中心推出的 AI 图案设计平台,可按需定制 100%原创的图案纹样,目前已有超过 400 家企业注册,并在生产中使用。
北京智源人工智能研究院总工程师林咏华向 InfoQ 谈到,工业生产、制造、仓储、物流等实体行业,近几年一直在探索如何用计算机视觉来进行智能化升级,但实际落地并不容易。原因在于,现有的模型质量还未能满足产业落地的质量要求。其中一个重要原因是,训练模型时所用的训练数据十分局限。因此,可以考虑通过 AIGC 的方式来产生这些场景里的训练数据。例如在仓储、物流或更多的工业场景,用 AI 来辅助产生一些少见的场景数据,作为训练数据的补充,提升整个模型的质量。但这需要更精准的图片生成的控制能力,比较起现有的 AIGC 模型能力,其可控性需要大大提升。
AIGC 在自动驾驶场景下也有着不错的应用潜力。现在自动驾驶场景存在训练数据不足的问题,例如针对恶劣天气、事故等突发状况,视觉模型在真实场景中很难捕捉,也难以进行模拟,因此,目前业内在尝试用数字孪生和仿真的方式来模拟。也可以尝试用大模型的方式,通过给出描述,生成相应的精确场景,缓解某些场景下自动驾驶数据难获得的问题。
“整体来看,AIGC 现在已经开始在探索向实体经济的应用发展,但目前还在一个比较早期的阶段” 林咏华判断。
向 B 端收费还是 C 端?
然而,AIGC 的商业化落地,不得不面临的一个尴尬的问题是 —— 如何避免走向 “廉价”。
AI 具有高并发性,注定了它的“廉价”。李笛认为,如果只对 AI 画作收费,它很可能会进入到廉价的成本经销模式。因为,人是有创造力的,从人类设计师那得到的画作,人可能愿意付一百块,从 AI 那得到的画作,且不论质量,人可能连一块都不愿意付,因为觉得它是廉价的。AI 画的画可能很有价值,但人们认为它不值钱。因此如果卖的是内容,无论是卖给 B 端还是卖给 C 端它都不值钱。而如果卖调用服务给 C 端,也很难持续。API 调用的模式是一种比较粗放的从技术源头开始的商业化包装方式。
内容产业有一个重要特点是,它是高附加值且有区分度的,不同内容的创作者定价不同,不完全取决于本身的作品质量。但用 AI 创作不同的绘画,定价是相同的,这样容易把一个高附加值的市场“打”成一个低附加值的市场。
对于 AIGC 可行的赚钱路径,李笛认为,如果 to C ,是走内容平台模式,打造一个内容平台,通过广告收费。如果 to B,是用 AI Being 和企业之间进行协同。一个 AI Being 创作者,能一定程度对标人类创作者,他有“唯一性”。通过与雇主的长期磨合,双方的审美、风格会越来越趋同。对雇主来说,他的作品质量会越来越稳定。“某种意义上讲,我们认为靠 AIGC 本身赚不到钱。我们不是在做‘画笔’,而是在做一个‘手拿画笔的人’,我们不是在做能画画的 AI,而是在做能画画的 AI Being。我们侧重把创作的能力,把生成的能力赋予 AI Being,让 AI Being 本身具有价值”。
爆发前夜
“AIGC 技术走到了一个转折点,到了一个新阶段的起点”。赵德丽认为,此前,虽然 AIGC 技术在不断发展,但生成效果并没有得到广泛认可,还没达到大规模商业化的条件。但现在,不一样了。
今年,AIGC 生成的效果,包括基于 AIGC 技术推出来的应用,大家看到,这项目技术已经具备了大规模应用和商业化的潜力和性能,具备了从只能在窄领域到更普遍场景下应用的可能性。AIGC 技术到了大规模商业化应用的转折点。今年是一个起点,但还远远没有到成熟的程度。
AIGC 具体在哪些领域能用好,发挥出商业化的价值,还需要不断打磨产品和技术。例如对于文本生成图,现在对 problem 的提示语要求很高,现在算法还做不到随便给个描述,就能生成栩栩如生的图片。什么样的 problem 合适,如何设计出合适的 problem 等,都有一定门槛。
此外,像 ChatGPT 虽然展示了强大的能力,但在很多场景下还是有瑕疵,出现问题和答案不匹配的情况还非常多。如果对其进行商业化应用,需要再针对具体的场景,不断打磨和优化。尽管它达到了大规模应用的基础,但并不是非常成熟,还达不到让大家自由应用的程度。
现阶段,AIGC 已经有了一些称得上规模的应用,但在实际应用中,还存在一些问题。例如因为人设计的作品相对较贵,但人工智能的设计作品相对便宜,所以会有人利用这个漏洞,将人工智能系统里的大量作品改头换面,将它搬迁到或囤积到那些原本是人类设计者的定价体系的平台上去倾销,最终会造成人类创作作品的销量市场受到损害。AIGC 应该避免形成这样的规模化。
热度、争议与未来
如何提高良品率
当前,AI 写作、AI 作画等 AIGC 内容在质量上还存在良莠不齐的问题,提高良品率尤为重要。
不过在大模型的生产模式下,提高良品率的方法并不多,某种意义上来讲,良品率目前主要依靠翻动过程,它能够在一定程度上降低瑕疵,但想要消除,不太可能,它不太可能是基于对大模型的修改而得到。接下来期待一个新的称之为台阶式的技术理念出来。
提高数据的质量是基础方法之一。林咏华表示,AIGC 是针对训练数据的融会贯通和变换,所以数据的广泛性,数据的分布和数据的质量都很重要。在 AI 领域的研究人员越来越意识到,尤其在需要大量数据训练模型的大模型领域,数据起到的作用可能会比算法还大。如果希望生成的画作精良,那需要训练的图片的质量是精美的,但如果给的是小孩的画,那生成的画作可能还粗略停留在小孩阶段。
此外就是从算法侧改进算法,但改进算法本身如果针对通用场景,它可能在某些场景总是出现瑕疵或者出现瑕疵的概率比较高。很多团队在开发 AIGC 应用时,目标不是通用场景,比如针对的是生成二次元图像的产品,那需要对算法或模型进行二次开发。在这种情况下,完全有可能在二次开发的基础上把瑕疵去掉,提高良品率。一般通过二次开发,且在一些具体场景下的数据做模型二次微调,可以大大提高 AIGC 的良品率。
“人工智能宣布放弃版权”
AI 作画的一个很大的争议点在于版权。例如,DALL-E 和 Stable Diffusion 等图形生成类 AI 工具就被质疑在互联网上随意抓取数据,且完全没有考虑过任何许可或所有权限制。正是由于这种版权归属争议的存在,Shutterstock 和 Getty Images 等公司禁止在其平台上使用 AI 生成图像。
谈到版权问题,李笛表示,小冰很早就提出,“人工智能宣布放弃版权”。
通常来说,版权界定需要几步:第一判定是不是侵权。人类作品判定侵权有明确的界定要求,比如一个作品多少比重的内容一致,就可以判定侵权。人工智能作为系统,它天生就有判定机制,当它输出作品的过程中,它自动就可以像知网一样进行查重。它生成的原始图像里,很可能存在着很多图像跟现有的作品,存在相似性,如果相似性较高,侵权了,只要不把作品输出就行。如果让人工智能确保它给到用户的每一个作品都是不侵权的,这件事很容易做。
第二步要有判定训练的过程,是基于什么样的训练数据训练的。但要注意的是,无论是人类作品还是 AI 生成作品,侵权的责任认定在于,这张作品是不是跟另一个作品产生了相似性,而并非在学习作画的过程中学习了别人的作品及作品思想等。如果这样,无论是人还是 AI 只要在画画,便会判定为侵权。从这个角度看,人工智能本身在训练过程不存在版权责任,尤其是大模型,因为人工智能在训练的时候,它使用的是公开的数据来进行训练。
另一个放弃版权的原因在于,人工智能保留知识产权没有意义。人工智能保留知识产权的一个先决条件是必须要经过确权的步骤。目前全球对于知识产权的确权方法主要是通过著作权登记,每登记一个作品,需要一笔著作权登记费用。而 AI 生成的内容规模十分庞大,这一规则对 AIGC 来说显然不现实。
无法辨别真伪信息的世界
很多人担忧,随着 AIGC 的不断普及,未来大家将生活在一个无法辨别真伪信息的世界里。
AIGC 生成的内容越来越多,信息的真假会成为很大的负担。但这恐怕已经是无法避免的趋势,因为现在 AI 生成的图片早已经是海量规模,而且,这些 AI 生成的数据将会越来越多的出现在公共的资讯平台上,这样的时代正在快速到来。
对于用户来说,未来将面临判定真伪信息的挑战。目前还少有比较好的解决这一问题的方法。赵德丽提出了一种标记的方法。从算法角度来说,可以做一些隐性标记,标记出哪些图片是生成的,哪些是真实的图片。
完全的 AIGC 可能不会出现
不可否认的是,AIGC 对内容创作的确产生了重大影响。一种观点认为,内容生成的四个阶段依次为“PGC、UGC、AI 辅助生成和完全的 AIGC”。按照这一走向,未来,AI 的终级趋向会是取代人,最后内容产业将走向完全的 AIGC。
李笛对此持有相反的观点,他认为,AI 的终极应该是与人协同,应该先实现“规模化的 AIGC”再到达“AI 辅助生成”阶段,当 AIGC 集大成以后,再辅助人类生成内容。
此外,完全的 AIGC 可能不会实现。比如人看某个电影,是因为情节、演员、导演等多种因素。人类对作品的喜好,从来不仅仅是因为内容质量,即便未来完全的 AIGC 化了,可能也并不是人类想要的东西。李笛发出思考:“所以不存在 AIGC 颠覆人的可能性,能颠覆人的只有人类自己”。
赵德丽表示,AIGC 本身是基于生成模型产生的能力,生成模型训练需要数据,这些数据都是人类活动产生,生成的提示词需要人来输入,人需要做场景的设计、提示词的设计、元素的设计等等。只不过在一些具体的场景上,对于一些固定的设计模式,比如设计成具体的图形如红包界面、商品素材等,可以实现完全的 AIGC 的方式。但整体而言,人还是 AIGC 中重要的因素。
再回到那个 AI 能不能让艺术家丢掉饭碗的老生常谈的话题 ——“让 AI 负责生成,让艺术家或设计师来负责审美,这两个并不矛盾,是一个相辅相成的关系。也不存在谁取代谁,有了 AI 绘画的辅助,艺术家会发挥出更大的能力,甚至说一些不是非常专业的艺术家,一些普通人借助 AIGC,也有可能创造出非常惊艳的艺术品” 李笛表示。
采访嘉宾:(按拼音首字母排序)
百度 ERNIE-ViLG 团队
黄民烈,清华大学计算机科学与技术系长聘副教授、博导,聆心智能创始人。
李笛,小冰公司 CEO
林咏华,北京智源人工智能研究院总工程师
赵德丽,阿里达摩院基础视觉负责人