去年十二月十六日,科学杂志公布了2022年度十项科技突破,这些都是一年内的科学发现、科技进步和发展动向,而 AIGC则是人工智能的一项重大突破。
AIGC是人工智能行业的一大潮流,这也就是人工智能进入了以前被认为是“人类独占”的行业,比如艺术表达,科学发现等等。Science称,起初 AI的渗入速度很慢,但是到了今年,已经成为一种争夺。
百度CEO李彦宏认为, AIGC在接下来的十年里,将会对传统的内容制造方式造成巨大的冲击。可以用十分之一的价格,用百倍的效率,制作出一篇原创的 AI作品。
然而, AIGC现在所面对的版权、伦理、商业化等问题,也给 AIGC的发展带来了潜在的威胁。
其实, AIGC的首次曝光亮相,还是要追溯到一幅人工智能的画作。
去年八月,一副名叫《太空歌剧院》的绘画作品在美国科罗拉多州展示参赛,它在数码艺术领域赢得了大奖。
然而,这幅美丽的作品却没有打传统艺术家,反倒是引发了一场激烈的争论。因为这幅获奖的画作不是杰森·艾伦自己用笔绘制的,它是采用了AI绘画应用 Midjourney。
一些人觉得艾伦利用人工智能绘画是一种欺骗行为,“利用人工智能制作一张图片并自称是一名画家,真是令人厌恶。”也有人说:“真是太可怕了,想象一下,要是让一个机器人跑到奥林匹克上来,那该多恐怖啊!”还有一些对 Allen将AI产生的图片和艺术品混淆的做法感到愤慨,称“我们看到了艺术的灭亡。”
就在这个事情过去了两个多月之后, ChatGPT又一次引起了大家的注意。
十一月三十一日,一家名为 OpenAI的公司推出了一款名为 ChatGPT的新型对话机器人,并且向用户免费提供服务。
ChatGPT可以在任何一个话题领域和他人交流,解答任何问题,包括修改代码、回答科学问题,包括向 Twitter的发展提出自己的见解、不确认的猜测和请求等等。
ChatGPT非常聪明,在互联网上迅速走红,仅仅五天时间,它的注册人数就超过了一千万, 为此OpenAI被迫暂停一段时间对用户的试用。
国内厂商也推出了一款类ChatGPT的产品 - metamind,metamind不仅可以像chatGPT一样进行文字沟通,还支持多模态的AIGC装作能力,包括AI绘画,AI写作,AI视频创作等,用户可以一键生产话题内容并创作视频,还能“复活”名人并与之进行专业领域沟通。
用户甚至还能生成自己的虚拟分身并发布基于此分身的AI创作内容。
而针对性能强劲的 ChatGPT,业界人士认为 ChatGPT将会给传统的搜索引擎带来巨大的影响。OpenAI公司的合伙人马斯克在亲身经历之后,也表示:“ChatGPT真的很棒。”
国内 AIGC技术服务供应商惠叶公司近日也获得了 A+级的投资,高瓴创投和顺为资本。
国内和国际的网络巨人都在抢滩 AIGC市场。
腾讯公司在中国已经推出了“写文机器人 Dreamwriter”,阿里巴巴旗下的 AI在线设计平台“鹿班”完成了广告的制作,而字节跳动的“剪映”和快手的“云”则可以进行 AI视频创作。八月,百度推出人工智能美术与创作的辅助服务——文心·一格,该系统能够迅速地制作出人工智能作品。
在国外,像谷歌, Meta,微软这样的技术公司也在持续地推动 AIGC的革新,从文字,图片到录像。
资本涌入,互联网巨头纷纷进入, AIGC拥有庞大的商业和庞大的市场空间。
AIGC在《Generative AI: A Creative New World》(Generative World)上发表了一篇文章,指出 AIGC具有潜在的经济效益,其潜在的经济效益为几兆。而国泰君安则认为,在接下来的5年里, AI将会产生10%到30%的图像信息,其市场的规模将超过600亿。
AIGC能在这一年里突然崛起,主要是因为它的深度模型不断完善,以及开源模式的推进。
之前中国信息技术研究院的调查结果显示, AIGC的加速发展与其自身的发展有很大关系。
尤其是自2014推出产生式对抗网(GAN)以来,业界普遍看好 AIGC的“春天”。GAN采用内部生成和识别两组模式,经过反复的学习,可以在输入的基础上生成新的影像。
但是 GAN也存在一个很大的缺陷,即 GAN必须使用一个识别工具来判定所生产的图片与其它图片是否同属一个分类,因此所得到的图片只是对已有的图片的一种复制。所以,基于 GAN的模式很难产生新的影像,无法利用文本的线索来产生新的影像。这个缺陷被一种新模式—— Diffusion所解决。
Diffusion扩散模式的基本原则就是去除噪点,在了解一幅画面的噪声处理中,了解一幅有价值的画面是怎样产生的,所以 Diffusion模式所产生的画面要比 GAN模式更加精确,更加贴近人的视觉和美学,并且在采样次数和深度学习时间的积累下, Diffusion模式能够更好地模拟出不同的表现形式。
Diffusion的扩展模式让 AIGC中的文字产生图象的 AIGC技术得到了广泛的认可,同时也为2022出现的各种人工智能绘画的应用提供了一个很好的模型依据。
在今年早些时候, OpenAI推出了一个基于 CLIP的文本与图片匹配的神经网络,这是最近几年多模式的一个突出的结果,该算法不但可以对文字进行语音的解析,而且可以通过可视化的方式,对两种模式的内部参数进行调节,以实现文字与影像的完美契合。
可以说,将 CLIP与 Diffusion技术相融合,使得 AIGC的作品和图像的自动化程度有了很大的提高。
在此背景下,开放源码对 AIGC的推广与推广起到了推动作用。
根据源能公司的说法,开源就是开源,可以根据自己的源码来进行学习和改进。例如,在2022年初, Disco Diffusion的开放源代码激发了开发人员对其进行研究和创造,到了2022下半年, Stable Diffusion之所以如此受欢迎,不仅仅是由于 Diffusion模式的革新,更是由于开放源代码的环境,让这个行业的技术发展速度大大加快。
Stable Diffusion模式在开放后的数个月内,就开始了大规模的二次开发,从建模到扩展,再到扩展,再到插件的推广,再到开发者和使用者的推广,这也是 AIGC在2022的时候,受到了极大的欢迎。
另外, AIGC的大量的内容要求也在推动 AIGC的应用程序的实现。
国盛证券相信,随着 Web3.0的到来,用户对内容的要求越来越高, UGC/PGC已经很难满足市场的扩展, AIGC将成为一个新的元空间产生技术。
AIGC将会给我们的产品产品带来巨大的变化,但是 AIGC还处在起步阶段,相关的问题如著作权及商业化的实施等都需要尽快得到有效的处理。
AIGC的作品,其实就是 AI在投入了大量的人力资源之后,经过不断的积累,最终形成了一个巨大的资料库,并按照使用者的要求来进行创造。
因此,人工智能产生的产品与原始的创作有很多相同之处,无论是在形式还是细节方面。早些时候,中国的一篇报道曾提及画家反对人工智能绘画。这篇报道说,波兰的格雷格·鲁特科以其富于幻想色彩的油彩风格而著称,成为 Stable Diffusion中最流行的模仿者。他搜索了一下自己的姓名,发现全是 AI的图片,自己的工作早就被人给刷爆了。
继《太空歌剧院》获得了一项惊人的奖项之后,大量画家已经在自己的个人资料中添加了“不允许上传任何内容到 AI绘图系统中”的内容,来自世界著名的 ArtStation ArtStation也提出了反对,要求将自己的作品上传到 AI绘图平台, ArtStation方面则表示,允许这种方式复制一幅画是对著作权的侵害。
十一月二十九日,一个名为洛柒的插画博主抱怨 AI画画的事情在微博上引起了轩然大波。洛柒说到,AI绘制出来的照片,大部分都是和其他艺术家的作品非常类似的,甚至还有人的名字和水印,“AI的作品中,有我认识的老师们的画。”洛柒说道。
但实际上, AI是否侵犯了其他画家的版权,还是很难判定的。为了避免著作权的危险,像 Getty图像和 Shutterstock这样的大的收费图书馆已经停止接受 DALL. E、 Stable Diffusion、 Midjourney等制作的人工智能绘画。这在某种意义上也是 AIGC走向商业化的障碍。
至于 AI作品的著作权,到底属于 AI艺术家,或者属于游戏公司没人能给定论。在《著作权法》中,作者只能是自然人、法人、非法人单位,而作品是以作者为主体的。
所以,人们要求制定一种新的人工智能的法律保护,而不是把过去的法律程序(其中就包括过去对人的发明者和作家的依赖性)用于解决新问题。
此外,由于智能计算本身的不足,使得其内容的品质等级不一致。
就拿 ChatGPT来说,最近因为答案错误太多,已经被 Stack Overflow给禁止了。
在 ChatGPT问世以后, Stack Overflow上迅速涌现了许多由这个模式产生的解答。那些回答往往要有一定经验的人仔细地读一遍,然后再去辨别它们是否正确。
尽管 AIGC的相关理念非常流行,但是业界认为 AIGC的大规模商业化还需要一段时间。
而像国内百度、metamind之类AIGC的排头兵还是较少的,更多的还处于孵化阶段,中国的AIGC之路才刚刚兴起,但一定会在世界范围内取得席位。