头条
规划 AGI 及以后
OpenAI 概述了他们为实现创建 AGI 的最终目标已采取和计划采取的步骤。他们概述了一个相当雄心勃勃的未来,并解释说这些模型的未来发布可能会更慢、更谨慎。他们暗示他们相信 ChatGPT 是迈向 AGI 的垫脚石。他们所做的努力的例子包含在文章中。
Meta 发布 LLaMA,一种最先进的基础大型语言模型
Meta 公开发布了一种名为 LLaMA 的新型大型语言模型,旨在帮助研究人员推进他们在自然语言处理 (NLP) 的 AI 子领域的工作。 LLaMA 有多种尺寸可供选择,是一种基础模型,可以针对不同的任务进行微调。通过发布 LLaMA,Meta 希望使对大型语言模型的访问民主化,让更多的研究人员能够研究和测试该领域的新方法。
Uizard Autodesigner:由 AI 自动设计的文本
Autodesigner 是 Uizard 的最新 AI 设计功能,它使用户能够通过用简单的英语输入项目想法来生成多屏幕模型。 Autodesigner 与 ChatGPT 非常相似,但用于 UI/UX 设计!加入 Uizard 的人工智能功能库,Autodesigner 将帮助您在几秒钟内实现您的愿景;只需输入几个简单的短语,让 AI 在几秒钟内将您的应用愿景变为现实。
研究
使用人工反馈对齐文本到图像模型
在这项工作中,我们看到了对齐提高能力的更多证据。以前的研究似乎主要集中在与人类偏好较弱的能力上(例如,在基准上改进 FID 或 SOTA)。然而,现在我们发现,如果我们根据人类反馈数据训练奖励模型,我们的模型会变得更有用。他们概述了“奖励加权似然最大化”方案。他们的实验仅限于计数、颜色和背景类别。
Meta 的新“开放式”基础模型
Meta 在 Trillion 代币上训练了 4 种强大的语言模型。他们发现许多现代进步,如 pre-layernorm、SwiGLU 和 Rotary embeddings 提高了他们模型的性能。此外,他们还概述了用于训练这些模型的训练组合和计算能力。在这个项目的过程中,他们使用了 2048 个 A100 GPU 5 个月,其中最大的模型用了 21 天来训练他们的整个集群。
工程
Civitai (GitHub Repo)
Civitai 的目标是创建一个平台,人们可以在这个平台上分享他们稳定的传播模型(文本倒置、超网络、美学梯度、VAE 以及人们为定制他们的 AI 世代所做的任何其他疯狂的事情),与他人合作改进它们,以及从彼此的工作中学习。该平台允许用户创建一个帐户,上传他们的模型,并浏览其他人共享的模型。用户还可以对彼此的模型发表评论和反馈,以促进协作和知识共享。
Composer:用于无限图像生成和操作的大型可控扩散模型 (GitHub Repo)
Composer 是一个大型(50 亿个参数)可控扩散模型,在数十亿(文本、图像)对上进行训练。它可以通过合成以指数方式扩展控制空间,从而产生大量的图像生成和操作方法,即无限使用有限的方法。
扩展跨域合成任务的扩散模型的能力(GitHub Repo)
本文讨论了如何将现成的扩散模型用于各种跨域合成任务,例如图像混合、对象沉浸、纹理替换和 CG2Real 翻译或风格化。所提出的方法使用局部迭代细化方案,将插入的对象与来自背景场景的上下文信息相结合,从而控制变化的类型和程度。
杂七杂八
业务技术负责人质疑 ChatGPT 对企业的准备情况v
高管们表示,生成式 AI 聊天机器人可能会大错特错,目前主要适用于死记硬背的任务。尽管如此,他们表示,未能探索该技术可能性的首席信息官有可能让他们的公司落后。
Alphabet 裁员打击垃圾分类机器人
最近裁员的另一个不幸受害者,开发行业领先的清洁和垃圾分类机器人的日常机器人被解散。作为去年损失 $6B 的“其他赌注”之一,Everyday Robotics 是 Alphabet 的 X“moonshot”计划的毕业生。一些研究将在谷歌机器人内部继续进行。
提示工程是热门的新技术工作
提示工程师因为他们在让人工智能系统准确地生产他们想要的东西方面的技能而获得了可观的工资。
RadioGPT:世界上第一个人工智能驱动的广播电台
RadioGPT 是第一个由 AI 驱动的广播电台,它使用 GPT-3 制作用于播出的脚本,同时 AI 语音将该脚本转换为音频。
一些公司正在用 ChatGPT 取代工人
在 Resumebuilder.com 调查的 1,000 名使用或计划使用 ChatGPT 的企业领导中,有 25% 的人使用 ChatGPT 替换了部分员工。
Midjourney 禁止谈论生殖系统以对抗色情
AI 文本到图像生成器 Midjourney 暂时禁止与生殖系统相关的词,以阻止用户创建色情内容。