头条
Chroma 获得1800 万美元种子资金
AI 开源工具的另一项重大融资公告。这一次,这家快速增长的嵌入数据库公司筹集了现金。他们希望人们会使用他们的工具将状态和内存添加到不同的 LLM 应用程序中。这样做的目的是减少幻觉并增加真实性。它们发展迅速,看看所有不同的 LLMOps 工具如何结合在一起会很有趣。
Fixie 筹集了 1700 万美元的种子资金
Fixie 正在开发一个平台,供公司将大型语言模型集成到他们的产品中。种子轮由 Redpoint、SignalFire 和 Zetta Venture Partners 牵头。
研究
使用 RLHF 训练模型实际上是如何工作的?
在无监督数据集上训练模型是去年的事了。使用人工反馈数据风靡一时,虽然在理论上听起来很容易,但在实践中却很棘手。 HuggingFace 的人写了另一个很棒的博客,展示了 StackLLaMA,它回答了类似 StackExchange 的问题。
具有混合分辨率 Token 化的视觉 Transformers
该论文提出了一种新的 Vision Transformers 方法,它引入了一个混合分辨率的标记序列来代替标准的统一网格,其中每个标记代表一个任意大小的补丁。这种方法使用四叉树算法和一种新颖的显着性评分器来构建一个补丁马赛克,以更高分辨率处理重要的图像区域,同时以低分辨率路由低显着性区域,从而在控制计算预算的同时显着提高图像分类的准确性。
工程
VideoCrafter:用于文本到视频生成和编辑的工具包
VideoCrafter 是一个用于制作视频内容的开源视频生成和编辑工具箱,它包含三种模型:通用文本到视频生成、使用 LoRA 的个性化文本到视频生成和具有更多条件控制的视频生成
TM2D:通过音乐文本集成的双峰驱动 3D 舞蹈生成 (GitHub Repo)
该论文提出了一项利用音乐和文本生成 3D 舞蹈的新任务,可以引导人类进行更丰富的动作。为了解决包含具有单一模态的成对运动的现有数据集的挑战,作者利用 3D 人体运动 VQ-VAE 将两个数据集的运动投射到潜在空间中,并提出了一种跨模态转换器架构来集成文本指示。该方法根据音乐和文本生成逼真且连贯的舞蹈动作,同时在两种单一模式下保持可比的性能。
E2b (GitHub Repo)
E2b 是一个开源 IDE,由 AI 代理提供支持,帮助人们完成工作。
杂七杂八
三星员工使用 ChatGPT 犯了一个重大错误
三星员工在使用 ChatGPT 协助完成任务时意外泄露了敏感数据。在不到一个月的时间里,发生了三起机密信息泄露事件,数据现在由 ChatGPT 的开发商 OpenAI 保留。作为回应,三星半导体正在为员工创建内部使用有限制Prompt 的AI,而三星电子则警告员工此类数据泄露的潜在危险。
现在在人工智能领域工作是什么感觉
本文深入探讨了目前在 AI 领域工作的感受,特别是资本主义对进步的渴望与对安全的需求之间的冲突。
为什么 AI 聊天机器人如此擅长编造事情
本文探讨了 AI 聊天机器人产生误导性或虚假信息的问题,并讨论了研究人员和开发人员为提高准确性和可靠性而采取的各种方法
Audio2Doc (Product)
带有转录和语义搜索功能的音频播放器。
Nvidia 在 GTC 活动中的 AI 公告
作者分解并总结了几周前 Nvidia GTC 活动中的每一个 AI 公告。这包括 Nvidia AI 基金会、NeMo、Picasso、BioNeMo、Omniverse 等。
微软为 Android 键盘添加 Bing AI 聊天功能
微软已将 Bing AI 聊天机器人添加到 Android Beta SwiftKey 键盘。
谷歌前 CEO 警告人类将爱上人工智能
谷歌前首席执行官埃里克施密特担心人类会开始爱上人工智能。