数据科学简讯 2023-04-08

头条

Chroma 获得1800 万美元种子资金

AI 开源工具的另一项重大融资公告。这一次，这家快速增长的嵌入数据库公司筹集了现金。他们希望人们会使用他们的工具将状态和内存添加到不同的 LLM 应用程序中。这样做的目的是减少幻觉并增加真实性。它们发展迅速，看看所有不同的 LLMOps 工具如何结合在一起会很有趣。

Fixie 筹集了 1700 万美元的种子资金

Fixie 正在开发一个平台，供公司将大型语言模型集成到他们的产品中。种子轮由 Redpoint、SignalFire 和 Zetta Venture Partners 牵头。

研究

使用 RLHF 训练模型实际上是如何工作的？

在无监督数据集上训练模型是去年的事了。使用人工反馈数据风靡一时，虽然在理论上听起来很容易，但在实践中却很棘手。 HuggingFace 的人写了另一个很棒的博客，展示了 StackLLaMA，它回答了类似 StackExchange 的问题。

具有混合分辨率 Token 化的视觉 Transformers

该论文提出了一种新的 Vision Transformers 方法，它引入了一个混合分辨率的标记序列来代替标准的统一网格，其中每个标记代表一个任意大小的补丁。这种方法使用四叉树算法和一种新颖的显着性评分器来构建一个补丁马赛克，以更高分辨率处理重要的图像区域，同时以低分辨率路由低显着性区域，从而在控制计算预算的同时显着提高图像分类的准确性。

工程

VideoCrafter：用于文本到视频生成和编辑的工具包

VideoCrafter 是一个用于制作视频内容的开源视频生成和编辑工具箱，它包含三种模型：通用文本到视频生成、使用 LoRA 的个性化文本到视频生成和具有更多条件控制的视频生成

TM2D：通过音乐文本集成的双峰驱动 3D 舞蹈生成 (GitHub Repo)

该论文提出了一项利用音乐和文本生成 3D 舞蹈的新任务，可以引导人类进行更丰富的动作。为了解决包含具有单一模态的成对运动的现有数据集的挑战，作者利用 3D 人体运动 VQ-VAE 将两个数据集的运动投射到潜在空间中，并提出了一种跨模态转换器架构来集成文本指示。该方法根据音乐和文本生成逼真且连贯的舞蹈动作，同时在两种单一模式下保持可比的性能。