头条
Phi 2 在 Azure 模型工作室中可用
https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
Phi 2 是 Azure 系列中的下一代微型语言模型,主要基于合成数据进行训练。这个具有 27 亿参数的模型达到了 130 亿参数模型的性能。这里的挑战是检测和减轻“测试集改写”,但无论如何,这个模型都相当强大。
OpenAI 领导层在 Sam Altman 被解雇前警告过滥用行为
https://www.msn.com/en-us/money/companies/warning-from-openai-leaders-helped-trigger-sam-altman-s-ouster/ar-AA1ldAfV
OpenAI 的一群高级领导向董事会提出对 Sam Altman 据称心理虐待行为的担忧,这包括制造混乱和挑拨员工对立,以及对 Altman 在董事会沟通中的不诚实行为的指控,这导致了他的短暂解雇。Altman 的复职是在员工的压倒性支持和大规模辞职威胁后进行的,但这一事件给公司内部留下了不确定性,也对其未来的方向提出了疑问。
Mistral 平台
https://mistral.ai/news/la-plateforme/
Mistral 现在拥有一个带有新模型、嵌入式和指令调优模型的 API。它有一个未发布的中等大小模型,性能超过 GPT-3.5。
研究
使用减少的 GPU 使用量的视觉语言建模
https://arxiv.org/abs/2312.06401v1
研究人员引入了一种新方法,Compound Text-Guided Prompt Tuning (TGP-T),用于视觉语言模型,如 CLIP。TGP-T 在显著降低 GPU 内存使用的同时提高了性能。它通过使用文本监督来优化提示,提高了在处理多种类别时的灵活性和效率。
使用图像对应先验增强 NeRF 训练
https://yxlao.github.io/corres-nerf/
CorresNeRF 引入了一种改进神经辐射场 (NeRFs) 性能的新方法,特别是在输入视图有限的情况下。通过利用图像对应先验进行监督,这种方法改进了 NeRF 训练,从而提高了光度和几何精度。
使用扩散模型进行异常检测
https://arxiv.org/abs/2312.06607v1
DiAD 利用扩散模型的力量来检测异常。它独特地结合了像素空间自动编码器、语义引导 (SG) 网络和特征空间提取器,以准确地检测和定位多类设置中的异常。
工程
通过 2D 图像处理简化 3D 编辑
https://felixcheng97.github.io/AGAP/
AGAP 是一种简化 3D 编辑的新方法。通过使用称为规范图像的 2D 图像,AGAP 允许用户轻松编辑 3D 场景,而无需为每个更改重新优化。
增强基于文本提示的 3D 内容创建
https://liuff19.github.io/Sherpa3D/
Sherpa3D 是一个开创性的框架,它改进了从文本提示创建 3D 内容的过程。它结合了 2D 和 3D 扩散模型的优势,使用粗略的 3D 知识指导创建过程。这导致了高质量、多样性和几何上一致的 3D 资产的生成,克服了现有方法的限制。
加速神经体积视频研究 (GitHub 仓库)
https://github.com/zju3dv/easyvolcap
EasyVolcap 是一个用于加速神经体积视频研究的 PyTorch 库,特别是在体积视频捕获、重建和渲染方面。
杂七杂八
可互操作的认证协议
https://www.artifact.io/iap
鉴于模型能力的快速发展,协调语言模型与用户之间的沟通至关重要。可互操作授权协议 (IAP) 旨在通过建立安全、适应性强的通信渠道和同意管理系统来解决这一问题。这种开源方法鼓励 AI 社区合作,以使 AI 操作与多样化的人类价值和目标保持一致。
MIT 小组发布关于 AI 治理的白皮书
https://news.mit.edu/2023/mit-group-releases-white-papers-governance-ai-1211
MIT 的领导人和学者组成的委员会发布了政策简报,为美国 AI 治理提供了框架,倡导将现有的监管和责任方法扩展到有效监管 AI。他们的提议旨在加强美国在 AI 领域的领导地位,最小化潜在的危害,并鼓励有益的 AI 应用,强调在 AI 工具中明确定义目的和意图的需要,并建议可能的新监督结构。
关于平台转变和 AI
https://caseyaccidental.com/on-platform-shifts-and-ai/
在 2022 年 TCV Engage 峰会上的讨论强调,尽管 AI 代表着技术转变,但它缺乏新的分销渠道,这对于创造重大的消费者机会至关重要。当前的 AI 创新必须依赖传统的分销方法,有利于已经建立的公司或创新型初创企业,但新分销平台的潜力仍不确定。
谷歌考虑 Gemini AI 项目,使用手机数据、照片讲述人们的生活故事
https://www.cnbc.com/2023/12/08/google-weighing-project-ellmann-uses-gemini-ai-to-tell-life-stories.html
谷歌的“Project Ellmann”提出使用 AI 分析移动数据,如照片和搜索,创建用户生活的详细“鸟瞰”叙述,尽管其是否整合到现有产品如 Google Photos 中仍然不确定。
Ollama 多模态预发布 (GitHub 发布)
https://github.com/jmorganca/ollama/releases/tag/v0.1.15
Ollama 是使用现代语言模型的一种惊人的简单方式。它正在增加多模态支持,带有像 Llava 这样的模型。
Respell (产品)
https://www.respell.ai/
使用 AI 工作流程和代理自动化知识工作。