头条
阿里新模型 Qwen2-VL,可分析 20 分钟以上的视频
阿里云发布了 Qwen2-VL,这是一种新的视觉语言模型,具有增强的视觉理解、视频理解和多语言文本图像处理功能。Qwen2-VL 的性能优于 Meta 的 Llama 3.1 和 OpenAI 的 GPT-4o 等模型,并支持各种应用,包括实时视频分析和技术支持。这些模型有三种尺寸(7B、2B 和即将推出的 72B),较小版本在 Apache 2.0 下开源。
OpenAI 考虑为新 LLM 收取每月 2,000 美元的订阅费
据报道,OpenAI 正在考虑为该公司即将推出的大型语言模型(如 Strawberry 和 Orion)收取高达每月 2,000 美元的订阅费。
Google 的 AI 驱动的 Ask Photos 功能开始在美国推出
https://techcrunch.com/2024/09/05/googles-ai-powered-ask-photos-feature-begins-u-s-rollout/
Google Photos 的新 AI 驱动搜索功能“Ask Photos”正在向美国的部分用户推出,允许他们使用更复杂的自然语言查询搜索照片。
研究
SGLang 0.3
https://lmsys.org/blog/2024-09-04-sglang-v0-3/
最新版本的 SGLang 推理改进包括 7 倍更快的 DeepSeek MLA、1.5 倍更快的 torch.compile、多图像/视频 LLaVA-OneVision 等等。
OLmo MoE
https://arxiv.org/abs/2409.02060
一款出色的开放式 MoE,在 1B 激活参数方面具有一流的性能。
在图像生成中对齐样式和文本
https://arxiv.org/abs/2409.02543v1
本文介绍了 StyleTokenizer,这是一种通过将样式表示与文本提示对齐来改进文本到图像生成中的样式控制的方法。
工程
康奈尔大学的应用 ML 课程
https://github.com/kuleshov/cornell-cs5785-2024-applied-ml
康奈尔大学 2024 年秋季应用 ML 课程的开放资源。
Laminar
https://github.com/lmnr-ai/lmnr
针对复杂 LLM 应用程序的开源可观察性、分析、评估和提示链。
使用 LongLLaVA 进行长上下文理解
https://github.com/freedomintelligence/longllava?tab=readme-ov-file&utm_source=tldrai
LongLLaVA 是一种多模式模型,旨在处理视频和高分辨率图像理解等长上下文任务。
杂七杂八
成熟的企业 AI 基础设施
https://www.heavybit.com/library/article/enterprise-ai-infrastructure-privacy-maturity-resources
与 BentoML 首席执行官的有趣访谈,讨论了如何改进企业工具,确保您能够扩展,但一开始不要过度设计。
基于 LLM 的嵌入模型
https://github.com/yixuantt/poolingandattn
本研究调查了基于 LLM 的嵌入模型的各种设计,比较了不同的池化和注意力策略。
直接在 GPU 中进行光学连接
https://www.techspot.com/news/104495-broadcom-working-integrate-optical-connectivity-directly-gpus.html
GPU 互连带宽是当今训练大型模型的主要瓶颈之一。Broadcom 正在努力将光学传输直接集成到 GPU 中,这将大大缓解这一问题。
YouTube 正在开发用于检测面部和语音深度伪造的工具
YouTube 正在开发新工具来保护艺术家和创作者免遭未经授权使用其肖像,包括人工智能生成的面部和歌声检测技术,试点项目将于明年初启动。
Icon
Icon 帮助品牌与创作者合作,利用人工智能将 1 个视频变成 20 个视频,并通过 A/B 测试消息来找到成功的广告。
谷歌正在研发能够听见疾病迹象的人工智能
https://techcrunch.com/2024/08/29/google-is-working-on-ai-that-can-hear-signs-of-sickness/
谷歌正在使用经过 3 亿个音频样本训练的人工智能模型来检测结核病等疾病的早期迹象。