头条
Gemini 智能即将上线 Nest 摄像头、智能音箱和智能显示器
https://www.theverge.com/2024/8/6/24213639/google-gemini-intelligence-ai-google-home-nest-aware
Google 宣布为 Google Home 推出 Gemini AI 驱动的新功能,包括 Nest 摄像头镜头的智能字幕、用于创建家庭日常活动的自然语言处理,以及升级版、听起来更自然的 Google Assistant。这些高级功能主要隐藏在 Nest Aware 订阅付费墙后面,旨在增强智能家居体验,推出的 Beta 版将于明年开始,并将进一步扩展。作为迈向更智能家居自动化的一部分,Google 设想了一个可以主动管理复杂和动态家庭环境的助手。
随着监管的升级,Nvidia 忙于做出回应
https://www.nytimes.com/2024/08/06/technology/nvidia-antitrust-scrutiny.html
Nvidia 因其在 AI 芯片和销售实践中占据主导地位而面临欧盟、英国、中国和美国司法部的政府越来越严格的审查。该公司在盈利增长的同时,正在迅速组建法律和政策团队,以解决反垄断问题,因为它占据了 AI 系统必不可少的 GPU 市场的 90%。Nvidia 也在适应日益严格的竞争监督,最近人们的注意力转向了其计划收购 Run.ai 及其对 AI 供应链的影响。
扎克伯格表示,Meta 训练 Llama 4 所需的计算能力将比 Llama 3 多 10 倍
Meta 计划大幅提高训练其下一代大型语言模型 Llama 4 的计算能力,预计计算能力将比 Llama 3 增加 10 倍。对人工智能训练基础设施的投资将在 2025 年推高资本支出。尽管投入巨额资金,但 Meta 并不认为 Gen AI 产品会立即带来可观的收入。
研究
优化测试时间计算的扩展可能比扩展模型参数更有效
https://arxiv.org/abs/2408.03314
在推理时使用计算来提高模型性能的压力很大。本文展示了几种可以使用的方法,并讨论了它们之间的权衡。总的来说,这表明了一种更广泛的趋势,即从较小的模型中榨取性能。
LLaVA-OneVision:轻松的视觉任务转移
https://arxiv.org/abs/2408.03326
视觉语言模型一直在努力使其易于调整和在任务之间转移。这让人想起了十年前的计算机视觉。重要的是,这可以通过仔细的数据管理和架构更新来实现,这些都在 LLaVA-OneVision 中得到展示。
一个物体值 64x64 像素:通过图像扩散生成 3D 物体
将 3D 物体视为 UV 包裹图像,可以轻松使用 DiT 模型根据文本输入合成新物体。
工程
ABC 不变性
https://gist.github.com/cloneofsimo/c799c863154d5da4cae65e83491d918d
muP 是一种调整超参数以从较小模型转移到较大模型的方法。这个 GitHub 要点在实践中展示了一个很棒的定理,它指出你可以更改模型输出的缩放位置,而不会影响最终的传输性能。
Flux Canny 控制网
https://huggingface.co/XLabs-AI/flux-controlnet-canny
XLabs 发布了第一个 Flux-Dev 控制网,允许根据 Canny 图像输入进行生成。
创建隐私保护的表格数据
https://arxiv.org/abs/2408.02927
HARMONIC 是一个使用大型语言模型生成和评估合成表格数据的框架。
杂七杂八
GitHub 如何利用 AI 将客户反馈转化为行动
GitHub 正在利用 AI 和机器学习来大规模分析和总结客户反馈,通过可操作的见解为产品改进和功能优先级排序提供信息。这种自动化方法可以捕获多语言反馈并推动数据驱动的决策,从而增强对开发人员需求的响应能力。该计划凸显了 GitHub 致力于整合 AI 以维持以开发人员为中心的产品开发流程。
OpenAI 如何生存?
https://www.wheresyoured.at/to-serve-altman/
考虑到生成式 AI 缺乏广泛的市场效用以及开发和运行大型语言模型的成本高昂,本文对 OpenAI 的可持续性提出了深深的怀疑。作者质疑 OpenAI 在没有重大技术突破或持续、前所未有的筹款努力的情况下能否长期生存。尽管 OpenAI 对 AI 行业具有影响力,但该公司仍面临着盈利能力、高运营成本以及对战略合作伙伴关系(尤其是与微软的合作伙伴关系)的依赖等挑战。
AMD 正在成为一家 AI 芯片公司,就像 Nvidia 一样
https://www.theverge.com/2024/7/30/24209938/amd-q2-2024-earnings-datacenter-ai-revenue
AMD 2024 年第二季度的收益显示,其业务向数据中心产品发生了重大转变,目前近一半的销售额来自该领域,这主要归功于 Instinct MI300 AI 芯片。该公司致力于每年发布新的 AI 芯片,与 Nvidia 的产品竞争,尽管供应限制预计将持续到 2025 年。尽管 Nvidia 在数据中心市场仍保持领先地位,但 AMD 的 CPU 和 GPU 细分市场(包括 Ryzen 处理器和 Radeon 6000 GPU)均实现了增长。
微软在 AI 上损失惨重
https://futurism.com/the-byte/microsoft-losing-money-ai
微软的 AI 投资上个季度飙升至 190 亿美元,专注于数据中心的 AI 功能,但 AI 收入是否可观仍不确定。
Taco Bell 的免下车 AI 可能会接你的下一份订单
https://www.theverge.com/2024/7/31/24210506/taco-bell-drive-thru-ai-order-expansion
Yum! Brands 正在将其 AI 驱动的语音 AI 技术扩展到数百家 Taco Bell 免下车餐厅,以提高效率,目标是在年底前更广泛地推广。
OpenAI 投资一家网络摄像头公司转型为 AI 初创公司
https://www.theverge.com/2024/8/7/24215370/openai-invests-in-a-webcam-company-turned-ai-startup
OpenAI 正在牵头为 Opal 进行 6000 万美元的融资,Opal 是高端 Tadpole 网络摄像头背后的公司。