头条
OpenAI 的新幻觉测试基准
https://openai.com/index/introducing-simpleqa/
OpenAI 发布了 SimpleQA 基准,该基准可衡量模型围绕简单事实问题的能力。
推动音频生成的前沿
https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
DeepMind 进一步讨论了用于支持 NotebookLM 的音频生成模型。
评估特征转向:减轻社会偏见的案例研究
https://www.anthropic.com/research/evaluating-feature-steering
本研究探索在 AI 模型中使用特征转向来可解释地修改输出。它揭示了一个“转向最佳点”,其中的变化不会降低能力。研究结果表明,转向可以改变目标领域的社会偏见,但也会带来意想不到的脱靶效应。需要进一步研究来改进特征转向,以便在 AI 模型中获得更安全、更可靠的结果。
研究
ThunderKittens 2
https://hazyresearch.stanford.edu/blog/2024-10-29-tk2
Thunder Kittens 是一个用于编写性能极高的 GPU 内核的框架。它建立在 GPU 实际上想要对 16x16 的小块数据进行操作的理念之上。因此,可用性非常高,而 40% 更快的内核只需要几百行代码。
逼真的运动重定向
https://abcyzj.github.io/MeshRet/
MeshRet 引入了一种用于改进 3D 角色运动重定向的新方法,该方法侧重于从一开始就保留身体几何交互。
通过自引导采样实现更好的生成
https://arxiv.org/abs/2410.13136v1
研究人员使用一种新的自引导采样方法增强了蒙版生成模型 (MGM),提高了其图像生成质量,同时保持了多样性。
工程
使用标记合并加速 Transformers
https://github.com/hchautran/PiToMe
该项目引入了 PiToMe,这是一种通过在每一层之后逐步合并标记来压缩 Vision Transformers 的算法。此方法减少了处理的标记数量。
无姿势数据的 3D 重建
https://cvlab-kaist.github.io/PF3plat/
PF3plat 解决了无姿势 3D 重建和从 RGB 图像合成新视图的挑战,无需额外的数据。
评估数据管理方法的基准
https://github.com/jimmyxu123/select
SELECT 是第一个用于比较图像分类中数据管理策略的大规模基准。ImageNet++ 是一个新数据集,它扩展了 ImageNet-1K,增加了五个新的训练数据转换,每个转换都使用不同的管理技术进行组装。
杂七杂八
将 LLM 微调至 1.58 位:极端量化变得简单
https://huggingface.co/blog/1_58_llm_extreme_quantization
由微软研究院开发的 BitNet 引入了一种转换器架构,通过使用三元精度 (-1, 0, 1)(相当于每个参数 1.58 位)来降低 LLM 计算和内存要求。模型需要从头开始训练。BitNet 还可以将现有模型微调为这种低精度格式,在下游任务上保持强劲性能。这种方法使用专门的内核进行高效的矩阵乘法,显著降低了能耗并提高了推理速度。
我们如何通过使用 LLM 编写测试节省数百个工程小时
https://www.assembled.com/blog/how-we-saved-hundreds-of-engineering-hours-by-writing-tests-with-llms
Assembled 使用 LLM 来加速和改进软件测试,使测试生成时间从数小时缩短到数分钟。这种方法提高了工程效率,节省了时间,并将重点转移到功能开发上。LLM 可以生成全面而准确的测试,从而保持代码质量和开发速度。
Apple Intelligence 首次亮相,25% 的智能手机用户不想要 AI
https://www.cnet.com/tech/mobile/25-of-smartphone-owners-dont-want-ai-as-apple-intelligence-debuts/
CNET 的一项调查显示,只有 18% 的智能手机用户会因为 AI 功能而升级设备,隐私和成本是主要问题。Apple、Google 和三星等主要制造商正在手机中集成更多 AI 功能,但许多用户优先考虑电池寿命和存储,而不是 AI 功能。AI 订阅即将变得普遍,但近一半的用户不愿意为这些功能付费。
Google 准备在 Chrome 中运行“Jarvis”AI 代理
https://9to5google.com/2024/10/26/google-jarvis-agent-chrome/
Google 的 Jarvis 项目由 Gemini 2.0 提供支持,旨在通过使用具有推理和规划能力的 AI 代理自动执行 Chrome 中的基于 Web 的任务。
研究人员称,OpenAI 的 Whisper 转录工具存在幻觉问题
人们开始担心 OpenAI 的 Whisper 在转录中引入幻觉,甚至在医学环境中也是如此。
Forerunner K2 人形机器人每只灵巧的手可以携带 33 磅
https://newatlas.com/ai-humanoids/kepler-forerunner-k2-humanoid-robot/
Kepler 推出了 Forerunner K2 人形机器人,该机器人拥有先进的人工智能、改进的硬件以及增强的视觉和导航系统,可实现更好的实时交互。