2024-11-01 简讯 : OpenAI 的新幻觉测试基准


头条


OpenAI 的新幻觉测试基准

https://openai.com/index/introducing-simpleqa/

OpenAI 发布了 SimpleQA 基准,该基准可衡量模型围绕简单事实问题的能力。

推动音频生成的前沿

https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

DeepMind 进一步讨论了用于支持 NotebookLM 的音频生成模型。

评估特征转向:减轻社会偏见的案例研究

https://www.anthropic.com/research/evaluating-feature-steering

本研究探索在 AI 模型中使用特征转向来可解释地修改输出。它揭示了一个“转向最佳点”,其中的变化不会降低能力。研究结果表明,转向可以改变目标领域的社会偏见,但也会带来意想不到的脱靶效应。需要进一步研究来改进特征转向,以便在 AI 模型中获得更安全、更可靠的结果。


研究


ThunderKittens 2

https://hazyresearch.stanford.edu/blog/2024-10-29-tk2

Thunder Kittens 是一个用于编写性能极高的 GPU 内核的框架。它建立在 GPU 实际上想要对 16x16 的小块数据进行操作的理念之上。因此,可用性非常高,而 40% 更快的内核只需要几百行代码。

逼真的运动重定向

https://abcyzj.github.io/MeshRet/

MeshRet 引入了一种用于改进 3D 角色运动重定向的新方法,该方法侧重于从一开始就保留身体几何交互。

通过自引导采样实现更好的生成

https://arxiv.org/abs/2410.13136v1

研究人员使用一种新的自引导采样方法增强了蒙版生成模型 (MGM),提高了其图像生成质量,同时保持了多样性。


工程


使用标记合并加速 Transformers

https://github.com/hchautran/PiToMe

该项目引入了 PiToMe,这是一种通过在每一层之后逐步合并标记来压缩 Vision Transformers 的算法。此方法减少了处理的标记数量。

无姿势数据的 3D 重建

https://cvlab-kaist.github.io/PF3plat/

PF3plat 解决了无姿势 3D 重建和从 RGB 图像合成新视图的挑战,无需额外的数据。

评估数据管理方法的基准

https://github.com/jimmyxu123/select

SELECT 是第一个用于比较图像分类中数据管理策略的大规模基准。ImageNet++ 是一个新数据集,它扩展了 ImageNet-1K,增加了五个新的训练数据转换,每个转换都使用不同的管理技术进行组装。


杂七杂八


将 LLM 微调至 1.58 位:极端量化变得简单

https://huggingface.co/blog/1_58_llm_extreme_quantization

由微软研究院开发的 BitNet 引入了一种转换器架构,通过使用三元精度 (-1, 0, 1)(相当于每个参数 1.58 位)来降低 LLM 计算和内存要求。模型需要从头开始训练。BitNet 还可以将现有模型微调为这种低精度格式,在下游任务上保持强劲性能。这种方法使用专门的内核进行高效的矩阵乘法,显著降低了能耗并提高了推理速度。

我们如何通过使用 LLM 编写测试节省数百个工程小时

https://www.assembled.com/blog/how-we-saved-hundreds-of-engineering-hours-by-writing-tests-with-llms

Assembled 使用 LLM 来加速和改进软件测试,使测试生成时间从数小时缩短到数分钟。这种方法提高了工程效率,节省了时间,并将重点转移到功能开发上。LLM 可以生成全面而准确的测试,从而保持代码质量和开发速度。

Apple Intelligence 首次亮相,25% 的智能手机用户不想要 AI

https://www.cnet.com/tech/mobile/25-of-smartphone-owners-dont-want-ai-as-apple-intelligence-debuts/

CNET 的一项调查显示,只有 18% 的智能手机用户会因为 AI 功能而升级设备,隐私和成本是主要问题。Apple、Google 和三星等主要制造商正在手机中集成更多 AI 功能,但许多用户优先考虑电池寿命和存储,而不是 AI 功能。AI 订阅即将变得普遍,但近一半的用户不愿意为这些功能付费。

Google 准备在 Chrome 中运行“Jarvis”AI 代理

https://9to5google.com/2024/10/26/google-jarvis-agent-chrome/

Google 的 Jarvis 项目由 Gemini 2.0 提供支持,旨在通过使用具有推理和规划能力的 AI 代理自动执行 Chrome 中的基于 Web 的任务。

研究人员称,OpenAI 的 Whisper 转录工具存在幻觉问题

https://techcrunch.com/2024/10/26/openais-whisper-transcription-tool-has-hallucination-issues-researchers-say/

人们开始担心 OpenAI 的 Whisper 在转录中引入幻觉,甚至在医学环境中也是如此。

Forerunner K2 人形机器人每只灵巧的手可以携带 33 磅

https://newatlas.com/ai-humanoids/kepler-forerunner-k2-humanoid-robot/

Kepler 推出了 Forerunner K2 人形机器人,该机器人拥有先进的人工智能、改进的硬件以及增强的视觉和导航系统,可实现更好的实时交互。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容