头条
OpenAI 正在为 DALL-E 3 添加新水印
https://www.theverge.com/2024/2/6/24063954/ai-watermarks-dalle3-openai-content-credentials
OpenAI 正在按照内容来源和真实性联盟 (C2PA) 的标准,在 DALL-E 3 生成的图像中添加水印,以包含不可见的元数据和用于来源验证的可见 CR 符号。
Microsoft Copilot for Sales 和 Copilot for Service 现已全面上市
https://cloudblogs.microsoft.com/dynamics365/bdm/2024/02/01/microsoft-copilot-for-sales-and-copilot-for-service-are-now-generally-available
微软人工智能驱动的 Copilot for Sales and Service 现已全面上市。 它与 Salesforce 等 CRM 系统集成,可提高销售和服务专业人员的工作效率。 这些工具可自动执行重复任务并直接在 Microsoft 365 应用程序中提供见解,旨在改善客户交互并简化业务工作流程。 像埃维诺这样的早期采用者表示,使用这些 AI 功能可以节省大量时间并提高客户参与度。
研究
CLIP 在完全合成数据上进行训练
https://arxiv.org/abs/2402.01832
删除 LAION 等大规模数据集,以及有效的版权问题,使得训练大规模图像模型变得具有挑战性。 这项工作表明,可以使用 3000 万张合成生成的图像来训练强大的 CLIP 模型。
适用于移动设备的微型语言模型
https://arxiv.org/abs/2402.02791v1
这项研究探讨了如何通过关注参数较少的微型模型来使强大的语言模型更适合移动设备。
多模式LLM中应对幻觉的新工具
https://arxiv.org/abs/2402.03190v1
为了解决多模态大语言模型 (MLLM) 中幻觉的关键问题,研究人员开发了 MHaluBench,这是一种评估幻觉检测方法的新基准。
工程
最先进的背景去除(GitHub Repo)
https://huggingface.co/briaai/RMBG-1.4
Bria AI 开源(非商业)其背景去除模型和工具,包括训练数据混合和性能指标。 与其他开放模型相比,这是一个重大改进。
使用 InteractiveVideo 创建您自己的视频
https://invictus717.github.io/InteractiveVideo/
InteractiveVideo 引入了一种新颖的视频制作方式,用户可以与创作过程进行动态交互。 与传统方法不同,这种用户友好的框架允许使用文本、图像、绘画甚至拖放进行实时修改。
AI 中的数学推理 (GitHub Repo)
https://github.com/deepseek-ai/deepseek-math
DeepSeekMath 7B 是专门为解决复杂数学问题而设计的语言模型。 它接受了大量以数学为中心的内容的培训。
杂七杂八
开源1.3B文本转语音模型
https://huggingface.co/metavoiceio/metavoice-1B-v0.1
新的 Meta Voice 模型是一个小型而强大的文本转语音模型,支持生成和语音克隆。
AGI 带来的变革
https://dcgross.com/agitrades
像 GPT-5 这样的先进人工智能可能会对市场、房地产、劳动力、能源、国民经济、地缘政治和经济的通胀动态产生重大影响,从而导致对价值累积、全球权力转移以及就业和经济结构变化的重新评估 。
技术工业革命
https://www.notboring.co/p/the-techno-industrial-revolution
随着人工智能工具和业务用例变得更加复杂,我们将开始看到越来越多的技术在现实世界中的应用。 审视这一机遇的一个视角是人工智能如何使流程更便宜、更高效,同时大幅提高利润。 这可能会开启一种全新的做事方式,而以前由于利润太薄而没有经济意义。 本文探讨了其中的一些示例。
Fabric (GitHub Repo)
https://github.com/danielmiessler/fabric
一个使用人工智能增强人类能力的开源框架。