数据科学简讯 2023-02-22

头条

Roblox 正在整合生成式人工智能

热门在线游戏 Roblox 将生成式 AI 引入其游戏世界，让玩家能够使用其代码编写能力，使其数字世界更加可定制。该工具让 Roblox 用户可以创建建筑物、地形和头像等项目；改变那些东西的外观和行为；并通过用自然语言而不是复杂的代码键入他们想要实现的内容来为他们提供新的交互属性。

人工智能被用于呼叫中心

人工智能在工作场所的战斗已经开始，它的第一个战场是呼叫中心，人工智能被用来自动化基本任务，并指导剩下的人如何完成他们的工作。对于工人来说，该技术有望消除枯燥、重复性任务（如数据处理和密码重置）的苦差事，同时合成可立即访问的大量信息。

研究

通过性能改进编辑将代码速度提高 2.5 倍

编译器非常适合优化代码，但也只能做这么多。这项工作发布了一个数据集和模型，可以编辑代码以提高运行时性能。这项工作背后的直觉是，语言模型可能对代码有更好的语义理解，这比标准静态分析更具优势。

用法律保证Alignment

向语言模型代理指定所有可能的期望结果是不可行的。 Alignment 通过多种视角研究这个问题，其中一个新视角是法律合同。法律合同面临着类似的问题，因为它们无法预测每一个“如果-那么”的场景，而是要求交易双方根据优先顺序对协议的精神进行推理。本文探讨了 SOTA 语言模型对合同中的信托义务进行类似推理的能力。最新的 OpenAI 模型比以前的版本要好得多，表明对齐可能取得积极进展！

小样本区域感知机器翻译的基准 (Git Repo)

机器翻译系统不允许用户指定他们想要翻译成哪种语言的区域变体，这可能会导致混淆或不自然的翻译。为了解决这个问题，谷歌研究人员创建了一个名为 FRMT 的评估数据集，以衡量 MT 系统支持区域多样性的能力，特别是巴西与欧洲葡萄牙语以及大陆与台湾普通话。他们希望这个数据集能够激发新的方法，为世界范围内使用的众多区域语言变体创建更准确和适用的 MT 系统。

工程

在单个 GPU 上运行大型语言模型 (GitHub Repo)

FlexGen 是一种高吞吐量生成引擎，用于运行具有有限 GPU 内存的大型语言模型。在有限的内存环境中，它通过“闪电般快速”的卸载来提高性能。在 OPT175B 的 T4 上，基准显示每秒处理 1 个Token！

为Rust 基础的深度学习框架(GitHub Repo)**

如果您正在寻找一个写得很好的新的 Rust 深度学习框架，burn 似乎是一个不错的选择。他们的 Tensor crate 很适合独立使用。如果您希望为开源项目做出贡献，这也是一个有趣的库。

使用 T2I 适配器对文本到图像的生成进行精细控制(GitHub Repo)

这项工作建议使用 T2I 适配器通过将 T2I 模型中的内部知识与外部控制信号对齐来更精细地控制生成。这种方法可以实现丰富的控制和编辑效果，由于其可组合性和泛化能力，具有实用价值。根据广泛的实验，拟议的 T2I-Adapter 显示出有前途的生成质量和广泛的应用。

杂七杂八

作者 Ethan Mollick 记录了他如何将 ChatGPT 整合到宾夕法尼亚大学沃顿商学院的本科和硕士创业和创新课程中。一门课程建立在广泛使用人工智能的基础上：它要求学生使用人工智能来帮助他们产生想法、制作书面材料、帮助创建应用程序、生成图像等等。另一个班级的作业要求学生使用 AI，而其他作业则 AI 是可选的。最后一堂课向他们介绍了 AI 工具并提出了使用建议，但没有具体的 AI 作业。剧透警告：它非常成功，但也有一些教训需要吸取。

通过达尔文式进化改进自身的人工智能

谷歌的一个计算机科学家团队创建了 AutoML-Zero，这是一种新的机器学习程序，无需人工输入即可生成算法，选择最佳算法，然后通过类似于进化的过程对其进行变异。结果是机器有效地自学。

媒体对 OpenAI 使用他们的文章来训练 ChatGPT 感到不安

包括《华尔街日报》和 CNN 在内的主要媒体机构对 OpenAI 使用他们的文章来训练 ChatGPT 而不付钱感到不安。

NASA 的新型气球载望远镜采用 AI 设计

AI 被用于快速设计 NASA 的新型气球载望远镜，考虑到人类设计新望远镜通常需要多长时间，这是一项重大进展。

人工智能如何帮助应对灾难

本文深入探讨了土耳其和叙利亚的人道主义团队如何使用人工智能，特别指出人工智能能够快速确定地震破坏范围并制定救援工作战略。

2023 MAD（机器学习、人工智能和数据）格局

马特图尔克 (Matt Turck) 最新发布的 MAD Landscape 帖子.这是对 2023 年数据生态系统的详细介绍，强烈推荐。

ChatGPT 在做什么……以及它有用？

对大型语言模型的内部工作原理的精彩介绍。这是一篇很长的读物，但它很容易理解并且值得一读。

创建数据清理工作流程

很棒的三部分教程，介绍了如何创建数据清理工作流程。第 1 部分讨论了构成干净数据集的要素以及需要考虑的更改。第 2 部分描述了要考虑的工作流程步骤和文档。第 3 部分介绍了一个真实世界的示例。这里有很多见解和细节。

rang：让古老的 R 代码再次运行

可重复性是 R 社区的一大关注点，但情况并非总是如此。尤其是旧代码，在编写时不一定是面向未来的。输入响铃。 rang 是一个新的 R 包，有助于使旧代码再次运行，它支持从 2005 年开始一直追溯到 R 2.1.0 的代码！这是它的作用以及如何使用它。

dstack (Git Repo)

dstack 是一种开源工具，可让您独立于环境运行可重现的 ML 工作流。它允许在本地或云端运行 ML 工作流，此外，dstack 还有助于跨团队对数据和模型进行版本控制和重用。

ggplot技巧

使用 ggplot2的提示和技巧的不错集合。分为启动、拼接美学、半几何、发散尺度中点、多面标签和重用图的提示等部分。

PyGWalker

PyGWalker 是一个 Python 库，可以在您的笔记本中进行探索性数据分析。从本质上讲，它可以让您将 pandas 数据框转换为 Tableau 风格的界面以进行可视化探索。支持 Jupyter、Google Colab 和 Kaggle 笔记本。

一个很好的 Twitter，其中包含大量使用 Matplotlib 制作图表的资源和想法。

SciencePlots - Matplotlib styles for scientific plotting
plotnine - A Grammar of Graphics for Python
matplotx - Styles and useful extensions for Matplotlib
Seaborn - A library for making statistical graphics in Python
Aquarel - Styling Matplotlib made easy
TUEplots - Extend Matplotlib for scientific publications

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

数据科学简讯 2023-02-22

数据科学简讯 2023-02-22

头条

Roblox 正在整合生成式人工智能

人工智能被用于呼叫中心

研究

通过性能改进编辑将代码速度提高 2.5 倍

用法律保证Alignment

用法律保证Alignment

小样本区域感知机器翻译的基准 (Git Repo)

工程

在单个 GPU 上运行大型语言模型 (GitHub Repo)

为Rust 基础的深度学习框架(GitHub Repo)**

使用 T2I 适配器对文本到图像的生成进行精细控制(GitHub Repo)

杂七杂八

我的课程需要人工智能。这是我到目前为止所学到的

通过达尔文式进化改进自身的人工智能

媒体对 OpenAI 使用他们的文章来训练 ChatGPT 感到不安

NASA 的新型气球载望远镜采用 AI 设计

人工智能如何帮助应对灾难

2023 MAD（机器学习、人工智能和数据）格局

ChatGPT 在做什么……以及它有用？

创建数据清理工作流程

rang：让古老的 R 代码再次运行

dstack (Git Repo)

ggplot技巧

PyGWalker

一个很好的 Twitter，其中包含大量使用 Matplotlib 制作图表的资源和想法。

推荐阅读更多精彩内容

数据科学 简讯 2023-02-22

头条

研究

工程

杂七杂八

一个很好的 Twitter，其中包含大量使用 Matplotlib 制作图表的资源和想法。

推荐阅读更多精彩内容

数据科学简讯 2023-02-22