持续更新中...

Research 1: Data Integration &Cleaning

Robust Entity Resolution using Random Graphs

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Robust Entity Resolution using Random Graphs
作者：Sainyam Galhotra;Donatella Firmani;Barna Saha;Divesh Srivastava
分类：Data Integration & Cleaning

关键词

Entity Resolution(ER)：实体解析
Data Integration：数据集成
Data Cleaning：数据清洗

概述
使用随机图的健壮的实体解析。ER是去识别数据集中对应于现实世界中相同的实体，且已知实体可以被表示、匹配和区分。
本论文可以构建一个在弹性误差下的模型，来区分u和v是否指向同一实体。该模型使用各种人机混合ER算法，基于选择间接的控制查询。经过实验可以证明无纠正的ER算法加上本模型工具可比目前的ER算法效果更好，尤其在纠错方面。

Deep Learning for Entity Matching: A Design Space Exploration

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Deep Learning for Entity Matching: A Design Space Exploration
作者：Sidharth Mudgal;Han Li;Theodoros Rekatsinas;AnHai Doan;Youngchoon Park; Ganesh Krishnan;Rohit Deep;Esteban Arcaute;Vijay Raghavendra
分类：Data Integration & Cleaning

关键词

Entity Matching(EM)：实体匹配
Entity Resolution(ER)：实体解析
Data Integration：数据集成
Data Cleaning：数据清洗
Deep Learning(DL)：深度学习

概述
EM是将数据实例与现实世界的事物进行匹配，本论文将DL应用到EM中，使用4种方案（SIF、RNN、Attention和Hybird）和4种数据（structured data instances、textual instance、dirty instance）.结果显示DL在structured EM上并不优于目前的解决方案，但是在textual EM和dirty EM上效果显著更优。

Synthesizing Type-Detection Logic for Rich Semantic Data Types using Open-source Code

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Synthesizing Type-Detection Logic for Rich Semantic Data Types using Open-source Code
作者：Cong Yan;Yeye He
分类：Data Integration & Cleaning

关键词

Type-Detection：类型检测
Data Types：数据类型
Open-source Code：开源代码
Data Integration：数据集成
Data Cleaning：数据清洗

概述
给一个数据表，现有的系统对每一列可以检测出基本的元类型（e.g. numbers vs. strings）.新的数据分析系统正开始自动识别富语义类型（如date-time、email-address），因为这些元数据有利于表格化、提高搜索的相关性、可以进行精确的数据验证、语义数据的转化。然而现有的方法只能检测有限的一些类型，使用类似于正则表达式的方法。正则表达式法是不准确的，不能处理富语义的类型（比如信用卡号和ISBN编码等等）。
本论文开发的系统可以对富语义数据类型合成类型检测的逻辑，通过使用开源代码。使用者仅仅需要对目标类型提供一个正向数据集和一个搜索关键词，系统可以自动辨别相关代码，并合成类型检测函数，使用执行跟踪法。
本论文编写了112种语义类型进行测试，系统从中生成了84种可精确识别的类型。在web表列中生成类型检测逻辑，与其他方法相比可以显著发现更多的类型。

Fine-grained Concept Linking using Neural Networks in Healthcare

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Fine-grained Concept Linking using Neural Networks in Healthcare
作者：Jian Dai;Han Li;Meihui Zhang;Gang Chen;Ju Fan;Kee Yuan Ngiam;Beng Chin Ooi
分类：Data Integration & Cleaning

关键词

Healthcare：医疗保健
Fine-grained concept linking：细粒度的概念连接
Neural networks：神经网络
Data Integration：数据集成
Data Cleaning：数据清洗

概述
处理医疗数据需要将现实世界中的文本片段与规范医疗概念进行联系。然而现有的医疗概念联系的方法，比如基于字典、简单机器学习等等的效率都不高，这是由于规范的医疗概念与文本片段的差异和一些概念的重叠。
为了解决这个问题，本论文提出了神经概念连接（NCL）的方法，使用系统集成的神经网络来实现精确的概念连接。将一个概念进行向量编码，借助两个设计好的背景，把这个向量解码到一个文本片段中。一方面，将文本上下午注入神经网络中，从而克服了词语的语义差异；另一方面，将结构上下午注入到神经网络中，使得小概念差异可以扩大进行有效地区分。通过两个真实的数据集证明了NCL进行概念连接的准确性显著优于现有的技术。

Big Data Linkage for Product Specification Pages

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Big Data Linkage for Product Specification Pages
作者：Disheng Qiu;Luciano Barbosa;Valter Crescenzi;Paolo Merialdo;Divesh Srivastava
分类：Data Integration & Cleaning

关键词

Big Data Linkage：大数据连接
Product Specification Pages：产品规格页面
Data Integration：数据集成
Data Cleaning：数据清洗

概述
大量的网络资源上的越来越多的产品界面都是可用的，包含了产品的特性和标识。这些资源的重叠信息给网络上规模数据的集成带来了极大的挑战。
本论文充分抓住机遇，建立产品标识符来进行跨数据源的大数据连接。有如下问题需要处理：标识符需要在产品界面发现，标识符具有多样性；需要主要产品的标识符，很多相关产品也被展示在页面上；跨页面的标识符需要解决跨类别标识符的模糊性。
本论文提供的方案在全局上利用冗余标识符，在局部源上利用结构和语义的同质性，通过数以千计的数据源，有效连接了数以百万计的产品页面。通过实验评估，使用数据集DEXTER，包含3.5K个网站的7.1K个数据源的1.9M个产品页，在实践中证明了方案的有效性。

Research 2: Usability and Security/Privacy

The Data Interaction Game

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：The Data Interaction Game
作者：Ben McCamish;Vahid Ghadakchi;Arash Termehchy;Behrouz Touri;Liang Huang
分类：Usability and Security/Privacy

关键词

collaborative interaction：协作互动
game theory：博弈论
database interaction：数据库互动
reinforcement learning：强化学习
Usability：可用性
Security/Privacy：安全/隐私

概述
由于很多用户不知道数据库的内容和结构，他们的查询不能反映他们的需求。数据库管理系统DBMS可以与用户进行交互，并利用他们的查询结果来了解查询背后的需求。
本论文对DBMS和用户进行建模，将两者视为两个理性客户之间的博弈，从而建立一种语言，以查询的方式表示需求。本论文采用强化学习的方式，学习并回答查询需求的信息，适应用户策略的变化，并证明了随机答复的有效性。通过分析在大规模数据库上有效实现的挑战性，提出了该方法在大规模关系数据库上的两种有效适应的方法。
通过在现实世界大规模数据库上的比较和验证，证明这种方案比目前最先进的数据库查询回复机制的效率更高。

Data Citation: Giving Credit Where Credit is Due

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Data Citation: Giving Credit Where Credit is Due
作者：Yinjun Wu;Abdussalam Alawini;Susan B. Davidson;Gianmaria Silvello
分类：Usability and Security/Privacy

关键词

Data citation：数据引用
Provenance：出处
Scientific databases：科学数据库
Usability：可用性
Security/Privacy：安全/隐私

概述
在结构数据库中呈现了越来越多的信息，并且使用查询检索机制，从而催生了如何引用查询结果的问题。由于数据库中可能会有大量的查询，有一种策略是对少量频繁的查询进行引用（构造引用视图）并利用这些结果对其他一般查询来构造引用结果。
本论文提出了三种实施引用视图的方法，并且描述了引用视图的联合、交替和聚合使用的替代策略。通过大量使用合成和现实的引用视图和查询，显示了产生引用时间和产生引用结果的大小之间的权衡，发现选择的策略对性能和大小有显著影响，从而对使用什么策略以及如何指定引用视图提供了有效的指导。

ϵktelo: A Framework for Defining Differentially Private Computations

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：ϵktelo: A Framework for Defining Differentially Private Computations
作者：DAN ZHANG;RYAN MCKENNA;IOS KOTSOGIANNIS;GEORGE BISSIAS;MICHAEL HAY;ASHWIN MACHANAVAJJHALA;GEROME MIKLAU
分类：Usability and Security/Privacy

关键词

Private Computations：私有计算
Usability：可用性
Security/Privacy：安全/隐私

概述
差别化隐私的采用越来越多，但是设计私有、高效、精确的算法的复杂度却很高。本论文提出了一种新的编程框架和系统，实现现有和新的私有算法。对于回答线性计数问题，几乎所有一致算法都可以由算子组成，每个都符合少数运算符中的一个。相较于过去的编程框架，虽然可以确保程序的隐私，但是新的编程框架支持编写准确、高效的私人程序。
新的编程框架允许代码复用使代码更安全，并允许新人和专家更容易地设计算法，使用了许多新的技术支持它地通用性和可伸缩性。

Marginal Release Under Local Differential Privacy

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Marginal Release Under Local Differential Privacy
作者：Graham Cormode;Tejas Kulkarni;Divesh Srivastava
分类：Usability and Security/Privacy

关键词

Local Differential Privacy：局部差异隐私
Marginal Release：边缘释放
Usability：可用性
Security/Privacy：安全/隐私

概述
许多分析和机器学习任务要求在多维数据集上提供边缘统计数据，并且办证数据主体的隐私性。这些数据的应用从发现数据的相关性到拟合复杂的预测模型不等。
本论文提出了一些算法可以在局部差异隐私的强模型下实现边缘统计。论文证明了在每种方法下编译的边缘精度的第一理论界，实证评估了这些界限，并评估他们的任务，如建模和相关测试，结果显示基于输入的局部傅里叶变换信息比直接基于边缘更可取。

When Query Authentication Meets Fine-Grained Access Control: A Zero-Knowledge Approach

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：When Query Authentication Meets Fine-Grained Access Control: A Zero-Knowledge Approach
作者：Cheng Xu;Jianliang Xu;Haibo Hu;Man Ho Au
分类：Usability and Security/Privacy

关键词

Query processing：查询处理
Data integrity：数据完整性
Fine-grained access control：细粒度访问控制
Usability：可用性
Security/Privacy：安全/隐私

概述
查询认证已经被广泛地研究，以确保外包数据库查询结果的完整性，这些数据库往往是不可信的。但是，访问控制，一个重要的安全问题，经常在已有的工作中被忽视。值得注意的是，最近在密码学上的突破使得外包数据库上细粒度访问控制成为可能。
本论文迈出了使用细粒度访问控制进行关系查询的第一步，关键问题在查询认证的过程中保护信息的机密性。为解决这一问题，本论文提出了新的签名方案作为原始认证的数据结构。这种签名方案可以对未经授权的用户派生签名，以证明它的不可访问性，从而达到零知识保密。本论文还提出了一个基于网络索引的树结构，可以形成有效范围进行查询认证。除此之外，还提出了一系列优化技术来提高认证的性能。
经过安全性分析和性能评估，论文提出的解决方案和技术在各种系统下是稳健和高效的。

Practical and Secure Substring Search

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Practical and Secure Substring Search
作者：Florian Hahn;Nicolas Loza;Florian Kerschbaum
分类：Usability and Security/Privacy

关键词

Encrypted Databases：加密数据库
Secure Substring Search：安全的子串搜索
Usability：可用性
Security/Privacy：安全/隐私

概述
本论文处理了外包敏感字符串的问题，同时依然提供子字符串搜索的功能。可搜索对称加密（SSE）虽然允许对加密数据进行搜索，但是DBMS中的快速查询处理索引变得不可能。
本论文的方案将安全子字符串的搜索转化为范围查询，并使得在普通数据库上的查询得以有效回答。经过实验评估验证了方案的有效性。

Industry 1: Adaptive Query Processing

Columnstore and B+ tree – Are Hybrid Physical Designs Important?

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Columnstore and B+ tree – Are Hybrid Physical Designs Important?
作者：Adam Dziedzic;Jingjing Wang;Sudipto Das;Bolin Ding;Vivek R. Narasayya;Manoj Syamala
分类：Adaptive Query Processing

关键词

Columnstore：列存储
B+ tree：B+树
Hybrid physical designs：混合物理设计
Operational analytics：操作分析
Hybrid transactional and analytical processing：混合事务和分析处理
Adaptive Query Processing：自适应查询处理

概述
商业DBMS会迎合工作负载，比如事务处理和决策支持等，支持各种物理设计结构。但是混合物理设计，包括同一数据库上的列存储和B+树索引，并没有被很好的研究。
本论文基于此，通过研究发现，混合物理设计可以根据工作负载的不同得到数量级更好的性能。对于复杂的现实世界中的情况，如何合理选用列存储和B+树的组合是一个挑战。本论文最终量化了一个能够推荐混合物理设计的工具如何得到执行时间的数量级成本，而不是仅用列存储或B+树进行设计。

Computation Reuse in Analytics Job Service at Microsoft

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Computation Reuse in Analytics Job Service at Microsoft
作者：Alekh Jindal; Shi Qiao;Hiren Patel;Zhicheng Yin;Jieming Di;Malay Bag;Marc Friedman;Yifung Lin;Konstantinos Karanasos;Sriram Rao
分类：Adaptive Query Processing

关键词

Materialized Views：实例化视图
Computation Reuse：计算复用
Shared Clouds：共有云
Adaptive Query Processing：自适应查询处理

概述
无论在企业还是在云环境中，分析工作服务正在成为数据分析的一种新范式。这种环境下，用户不用去管理调控硬件和软件基础设施，而是去对处理资源进行付费。不可避免地会有一些重叠的计算任务，从而产生冗余成本。
本论文描述了一种计算复用框架，可以解决计算重叠问题。系统的关键在于：（1）定期执行相同工作脚本但每次处理新的数据（2）使用反馈循环协调编译和运行时的统计数据，收集每个重叠计算的效用和成本的精确度量（3）使用线上的形式创建实例化视图，而不是使用线下形式进行重叠计算

P-Store: An Elastic Database System with Predictive Provisioning

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：P-Store: An Elastic Database System with Predictive Provisioning
作者：Rebecca Taft;Nosayba El-Sayed;Yu Lu;Ashraf Aboulnaga;Michael Stonebraker;Ricardo Mayerhofer
分类：Adaptive Query Processing

关键词

Predictive Provisioning：预测性供应
Adaptive Query Processing：自适应查询处理

概述
许多OLTP应用的最大负载通常比最小负载大一个数量级，并且负载情况每天都在变化。因而动态分配资源以匹配需求是一种明智的做法。但是检测到负载增加后再被动分配资源会给已经超载地系统增加重新配置地负担。在负载增加之前进行资源预测分配是更可取的。
本论文提出了P-store，可预测分配的弹性OLTP DBMS，经过实践评估了它不错的性能。

Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources
作者：Edmon Begoli;Jesús Camacho-Rodríguez;Julian Hyde;Michael J. Mior;Daniel Lemire
分类：Adaptive Query Processing

关键词

Apache Calcite
Relational Semantics：关系语义学
Data Management：数据管理
Query Algebra：查询代数
Modular Query Optimization：模块化查询优化
Storage Adapters：存储适配器
Adaptive Query Processing：自适应查询处理

概述
Apache Calcite是一种基本的软件框架，为许多流行的开源数据处理系统提供了查询处理、优化和查询语言支持等功能。
本论文正式向研究界介绍它的历史、结构、属性、功能和模式等。

Research 3: Transactions and Indexing

Carousel: Low-Latency Transaction Processing for Globally-Distributed Data

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Carousel: Low-Latency Transaction Processing for Globally-Distributed Data
作者：Xinan Yan;Linguan Yang;Hongbo Zhang;Xiayue Charles Lin;Bernard Wong;Kenneth Salem;Tim Brecht
分类：Transactions and Indexing

关键词

Globally-distributed data：全球分布的数据
Distributed transactions：分布式事务
Transaction Processing：事务处理
Low-Latency：低延迟
Transactions and Indexing：事务与索引

概述
全球应用程序和服务的趋势对全球化分布数据的事务处理产生了越来越大的需求。许多数据库系统，虽然支持分布式事务处理，但是需要大量的广域网反复提交每个事务以确保信息在各个数据中心中持久复制，产生了大量的时间成本和开发成本。
本论文介绍了一种分布式数据库系统Carousel，可以对多部门全球化分布事务提供低延迟的事务处理，减少了数据在广域网上的反复传播。

Accelerating Analytical Processing in MVCC using Fine-Granular High-Frequency Virtual Snapshotting

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Accelerating Analytical Processing in MVCC using Fine-Granular High-Frequency Virtual Snapshotting
作者：Ankur Sharma;Felix Martin Schuhknecht;Jens Dittrich
分类：Transactions and Indexing

关键词

Fine-Granular High-Frequency Virtual Snapshotting：细粒度高频虚拟快照
Transactions and Indexing：事务与索引

概述
高效的事务管理是一个重要的任务。由于系统面对的是不同类型的事务，用一个执行引擎很难满足事务地需求，但大多数系统都采用这样地设计，使用多版本并发控制来实现并行性。虽然MVCC很好地并行处理了OLTP的短期事务，但在包含长期运行的OLAP查询事务的混合负载下变得困难，因为扫描必须通过大量版本的数据。
本论文重新采用混合处理的方式，将OLAP外包在虚拟快照上，OLTP事务运行在最近版本的数据库中。
混合处理的最大挑战是生成高频率的快照，本论文自行设计底层系统组件，允许细粒度快照的生成，比目前最先进的方法快了几个数量级。最后通过实验评估了本论文技术较目前最先进技术更高的性能。

Reactors: A Case for Predictable, Virtualized Actor Database Systems

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Reactors: A Case for Predictable, Virtualized Actor Database Systems
作者：Vivek Shah;Marcos Antonio Vaz Salles
分类：Transactions and Indexing

关键词

Reactors：反应器
Transactions and Indexing：事务与索引

概述
本论文为内存数据库提出了一种编程模型，说明了低延迟、低开销，以及与OLTP基准中REACTDB的异步性权衡。

FASTER: A Concurrent Key-Value Store with In-Place Updates

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：FASTER: A Concurrent Key-Value Store with In-Place Updates
作者：Badrish Chandramouli;Guna Prasaad;Donald Kossmann;Justin Levandoski;James Hunter;Mike Barnett
分类：Transactions and Indexing

关键词

Concurrent Key-Value Store：并发键值存储
Transactions and Indexing：事务与索引

概述
目前的数据采集边缘采集的数据往往超出了主存储器的存储量，本论文提出了FASTER，一种用于点读取、盲更新和读-修改-写操作的新的键值存储，将高速缓存优化的并发哈希索引与混合日志结合起来，形成一种并发日志结构化存储。实验表明FASTER比目前广泛的技术有更大的吞吐量。

Workload-Aware CPU Performance Scaling for Transactional Database Systems

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Workload-Aware CPU Performance Scaling for Transactional Database Systems
作者：Mustafa Korkmaz;Martin Karsten;Kenneth Salem;Semih Salihoglu
分类：Transactions and Indexing

关键词

Workload-Aware：工作负载感知
CPU Performance Scaling：CPU性能扩展
Transactions and Indexing：事务与索引

概述
本论文证明了事务性数据库管理系统可以有效管理动态电压和频率缩放DVFS。我们提出了POLARIS的技术，降低事务性数据库管理系统的功耗。实验表明，相较于基于操作系统的DVFS调速器，POLARIS技术可以同时降低功耗和减少延迟目标。

Research 4: Query Processing

How to Architect a Query Compiler, Revisited

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：How to Architect a Query Compiler, Revisited
作者：Ruby Y. Tahboub;Gre´gory M. Essertel;Tiark Rompf
分类：Query Processing

关键词

Query Compilation：查询编译
Futamura Projections
Query Processing：查询处理

概述
为了充分利用硬件平台，越来越多地数据库系统对本机代码支持查询编译计划。在研究界，如何构造查询编译器一直是存在争议的，使用不同于解释查询地技术。
本论文意在通过将重点放在一个古老地但不被重视的想法上来促进这一讨论，Futamura Projections，从根本上连接解释器和编译器。
基于这样的想法，本论文证明了实现高效地编译查询是简单地，不会比用高级语言编写解释查询器更困难。此外，还演示了以前用于证明多个编译器传递的复杂编译模式是如何在一个简单的生成传递中实现的。技术关键在于注入专门的索引结构，减少关键路径上的工作量。
最后介绍了LB2，基于这种技术的查询编译器，它在TPC-H基准上与目前最好的编译查询引擎旗鼓相当，有时更优。

SuRF: Practical Range Query Filtering with Fast Succinct Tries

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：SuRF: Practical Range Query Filtering with Fast Succinct Tries
作者：Huanchen Zhang;Hyeontaek Lim;Viktor Leis;David G. Andersen;Michael Kaminsky;Kimberly Keeton;Andrew Pavlo
分类：Query Processing

关键词

Query Filtering：查询过滤
Query Processing：查询处理

概述
本论文介绍了SuRF，这是一种用于近似隶属度测试的快速而紧凑的数据结构。
与传统Bloom过滤器不同，SuRF既支持单键查询，也支持范围查询（开放范围查询、封闭范围查询和范围计数）。
在RocksDB中评估SuRF作为其Bloom过滤器的替代品，以通过在请求访问磁盘上的数据结构之前过滤请求来减少I/O。在100GB数据集上的实验表明，将RocksDB的Bloom过滤器替换为SuRFs可以将开放搜索(不带上限)和封闭搜索(带上限)的查询速度提高1.5倍和5倍，而最坏情况下(全丢失)点查询吞吐量的成本并不高，因为假正确率略高。

FastQRE: Fast Query Reverse Engineering

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：FastQRE: Fast Query Reverse Engineering
作者：Dmitri V. Kalashnikov;Laks V.S. Lakshmanan;Divesh Srivastava
分类：Query Processing

关键词

Reverse Engineering：逆向工程
Automated Data Lineage Discovery：自动数据沿袭发现
Column Coherence：列一致性
CGM
Query Reverse Engineering(QRE)：查询逆向工程
Query Processing：查询处理

概述
通过研究QRE问题，该问题给了一个数据库和一个输出表，任务是对这个数据库寻找一个生成此表的简单的project-in SQL查询。这个问题的难点有二：其一，这个问题有一个非常大的搜索空间，它的各种变体被认为是NP难的；其二，即使执行一个候选SQL查询，在计算上代价也是很大的。
本论文提出了一种新方法来有效解决QRE问题，这种解决方案比现有的技术水平要高出2-3个数量级，解决这些查询只需几秒钟，而不是几天，因此使这种的方法在现实环境中更加实用。

Adaptive Energy-Control for In-Memory Database Systems

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Adaptive Energy-Control for In-Memory Database Systems
作者：Thomas Kissinger;Dirk Habich;Wolfgang Lehner
分类：Query Processing

关键词

In-memory：内存
Database Systems：数据库
Energy Efficiency：能源效率
Adaptivity：适应性
Query Processing：查询处理

概述
对可伸缩数据库系统日益增长的需求受限于能源的消耗，这是当今研究的关键问题。
现有的方法主要关注基于事务的基于磁盘的数据库系统，而本论文正在研究和优化大量使用主电源（处理器和主存）的面向数据的扩展内存数据库系统的能耗和性能。本论文对目前的主流服务器系统给出了一个深入的能源分析，并表明现代处理器虽然提供一组丰富的能量控制特性，但是由于缺少应用特定的知识，缺乏适当控制它们的能力。因此，本论文提出了一种能量控制循环（ECL）作为DBMS集成方法，用于在内存中扩展的数据库系统上进行自适应能量控制，它遵循一个查询状态限制作为一个软约束，并积极地优化DBMS的能量效率和性能。ECL依赖于自适应工作负荷相关的能量分布，在运行时持续获取。在评估中，观察到在现实的负载情况下，节省的能源从20%到40%不等。

Incremental View Maintenance with Triple Lock Factorization Benefits

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Incremental View Maintenance with Triple Lock Factorization Benefits
作者：Milos Nikolic;Dan Olteanu
分类：Query Processing

关键词

Incremental View Maintenance：增量式视图维护
Triple Lock Factorization：三重锁分解
Query Processing：查询处理

概述
本论文介绍了F-IVM，一种使用多种任务的统一的增量视图维护方法，包括连接上的线性回归模型学习的梯度计算、矩阵链乘法和对连接查询的因式评估。
F-IVM是一种高阶IVM算法，它将给定任务的主要维护减少到维护一个越来越简单的视图层次结构。视图式将键（输入数据值的元组）映射到有效负载（任务特定环的元素）的函数。虽然对所有任务的键的计算是相同的，但对有效载荷的计算取决于任务。F-IVM通过分解键、有效载荷和更新的计算来实现效率。
本论文对DBToaster扩展，实现了F-IVM。论文展示在一系列的情况下，它可以超越经典的一阶反应，并且DBToaster的完全递归高阶IVM，以及在使用更少内存的情况下按数量级进行简单的重新计算。

Research 5: Graph Data Management

Catching Numeric Inconsistencies in Graphs

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Catching Numeric Inconsistencies in Graphs
作者：Wenfei Fan;Xueli Liu;Ping Lu;Chao Tian
分类：Graph Data Management

关键词

Numeric Inconsistencies：数据不一致性
Graph Data Management：图数据管理

概述
在现实生活的知识库和社交网络中，数字不一致性是很常见的。为了捕获这些错误，本论文建议使用线性算术表达式和比较谓词扩展图函数依赖项，即NGDs。本论文研究NGDs的基本问题。
为了实际应用NGDs，本论文开发了一种增量算法IncDect来检测使用NGDs的图G中的错误，另外，将IncDect并行化，保证随着处理器数量的增加而减少运行时间。利用真实图和合成图，实验验证了算法的可扩展性和有效性。

TurboGraph++: A Scalable and Fast Graph Analytics System

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：TurboGraph++: A Scalable and Fast Graph Analytics System
作者：Seongyun Ko;Wook-Shin Han
分类：Graph Data Management

关键词

Graph Analytics System：图分析系统
Graph Data Management：图数据管理

概述
现今的分布式图分析系统主要分两类：一种是关注效率，但存在内存不足的风险；另一种是关注于固定内存扩展而牺牲性能。前者将分区图驻留在每台机器的内存中，并使用内存中的处理技术，而后者将分区图存储在每台机器的外部内存中，并使用流处理技术。Gemini和Chaos分别是每个组中最先进的分布式图形系统。
本论文介绍了TurboGraph++，一种可扩展的快速图分析系统，此系统可以高效处理大规模的图，通过在不影响效率的情况下，使用外部内存进行扩展。TurboGraph++提出了一种新的图抽象处理方法，提供了一个平衡的、支持缓冲区的分区方案，以确保跨分区的工作负载平衡，利用三层并行和重叠处理来充分利用集群中的三种硬件资源（CPU、磁盘和网络）。
扩展性实验显示，TurboGraph++对于大规模图有很好的扩展性，像Chaos，同时在性能上也表现得很好，像Gemini。

TurboFlux: A Fast Continuous Subgraph Matching System for Streaming Graph Data

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：TurboFlux: A Fast Continuous Subgraph Matching System for Streaming Graph Data
作者：Kyongmin Kim;In Seo;Wook-Shin Han;Hyungyu Shin;Geonhwa Jeong
分类：Graph Data Management

关键词

Subgraph Matching System：子图匹配系统
Streaming Graph Data：流式图
Graph Data Management：图数据管理

概述
动态图是由初始图和由边缘插入和删除组成的图更新流定义的。给定一个动态数据图和一个查询图，一个连续的子图匹配系统报告一个边缘插入的正匹配，报告一个边缘删除的负匹配。以前的系统显示出显著的低吞吐量，这是由于每个边缘更新都要重复匹配子图，或者维护巨大的中间结果需要昂贵的开销。
本论文介绍了一种子图匹配系统TurboFlux。采用了一种简洁的中间结果表示，它的执行模型允许快速的增量维护。我们的经验评估表明，TurboFlux超过现有的竞争对手多达六个数量级。

Discovering Graph Functional Dependencies

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Discovering Graph Functional Dependencies
作者：Wenfei Fan;Chunming Hu;Xueli Liu;Ping Lu
分类：Graph Data Management

关键词

GFD discovery
Parallel Scalable：平行可伸缩
Graph Functional Dependencies：图功能依赖项
Fixed-parameter tractability：固定参数可追溯性
Graph Data Management：图数据管理

概述
本论文研究了一类定义在图上的函数依赖关系GFDs的发现,研究了与GFD发现相关的三个基本问题的固定参数可追踪性，证明了蕴涵问题和可满足性问题是固定参数可处理的。本论文介绍了简化GFDs的概念及其拓扑支持，并将GFDs的发现问题形式化，开发算法来发现GFDs和计算它们的覆盖。此外，本论文证明了GFD发现在大规模图形上是可行的，通过提供并行的可伸缩算法来发现GFD，从而保证在使用更多处理器时减少运行时间。利用真实数据和合成数据，实验验证了算法的有效性和可扩展性。

TopPPR: Top-k Personalized PageRank Queries with Precision Guarantees on Large Graphs

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：TopPPR: Top-k Personalized PageRank Queries with Precision Guarantees on Large Graphs
作者：Jieming Shi;Renchi Yang;Tianyuan Jin;Xiaokui Xiao;Yin Yang
分类：Graph Data Management

关键词

Precision Guarantees：精度保证
Personalized PageRank(PPR)：个性化网页排名
Graph Data Management：图数据管理

概述
本论文主要研究在不到100毫秒的时间内，在一个有数十亿条边的互联网规模的图形上，处理个性化网页排名问题。

Skyline Community Search in Multi-valued Networks

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Skyline Community Search in Multi-valued Networks
作者：Rong-Hua Li;Lu Qin;Fanghua Ye;Jeffrey Xu Yu;Xiao Xiaokui;Nong Xiao and Zibin Zheng
分类：Graph Data Management

关键词

Skyline Community：Skyline社区
Multi-valued Networks：多值网络
Community search：社区检索
k-core
Massive graphs：大量的图表
Graph Data Management：图数据管理

概述
在科学协作网络中如何找到研究指标高的内容，在社交网络中如何确定哪些社区具有更高的影响力并与哪些特定用户有相似的兴趣。在这种情况下，可以建立多值网络。大多数现有的社区搜索算法要么完全忽略数值属性，要么只考虑节点的一个数值属性。为了获取数字属性，本论文提出了一种新的社区模型，称为Skyline community，该模型基于k-core和Skyline概念。
Skyline社区是一个最大连通k-core，在d维属性空间中不受其他连通k-core的支配。本论文开发了一个优雅的空间划分算法来有效地计算天际线社区。这个算法有两个显著的优点：一是它的时间复杂度主要依赖于答案s的大小(即，表示Skyline社区的数量)，因此，s很小的时候效率很高；二是它可以逐步输出Skyline communities，这对于只需要部分Skyline communities的应用程序非常有用。
在合成网络和真实网络上的大量实验证明了这种方法的有效性，且该算法具有良好的可扩展性和有效性。

Research 6: Storage &Indexing

Building a Bw-Tree Takes More Than Just Buzz Words

来源：SIGMOD’18, June 10-15, 2018, Houston, TX, USA
题目：Building a Bw-Tree Takes More Than Just Buzz Words
作者：
分类：Storage &Indexing

关键词

Storage & Indexing：存储和索引

概述

ACM SIGMOD 2018 论文速览

Research 1: Data Integration &Cleaning

Robust Entity Resolution using Random Graphs

Deep Learning for Entity Matching: A Design Space Exploration

Synthesizing Type-Detection Logic for Rich Semantic Data Types using Open-source Code

Fine-grained Concept Linking using Neural Networks in Healthcare

Big Data Linkage for Product Specification Pages

Research 2: Usability and Security/Privacy

The Data Interaction Game

Data Citation: Giving Credit Where Credit is Due

ϵktelo: A Framework for Defining Differentially Private Computations

Marginal Release Under Local Differential Privacy

When Query Authentication Meets Fine-Grained Access Control: A Zero-Knowledge Approach

Practical and Secure Substring Search

Industry 1: Adaptive Query Processing

Columnstore and B+ tree – Are Hybrid Physical Designs Important?

Computation Reuse in Analytics Job Service at Microsoft

P-Store: An Elastic Database System with Predictive Provisioning

Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources

Research 3: Transactions and Indexing

Carousel: Low-Latency Transaction Processing for Globally-Distributed Data

Accelerating Analytical Processing in MVCC using Fine-Granular High-Frequency Virtual Snapshotting

Reactors: A Case for Predictable, Virtualized Actor Database Systems

FASTER: A Concurrent Key-Value Store with In-Place Updates

Workload-Aware CPU Performance Scaling for Transactional Database Systems

Research 4: Query Processing

How to Architect a Query Compiler, Revisited

SuRF: Practical Range Query Filtering with Fast Succinct Tries

FastQRE: Fast Query Reverse Engineering

Adaptive Energy-Control for In-Memory Database Systems

Incremental View Maintenance with Triple Lock Factorization Benefits

Research 5: Graph Data Management

Catching Numeric Inconsistencies in Graphs

TurboGraph++: A Scalable and Fast Graph Analytics System

TurboFlux: A Fast Continuous Subgraph Matching System for Streaming Graph Data

Discovering Graph Functional Dependencies

TopPPR: Top-k Personalized PageRank Queries with Precision Guarantees on Large Graphs

Skyline Community Search in Multi-valued Networks

Research 6: Storage &Indexing

Building a Bw-Tree Takes More Than Just Buzz Words