SIGMOD-24概览Part5: Industry Session (Cloud Databases)

👇Proactive Resume and Pause of Resources for Microsoft Azure SQL Database Serverless

🏛机构：微软

➡️领域：Computer systems organization → Self-organizing autonomic computing

📚摘要：提出了一种针对云数据库的主动资源分配基础设施，并用于无服务器的Azure SQL数据库

背景：为云数据库分配资源
反应式：传统的方法，即根据当前需求分配资源
主动式：创新方法，结合当前需求+预期需求来分配资源

本文的模型
要干啥：在资源的高可用性/运营成本的降低/主动策略的计算开销之间找到接近最优的平衡点
干了啥：用于管理数百万个无服务器的Azure SQL数据库

👇Vertically Autoscaling Monolithic Applications with CaaSPER

🏛机构：微软

➡️领域：Information systems → Data management systems

📚摘要：提出了CaaSPER垂直自动扩展算法，旨在优化Kubernetes平台上DBaaS的资源管理

一些基本概念

Kubernetes平台：管理云应用程序的开源平台，云应用分为有状态(对DB操作有赖于历史数据)/无状态
垂直扩展/水平扩展：增加单个服务器或节点的资源来提升处理能力/增加服务器节点数

⚠️Kubernetes通过垂直扩展来应对负载波动

现状问题

Kubernetes平台上，客户为应对峰值负载会过度分配资源(负载下降时也没有缩减资源)
现有的垂直自动扩展工具在及时缩减资源或应对CPU限流时表现不佳

CaaSPER的提出

是个啥：结合反应式(负载临界时主动调整)+主动式(预测负载变化以主动调整)的垂直自动扩展算法
为了啥：保持最佳的CPU利用率，减少资源浪费
其它特性：允许用户选择能效模式/性能模式，可扩展性(与平台无关)

👇Flux: Decoupled Auto-Scaling for Heterogeneous Query Workload in Alibaba AnalyticDB

🏛机构：阿里巴巴

➡️领域：

Information systems → Data warehouses
Autonomous database administration

📚摘要：提出了Flux，一个专为阿里巴巴AnalyticDB设计的云原生负载自动扩展平台，用于优化异构查询

背景(当前遇到的问题)
云数据仓库需要处理各种异构工作负载，比如在线事务/临时查询/ETL(抽取+转换+加载)
当长/短期查询混合执行时，并发控制+多任务执行会过于复杂
传统自动扩展机制在处理混合工作时，可能导致资源利用不平衡(有些过度分配/有些又不足)
关于Flux
是啥：云原生的自动扩展平台，具有解耦的自动扩展架构，专用于处理异构查询工作负载
架构：
性能优化：将长/短期查询机制分开处理 $\to$ 消除了传统系统中由于并发控制导致的瓶颈
资源弹性：利用无服务器容器实例来动态分配资源 $\to$ 资源分配可快速响应负载变化

👇Intelligent Scaling in Amazon Redshift

🏛机构：Amazon

➡️领域：

Information systems → DBMS engine architectures
Relational parallel and distributed DBMSs
Autonomous database administration
Online analytical processing engines

📚摘要：提出了基于AI的RAIS，用于解决云数据仓库在处理多样化工作负载时的自动扩展问题

背景：阿里巴巴和亚马逊真是神奇的对手，两篇论文的论调都差不多，什么工作负载多样云云
关于RAIS
是啥：一组基于AI驱动的扩展/优化技术
干啥：确保数据仓库能根据负载需求，从垂直/水平扩展(动态调整)资源
咋干：动态(响应)分配资源+自动优化数据仓库规模，这二者都是基于AI所完成的

👇Stage: Query Execution Time Prediction in Amazon Redshift

🏛机构：Amazon/MIT

➡️领域：

Information systems → Database performance evaluation;
Relational database model

📚摘要：这个好理解，就是一种新的查询时间预测器，称之为Stage predictor，应用在Amazon Redshift

背景：
在DBMS中查询时间的准确预测极为关键，关系到优化/资源分配等
现有预测技术存在一些问题，比如Cold Start(无历史数据时表现差)，工作负载变化大时预测不准

Stage predictor：一个分层执行的时间预测器，结合了以下三种模型
执行时间缓存：缓存过去的执行时间，预测时优先使用历史数据
轻量级本地模型：针对特定数据库实例进行优化，即对每个实例个性化预测
复杂的全局模型：一个可在Redshift实例剑转移的复杂模型，基于不同实例的共享知识预测

SIGMOD-24概览Part5: Industry Session (Cloud Databases)

相关资讯

热文排行

最新新闻

推荐新闻

热搜词