CMU-cs445:查询优化

查询优化

Heuristics/Rules 规则/静态触发

当查询中的某些部分满足我们的规则或者条件，我们就重写这部分.这部分需要我们去检查catelog.
Cost-based Search

方法的思想是使用一个模型去评估一个查询的负载，然后使用多种不同的查询计划去替换这个查询，找出最小负载的方案。

下面是整个查询优化过程

Relational Algebra Equivalences(等价关系代数)

predicate pushdown:在join前尽量过滤数据。
对过滤条件进行排序，让更具有分辨性的条件排在前面。
对复杂判断进行简化
对于行存储类型数据库，projection越早越好。

Plan Cost Estimation

CPU
磁盘
内存
网络

在数据库的catelog中，会维护相关信息，并且在特定时间或者遍历表的时候更跟这些信息，在执行查询之前，将这些变量带入公式，计算出最小代价的查询。在系统中，我们定义一些统计量：

$N_R$: 关系R的tuple数量
V(A,R):属性A不同值的数量
Selection Cardinality：$N_R$/V(A,R)
selectivity: 选择率，给定一个条件，计算table中符合条件的tuple数量
Range Predicate：计算范围值的比例，有点像概率计算，因此可以引入概率论中的结论,但是为了计算方便，有下面三个前提：

直方图法

对于数据分布不均匀的关系，在一些高端数据库中会使用直方图来跟踪数据的分布。对于数据量极大或者属性值分布很广的情况，我们会使用相同宽度的bucket来记录值的分布，但是这种情况会导致某个桶内数据分布极不均匀的情况，我们可以使用分位数来解决这个问题，即累计一定比例的数据分桶，桶的宽度可变，但是总体占比大致相当。