数据仓库性能优化的六个技巧 - 数据中心

导读：数据仓库性能的优化可以提高数据加载和查询处理性能，针对优化数据仓库性能的技巧，PenguinSoft咨询公司联合创始人Mark Whitehorn作为一名数据分析、数据建模、数据仓储和商业智能（BI）这些领域的专家，给出了几点建议，内容如下：

请记住，任何一个称职的顾问都会在提出数据仓库改变建议之前，先看看这个公司存在的问题。我不了解你的公司。我只说说改进数据仓库性能6个技巧：

　　1.在考虑性能优化之前，需要先找出现存的瓶颈。如果你的查询性能CPU负载比较高，那么买更快的磁盘就完全是浪费钱。

　　2.了解你的数据库引擎。当用户还不了解自己数据库输入和输出的时候，往往就要开始危及性能了。例如，我见过用户使用SQL的Insert语句加载数据，而不是用更高效的批量加载工具。

　　我也见过用户用delete * 来删空一个表。这与Drop和Create相比是非常慢的，甚至比Truncate还要慢很多。当然，也许你的数据库软件并不支持Truncate——这就是为什么你需要了解它是如何工作的。如果你还没有一个好的DBA，也许单单从性能优化的角度看就值得聘用一个。

　　3.就查询而言，考虑将数据做成MOLAP立方体结构(例如，多维在线分析处理)并事先做好聚集，这可以让查询性能有很大提升。虽然会占用更多的磁盘空间和数据处理时间，但在性能方面会有很大提升。

　　4.考虑使用固态硬盘。这对磁盘速度问题会有意想不到的成本节约。最近，我正在跟一个有35GB的OLAP Cube的客户一起工作，性能很慢，聚集时间和查询速度都很慢。我推荐他们试试SSD。果然，在测试工作台上就有了一台崭新的70GB SSD PC。

　　这台机器是配置合理，RDBMS安装在硬盘上， OLAP cube创建在SSD上。Cube聚集得更快了，查询性能的改进就更显著了。有些查询比相同级别的聚集快20倍。与性能的提高相比，SSD的成本是完全是微不足道的。

　　5.考虑在笔记本上做SSD。(我自己也这么做了，我现在正在用的这台笔记本上有250G)，但这也是对磁盘集中的令人难以置信的应用。如果可能，在内存中执行抽取、转换和加载(ETL)处理。对于执行时间很长的ETL操作，可以用磁盘缓存(以防处理失败)，缓存到SSD而不是硬盘。

　　6.为分析的目的，而不是事务的目的对分析结构做索引。听起来很显然，但是，我见过无数的关系型OLAP星型模式，其中的索引策略都是根据事务型系统的长期经验而做的，很少有是根据分析型系统的经验。

　　例如，默认情况下，许多关系型数据库引擎都会对表的主键做索引。这在事务型结构中很普及，许多查询都会用到这个索引——但是很少有人知道，在星型模式中，很少会用主键索引进行常规的单行查询。另一方面，维表中所有的分析列都很有可能被查询，也常常会用到索引。

原文链接：http://www.searchdatabase.com.cn/showcontent_49141.htm

数据仓库性能优化的六个技巧
2011-06-09 TechTarget中国