数据的完整性和准确性为高层决策提供强大的信息支撑,也许这就是数据质量对企业成功如此重要的主要原因了。然而,有时候它在企业内部却自成一体,即保证数据的完整性和准确性已经成为企业数据管理战略的主要工作。于是,当这种潜在的威胁混淆了你的判断时,你得到的数据可能是准确的、完整的,但却对你的工作毫无用处——正如鸡肋一般,食之无味、弃之可惜。

完整性与准确性

我们需要多少数据才能做出有效的商业决策呢?显然,拥有完整的数据(假设所有数据都是有效的)比拥有不完整的数据更好。但是,随着数据量的不断增长,我们必须得承认,有时候越来越多的数据只会让使用者徒增困扰,而不是使问题变得简单明了。所以这不是一个帮你做决策的好方法,只会让你心烦意乱罢了。

到底需要多少数据才能真正有助于企业做出有效的商业决策呢?

我们曾经给数据的准确性下过一个定义:准确性一方面是指在一个限定的范围内数据值的正确性,如经过了权威的参考验证,即有效性;另一方面是指在更广泛的背景下(包括其他数据和业务流程),有效数据值的正确性,即准确性。

我们当然还是想要准确的数据,但是将数据质量不够完美作为延迟重大商业决策的理由显然是站不住脚的。数据的质量能保证决策的质量,虽然无法永远获得理想的数据,但是如果我们不断尝试,也许在尝试的过程中就会发现自己获得了商业的洞察力,而正是你所需要的。

商业问题的数据驱动解决方案

显而易见,数据质量不仅仅包括完整性和准确性这两个方面。尽管数据质量能帮助我们优化数据,但人们经常认为执行数据质量管理不过是为了保证数据的安全。实际上,数据质量管理是为了保证商业问题中数据驱动解决方案安全而在企业范围内执行的项目。

为了实现该目标,除了要求数据的完整性和准确性以外,还可以考虑在数据质量完整性和准确性的定义中加入其它维度,但最重要的就是,数据一定要对业务有用。或许对于数据质量最常见的定义就是,“与使用目的匹配”。但是这个定义难免显得不够完整和准确,原因在于缺少了“商业”一词。换句话说,数据质量是指“与使用目的匹配”。无论数据多么完整、多么准确或者其他,数据需求都取决于它的商业用途,或者在绝大部分的案例中,数据有着多重的商业用途。

数据——数据无处不在

随着老数据的不断累积和新数据的不断更新,想把所有的数据都管理起来变得越来越不实际,而且我们每天执着于努力掌握所有的数据,而无法停下脚步去评估数据的用途及与业务相关性。

Mark Goloboy最近发表了一篇新的博客,“2010年麻省理工学院信息质量行业研讨会的五个新想法”,其中就提到了“60-90%操作数据都是缺少价值的”。Goloboy解释道:“我不会说那些数据毫无价值,因为对于创造这些数据的事务性系统,他们还有操作的必要性。但是从分析性的角度上看却是缺少价值的。如果数据能够直接用于分析和报表中,它就是有价值的,并值得储存在数据仓库中。虽然在这方面没有消息,但却引起了众多关注,因为数据的增长引发了存储成本的上升趋势。

Dylan Jones在他的博客“害怕跟你的数据告别吗”一文中,讨论了为数据设计存档策略的重要性,来对照许多企业的默认立场,这些企业认为不断扩大的数据容量能够再迅速激增。因为在很大程度上,没有人想要删除(或者存档)这些现存的数据。

这通常会造成如下的尴尬局面:在许多情况下,企业内部存在大量无用途的数据,而在其背后,企业为了保证持续成功而真正需要的数据却在等待处理中海量数据队伍中停滞不前,无法获取(甚至可能永远没有机会真正地用于辅助企业决策)。

Dylan提出了一个建议:在识别数据迁移的范围内,我通常会假设所有的数据都在限定的范围外,除非有人能证明它的存在性。这种做法的好处在于能把重点拉回到业务上,判断我们所使用的数据是否整的有用。

数据大容量存储

Jorge Luis Borges写过一个短篇故事——富内斯的回忆录,故事描述了一个叫做Ireneo Funes的年轻人因为一次骑马事故导致其失去了遗忘的能力。虽然Funes有着非凡的记忆力,但他却迷失在琐事的细节里以至于无法将信息转换成知识,更无法将其演变成智慧。

西班牙语memorioso这个词是指大量记忆存储。如果我们把数据管理战略看成大容量的数据存储,那么企业就会在管理所有数据中迷失以,甚至无法将数据转换成商业洞察力,最后导致无法在当今高度竞争和快速进化的市场中生存发展。

在《为坚持而生:命途多舛的Idea》一书中, Chip Heath Dan Heath这样说“一个准确但毫无用处的想法仍然是没有用处的。如果一条信息不能用来帮助预测或者决策,无论它多么的准确或是有深刻的见解,这条信息都没有任何价值。”我相信这句话,对于企业的数据和商业用途一样适用。

是时候对鸡肋数据说再见了。你怎么看?