返回目录:经济新闻
引用
Firmani D, Mecella M, Scannapieco M, et al. On the Meaningfulness of “Big Data Quality” (Invited Paper)[J]. Data Science & Engineering, 2016, 1(1):6-20.
摘要
本文探讨了数据质量概念在大数据环境下的内涵。传统的数据质量被定义为一个多维度的概念,即使是结构化的数据,也很难给出确切的定义。而在大数据环境下,数据质量在复杂性上增加了两个维度:1.数据源多样性。为此本文采用UNECE(United Nations Economic Commission for Europe)分类法,按照数据源对大数据进行分类;2.高度非结构化。数据通常没有公认的标准或模式,甚至很难获取。本文在提供了传统数据质量的分类及定义之后,基于UNECE分类法深入分析大数据特征,然后对每种类型的数据源,选择了相应实例,并讨论如何在这些情况下定义数据质量。因此,本文的总体目标是,通过提供最新的数据质量度量技术,确定大数据质量领域的进一步的研究方向。
关键词
数据质量 大数据 质量维度 信息质量
背景介绍
我们目前处于大数据时代,虽然学术界和工业界没有形成对大数据的确切定义,但都认可大数据具有的3V特性(volume[量大], variety[多样], and velocity[高速]),这些特性定义了大数据。一些大数据的研究任务基于这些特性开展,获得了众多有趣的结果。
研究者们强调大数据环境下数量高于数据质量,认为大量的数据足以抵消数据可能包含的任何失真或缺陷。这种观点可能太过简单,因此目前一个重要的研究方向是开发有效和高效的方法来评估数据质量。
但大数据质量又是什么呢?在本文以案例的方式,展示了提出一个确定的大数据质量概念是多么困难。本文将说明,设计一个确定的数据质量概念根本没有意义。相反,有许多质量概念适用于特定类型的大数据,在分析和处理大数据时应该仔细考虑。
数据质量和信息质量
质量一般被定义为,“产品能满足明确和隐含需求的程度”[2],“适用度”[3],“用户满意度”[4]。数据也是一种信息,因此,数据质量可以映射为信息质量。当人们想到信息质量时,往往将质量的概念狭义的理解为准确度,例如,城市名称“芝加哥”拼错为“Chcago”。但是,除了拼写错误外,还存在概念错误,例如错误的出生日期和年龄。因此,信息质量不仅仅是准确性。为了充分表征信息质量,还需要有其他重要的维度,例如完整性,一致性和时效性。
现实通常由一条信息表示,信息中包含现实特征,例如,景观照片,或者在小说和诗歌中表达的抽象环境。因此,质量问题在不同的信息表示方式下也不同,例如图像和非结构化文本。本文通过定义信息质量维度和度量方法,描述了结构化和非结构化以及其他类型数据的信息质量概念。
信息质量的维度与度量
根据[5],可以将信息质量维度归为8个类。每个类具有相似的质量度量特性:
1. Accuracy:准确性、正确性、有效性和精确性是衡量表达现实的真值的能力。
2. Completeness:完整性、针对性和相关性是表达事物被关注方面完备程度的能力。
3. Consistency:一致性和内聚性是指信息与现实一致的程度。例如完整性约束,业务规则和其他形式上的规定的内容。
4. Redundancy:冗余性、简约性、紧凑性和简洁性是指通过最少的信息资源表示现实的能力。
5. Readability:可读性,可理解性,清晰度和简洁性是信息易于理解和实现的程度。
6. Accessibility:可访问性和可用性与用户基于自己的文化水平,物理状态和可用技术去访问信息的能力有关。
7. Trust:可信度,可靠性和声誉,重点关注从权威来源获得的信息量。
8. Usefulness:可用性与用户从使用信息中获得的可用信息量有关。
每种维度类型适用的数据类型有所不同,如下表所示:
上述维度通常以定性的方式来定义,不提供定量的度量方法,因为不同类型的数据度量方法也不同。下面以Readability和Usefulness为例,展示对非结构化的文本数据可行的一些定量的质量度量方法:
Readability:
可读性对于文本类型的数据是很重要的一个维度,被定义为“基于某种写作风格而被易于理解的程度”[6]。可读性研究起源于Kitson [7]的研究,该研究表明两种英文报纸的句子长度和单词长度存在明显差异。为可读性而提出的大多数度量基于两个因素:
1. 词汇或语义特征。
2. 句子或句法复杂性。
例如,The Gunning-Fox算法是对于可读性的一种具体度量方法,其基本思想是句子越长,其中使用的单词的复杂程度越大,阅读文本的难度就越大。公式如下:
自动可读性指数(Automated Readability Index, ARI)也是一种可读性度量算法,其度量方法如下所示:
与上一种度量方法不同的是,ARI算法更加关注单词或音节的复杂度。
Usefulness:
本文以图像为例来表征实用性,一个众所周知的图像质量模型是Fidelity-Usefulness-Naturalness(FUN,[8]),它假设存在三个主要维度:保真度,实用性和自然度。保真度是当前图像与原始图像匹配的程度。自然度是图像与观察者内部参考物的匹配程度。当我们必须在不访问相应原件的情况下评估图像质量时,实用性起着重要的作用。实用性是图像相对于特定任务的明显适用程度。在许多应用领域,例如医学或天文成像,可以应用图像处理程序来增加图像的实用性。例如在下图中,左侧的图像相对于原件可能是准确的,但是由于应用了对比度增强算法,右侧的图像在背景中显示更多细节。 增强处理步骤也对灵活性有明显影响。
上述是两类指标的度量方法,感兴趣的读者可以参阅原文,获取其他类型维度的度量方法。
大数据质量
术语“大数据”一般指通用软件工具不可能存储和处理的结构化和非结构化数据,volume, variety, velocity是大数据的三个重要特征。
- Volume是指数据的量级巨大。
- Velocity是指数据生成及传输速率高。
- Varity是指数据采集、数据表示和语义解释中的异质性。
为了提取有价值的大数据,第四个V,veracity(准确性)的重要性逐渐被认可。准确性指的就是大数据质量问题:由于生成的数据量巨大,到达数据的速度快,异构数据种类繁多,数据质量堪忧。
根据UNECE提出的分类方法,大数据有三种主要类型的来源,如下表所示:人类源(如博客),过程源(如银行业务数据),机器源(如传感器数据)。本文基于该分类方法讨论大数据质量的内涵。
广义上的大数据质量是一个毫无意义的概念,因为它应根据特定数据源对质量维度进行具体定义。 此外,大数据的这些维度的定义,即使可以参考传统的数据的数据质量定义,但由于数据,语义等的非结构性,仍然非常复杂,并且仍然是学术界的研究热点之一。 在下文中,为了给读者提供这种复杂性的直觉,本文基于UNECE定义的数据源类型,对每一种类型描述了一组全面特定维度。本文以过程源为例,进行描述。读者如想了解其他类型数据源的质量维度,请参阅原文。
数据模型:
给定数据源(如航班数据)。数据源中包含类型相同的对象,每个对象与真实世界的实体相对应。实体可以随时间动态地改变,即,新实体可以出现和消失,或者现有实体的值可以改变。对于每个对象,我们考虑一组属性(例如,预定出发时间和实际出发时间)。 对于我们称之为数据项的每个属性,我们假设存在一个反映现实世界的真实值(例如,飞行的实际出发时间是飞机在特定日离开机场的那一分钟)。
为了评估数据源的质量,我们考虑为每个数据项提供值。如果提供的值恰好是真值,则质量很高。相反,如果提供的值与真实值不同,则质量很低。质量低的原因包括:
- 过时的数据
- 不完整的值
- 冲突值
- 错误值
- 数据中的噪声
符号:
S为数据源,设d是数据项,v是数据源的值,V(d)是所有源在d上提供的不同值的集合,v *是d的真值,S(d)是集合在d上提供值的源,S(d,v)是在d上提供值v的源集。 设A(S)是S提供的全局属性集。 来自时间点t的源中的实体分为三组:
- 当前组:Up(S,t),包括现实中存在的实体,其属性值与现实一致;
- 变化组:Out(S,t),包括源未捕获的最新值变化的实体;
- 待删除组:包括所有剩余的实体,即从现实世界中消失的实体。
一致性:
如果许多数据源为相同的数据项提供相同的值,则数据源是一致的。 一致性度量指标包括:
- Number of values:在数据项d上提供的不同值的数量,即| V(d)|
- Entropy:
熵值越高,一致性越低。
- Deviation:
标准差越高,一致性越低。
准确性:
如果为同一数据项提供的值随时间变化正确且一致,则数据源是准确的。准确度指标包括:
- 源准确度:给定源提供的正确值的分数;
- 精度偏差:T表示一段时间内的时间点的集合,用A(t)表示时间点t∈T的精度,用A*表示T时间段内的平均精度,精度偏差是:
可靠性:
如果数据源提供的值接近标准值,则该数据源是可靠的。 可靠性指标根据数据类型的不同有不同的度量方法:
符号型数据:最常用的函数是0-1损失函数,如果该值与标准值不同,则会产生错误,值为0:
连续数据:损失函数应表征从给定值到标准值的距离,值的方差。一种常见的损失函数是归一化的平方损失,其定义为:
可以发现,大数据环境下的数据质量维度的基本内涵,与传统数据质量没有太大差别,但是由于大数据的4V特性,导致了具体指标的度量方法有很大差异。感兴趣的读者可以参考原文,获取更多的度量指标。
本文主要贡献
本文通过实例探讨了大数据质量的内涵。数据质量是一个多维度的概念,结构化数据的质量也难以精确表达。大数据为这种复杂性增加了两个维度:一是数据源的多样性,为此我们采用了UNECE分类,二是高度非结构化和无模式的数据,通常没有固定标准可以参考或很难获取数据。
为了向读者直观的展示大数据质量的复杂度,在提供了关于传统数据质量的度量方法后,本文基于UNECE数据分类来分析大数据,然后对于每种类型的数据源,选择了该类型的特定实例,并讨论了如何在这种情况下定义质量维度。为读者提供了数据质量研究的思路。
参考文献
[1] Gal A (2015) Big data integration. In: Keynote speech at international conference on open and big data (OBD 2015), August 2015, IEEE CS Press
[2] International Organization for Standardization - ISO. Quality management and quality assurance. Vocabulary. ISO 84021994
[3] Juran JM (1988) Juran on planning for quality. The Free Press, New York
[4] Wayne SR (1983) Quality control circle and company wide quality control. Qual Prog 16(10):14–17
[5] Batini C, Palmonari M, Viscusi G (2012) The many faces of information and their impact on information quality. In: Proceedings of the 17th international conference on information quality (IQ 2012)
[6] Klare GR (1974) Assessing readability. Read Res Q 10:62–102
[7] Kitson HD (1921) The mind of the buyer: a psychology of selling, vol 21549. Macmillan, New York
[8] de Ridder H, Endrikhovski S (2002) Image quality is fun: reflections on fidelity, usefulness and naturalness. SID Symp Dig Tech Pap 33:986–989
致谢
此文由南京大学软件学院2017级硕士廉昊翻译转述