数据冗余(Data Redundancy/Redundant Data)
目录 |
数据冗余是指同一个数据在系统中多次重复出现。在文件系统中,由于文件之间没有联系,有时一个数据在多个文件中出现;而数据库系统则克服了文件系统的这种缺陷,但仍然存在数据冗余问题。[1]消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。[2]
一般而言图像、视频、音频数据中存在的数据冗余类型主要有以下一些:
①空间冗余:图像数据中所经常出现的一种冗余。在同一幅图像中,规则物体和规则背景(所谓规则是指表面是有序的而不是完全杂乱无章的排列)的表面物理特性具有相关性,数字化图像中表现为数据冗余。例如一幅静态图像中的一大片蓝天、草地,其中每个像素的数据完全相同,如果逐点存储,就会产生所谓的空间冗余。完全一样的数据当然可以压缩,十分接近的数据也可以压缩,因为被压缩的数据恢复后人眼也分辨不出与原来的图片有什么区别,这种压缩就是对空间冗余的压缩。
②时间冗余:这是序列图像(电视图像、运动图像)和语音数据中所经常包含的冗余。在电视、动画图像中,在相邻帧之间往往包含了相同的背景,只不过运动物体的位置略有变换。因此对于序列图像中的相邻两帧仅记录它们之间的差异,去掉其中重复的,称为时间冗余的那部分信息。同样,由于人在说话时产生的音频也是连续和渐变的,因此声音信息中也会存在时间冗余。
③结构冗余:有些图像从大体上看存在着非常强的纹理结构,例如草席图像,我们称之为它在结构上存在冗余。
④知识冗余:有许多图像的理解与某些基础知识有相当大的相关性。例如:人脸的图像有固定的结构。比如说嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于脸的中线上等等。这类规律性的结构可由先验知识和背景知识得到,称之为知识冗余。⑤视觉冗余:是由于人体器官的不敏感性造成的。例如在高亮度下,人的视觉灵敏度下降,对灰度值的表示就可以粗糙一些。对于太强太弱的声音,如果超出了“阈值”,人们听觉感受也会被掩蔽。利用感官上的这些特性,也可以压缩掉部分数据而不被人们感知(觉察)。
⑥信息熵冗余:又可称为编码冗余,是指一组数据携带的平均信息量。正因为多媒体数据中存在着上述的各种各样的冗余,所以多媒体数据是可以被压缩的。针对不同的冗余,人们已经提出各种各样的方法实施对于多媒体数据的压缩。
一般情况下,应尽量减少数据冗余,保证数据的一致性,但在某些情况下,也需要适当增加数据冗余度。
1、重复存储或传输数据以防止数据的丢失。
2、对数据进行冗余性的编码来防止数据的丢失、错误,并提供对错误数据进行反变换得到原始数据的功能。
3、为方便处理而使同一信息在不同地点有不同的表现形式,如一本书的不同语言的版本。
4、为了提高数据的检索速度。
数据冗余或者信息冗余是生产、生活所必然存在的行为,没有好与不好的总体倾向。