目录 |
跨媒体检索是指用户任意给定一种媒体查询如图片,系统自动检索出与查询主题相关的所有媒体内容。跨媒体检索是模式识别、人机交互、人工智能、统计分析、网络通讯、数据库等多个领域知识的综合,必将在信息检索、信息挖掘领域产生深远的影响。
跨媒体检索是基于内容的多媒体检索中一个新的研究领域,目前国际上还没有较成熟的跨媒体检算法和技术.跨媒体检索需要处理不同模态的媒体数据,例如:一个500维的视觉特征向量和一个650维的听觉特征向量,两者可能都表达了相似的语义概念,如爆炸和画面与爆炸的声音,但是计算机却很难根据两个特征向量度量两者在语义层面上的相关程度.以图像和音频为例,跨媒体检索面临的主要挑战包括:
(1)图像视觉特征与音频听觉特征之间不但维数不同,而且具有不同属性,这种异构性造成跨媒体的相关性度量十分困难;
(2)即使解决了特征异构性问题,还需要进一步缩小底层特征与高层语义之间的鸿沟,以提高跨媒体检索精度。