信息提取(拼音:xìn xī tí qǔ;英语:information extraction),从观测数据中获得有用信息的过程。主要手段是根据信号和噪声的统计模型,使用特定的判决准则,最后获得有用信号,信息提取主要分为信号检测和估计。
信号检测
从观测数据或接收到的信号中判断有无某种信息存在的技术和过程。如要在雷达的输出数据中判断是否带有在警戒空域中存在敌方飞机的信息,就是信号检测问题。信号检测的经典方法是统计检测。如果信息源发出的原始数据只有H0(表示有)或H1(表示没有)两种可能,统计判决过程只是在H0和H1中选择一种,称为二元检测或双择检测(两者择一),这是较简单的一种情况。如果原始数据中有多种可能,H1,H2,…,Hn,统计判决过程要在n种假设中抉择一种,称为多元检测。信号检测中的判决准则,一般使用最大后验概率准则、贝叶斯准则、最小错误概率准则、极大极小准则和纽曼–皮尔逊准则。在进行信号检测时,根据信道的不同特性,又将信号检测分为加性高斯白噪声中已知信号的检测、加性高斯白噪声中随机参量信号的检测和非高斯白噪声中信号的检测。由于在实际应用中经常遇到的是非高斯白噪声,因此前两种检测主要是为后一种检测铺路。
信号估计
包括:①参量估计。在假定已知信号的数学模型条件下(如概率分布模型、动态系统模型等),依据观测数据对模型参数进行估计。常用的参量估计方法有最小二乘估计、极大似然估计和贝叶斯估计。②非参数估计。对观测数据的概率模型或统计特征进行估计。适用于不能用单个分布函数来为数据建模的情况。这种情况下,获得某些统计特征或从数值上确定概率分布仍然是需要的,这是非参数估计关心的问题。③波形估计。在实际应用中,常常需要根据接收到的数据对信号本身作出估计,这就是波形估计,也称为过程估计。维纳滤波和卡尔曼滤波就是在解决波形估计问题中不断发展而形成的估计理论。④稳健估计。降低异常数据对统计结果影响的统计估计方法。通常用三个指标来评价一个稳健估计算法的性能:效率、临界点和计算复杂性。其中,效率反映在给定噪声分布情况下,算法达到理想估计的能力;或为了达到某个统计特征的稳健估计,算法必须损失的其他性质,如在无异常数据时对某些特征进行估计的性能降低。临界点反映估计算法所能容许的异常数据所占比例的最大值。
信号识别
从数据、语音、文字或图像提取与已知信息相同、相似或有关联的信息。如用遥感技术获得的地形地物图像中可能有农作物的信息、地质构造的信息等。这些信息不是用人眼观看能识别的,往往要经过复杂的图像处理才能把信息提取出来。这一类问题统称为模式识别,用计算机进行识模是正在发展中的技术领域。通常要经过这样几个典型的步骤:图像数字化;将各类图像的重要特征用数字刻画出来(特征提取);在某一图像的许多特性中,找出某些综合性指标(特征选择);设计识别方案,使得任一个未知类别的图像在数字化以后,根据识别方案就可以判决它属于哪一类。这是最常用的统计模式识别。