信息提取_工程技术

[拼音]：xinxi tiqu

[外文]：information extraction

从观测数据中获得有用信息的过程，主要可分为检测和估计，但在系统辨识和模式识别中也含有信息提取过程。按照信息论和控制论观点，在通信和控制系统中传送的本质是信息，系统中实际流通的则是可测量的信号。信息包含在信号之中，信号是信息的载体。电信号到了接收端，经过处理可最终变换成语声、文字或图像。收信人从语声、文字或图像中可以得到各种信息。一般地说，在接收端将带有噪声的信号经过多次变换，以取得有用信息的过程就是信息提取。

带有信息的各种形式的可观测、可传输、可存储的信号均可称为数据。这种数据在传输、存储和变换过程中不可避免地会受到噪声或其他无用数据的干扰。要可靠地高效率地从数据中提取信息必须研究这些噪声和干扰的性质。它们往往具有按某种统计规律变化的随机特性。因此，信息论、概率论、随机过程论和数理统计学，就成为信息提取的基础和工具。

检测

在接到的有噪声的数据中判断是否有某种信息存在，例如要在雷达的输出数据中判断是否带有在警戒空域中存在敌方飞机的信息，就是信号检测问题。经典统计推断理论中的假设检验理论是处理这一类问题的理论基础。信息提取的过程如图。如果信息源发出的原始数据只有两种可能：H₁(表示有)或H₀(表示没有)，统计判决过程只是在H₀和H₁中选择一种，这称为二元检测或双择检测(两者择一)，是较简单的一种情况。如果原始数据中有多种可能，H₁，H₂，…，H_n，统计判定过程要在n种假设中决择一种，称为多元检测。如果在数据处理过程中对噪声的统计特性具有先验知识，称为参量检测，经典的检测理论属于这一类。如果对噪声的特性缺乏先验知识或知之甚少，则是一种非参量检测理论。这是20世纪60年代初发展起来的理论。70年代初，把60年代中期提出的坚韧统计学移植到检测领域，坚韧检测遂得到发展（见检测理论）。

估计

如果有用的信息包含在数据的某些参量中，例如雷达回波信号的频率参量就含有目标径向速度的信息，回波信号的相移或时延就含有目标位置的信息等，则信息提取的任务就是从有干扰的观测数据中估计出有用的参量。这是参量估计问题，以统计推断理论中的估计理论作为处理这类问题的基础。如果所要提取的信息随着时间连续变化，例如要测定在发射过程中一个空间飞行体的状态信息，则要测定它在不断变化中的三个空间位置矢量和三个速度矢量，这是状态估计问题。类似于检测问题中的情况，根据对噪声统计特性的先验知识的多少，估计理论也分为参量估计、非参量估计和坚韧估计三类。常用的参量估计方法有最小二乘法估计，极大似然法估计和贝叶斯估计。所有的估计方法都是力求使按照某一准则定义的误差趋于最小。不同的误差准则就引导出不同的估计方法。著名的维纳滤波理论是最小均方误差准则下的线性滤波理论。这一理论以及F.E.卡尔曼用状态变量法在时域处理的递推滤波理论都属于重要的状态估计方法。

辨识

对于很大一类问题，要提取的信息是包含在一个简单的或复杂的系统中。例如，对一个新设计的控制系统，需要获得这一系统某种性能的信息，这属于系统辨识问题。一般情况下，系统性能的信息与系统参量有关。系统辨识问题往往是系统参量估计问题。通常的方法是，首先精确测量系统的输入和输出数据，然后估计系统模型中（即数学方程中）的未知参量。由于实际的输入、输出数据要受到噪声影响，系统本身也会有随机干扰，所以系统参量估计也是一个统计问题。估计方法中的最小二乘法（最小均方误差法）、极大似然法等都可用来估计系统参量。

识别

有一类信息隐含在语声、文字或图形图像中。例如用遥感技术获得的地形地物图像中可能有农作物的信息、地质构造的信息等。这些信息不是用人眼观看所能识别的，往往要经过复杂的图像处理才能把信息提取出来。这一类问题统称为模式识别，用计算机进行识模是正在发展中的技术领域。通常要经过这样几个典型步骤：图像数值化；将各类图像的重要特性用数字刻划出来（特性提取）；在某一类图像的许多特性中，找出某些综合性指标（特征选择）；设计识别方案，使得任一个未知类别的图像在数字化以后，根据识别方案就可以判决它属于哪一类。这是最常用的统计模式识别。此外，语言结构法（句法）识别也正在发展中（见信息处理）。