2001年我国两架某型飞机在训练时因尾翼积冰相继坠毁, 16名机组人员全部遇难。2003年2月, 美国哥伦比亚号航天飞机因左翼出现裂纹而发生爆炸坠毁, 机上7人全部罹难。2009年6 月,法国空客A330可能因遭遇强对流天气无法控制而坠毁, 机上228 人全部遇难。
2010年6月, 韩国首枚运载火箭“罗老号”因整流罩出错导致发射失败。2013年7月7日, 韩亚航空一架波音777客机在美国旧金山机场着陆时失事, 导致2名中国公民不幸遇难, 事故原因初步鉴定为油箱破裂导致韩亚航班坠机着火。在核工业领域, 1979年3月, 美国宾夕法尼亚州三里岛核电站制冷系统出现故障, 造成美国最严重的一次核泄漏事故, 至少15万居民被迫撤离。1986年4月26日, 切尔诺贝利核电站发生核泄漏事故, 其主要原因在于有缺陷的过时技术和故障处理机构的缺失。1993年4月, 俄罗斯西伯利亚托姆斯克市托姆斯克化工厂的一个装满放射性溶液的容器发生爆炸, 附近的几个村庄被迫整体迁移。2011 年3 月, 日本发生9.0级地震, 福岛第一核电站发生泄漏, 辐射半径10 公里范围内的约45 000人被迫撤离。此外, 矿物开采、卫星导航、石油化工生产等领域, 多种故障的发生均导致了人员伤亡、财产损失和生产停滞。因此, 为了更好地保障人们的人身安全和生存环境, 同时提高生产运行效率和经济效益,系统的可靠性和安全性问题亟待解决。正是在这样一种系统部件故障不可避免并不可忽视的背景下, 容错控制技术的研究被推到了科学研究的前沿位置, 并得到了飞速的发展。现代控制系统通过容错控制技术设计提高系统的可靠性和自动应变能力已经十分普遍, 它作为提高系统安全性、可靠性的一种重要手段, 被广泛应用到工业控制系统的许多领域。并且随着实际系统背景的演化, 容错控制技术必将进一步深入发展。
二、动机
一般控制系统能否进行容错控制, 关键看系统是否有富余的机构或者信息来消除补偿故障所带来的影响。这种富余称为冗余。值得一提的是,在航空航天领域, 有很多实际系统, 如飞行器、火箭、卫星等都能提供冗余信息。这些冗余信息的存在, 保证了容错控制系统设计的可实现性。需要指出的是系统冗余有多种形式, 主要包括硬件冗余和解析冗余。硬件冗余仅仅依赖现有系统的冗余度来容忍性能退化, 是指给一个运行机构备份多个与之功能相同的机构, 机构发生故障则由备份机构取代执行。显然硬件冗余虽然可以精确提高系统可靠性, 但成本代价十分昂贵, 一般工业系统的执行机构很难做到。现实系统应用比较多的硬件冗余方式是传感器备份、设置多台计算机等。另一类冗余方式是利用系统中不同部件在功能上的冗余性来实现的, 这类冗余被称为解析冗余。基于解析冗余的容错控制在多个控制领域得到了应用, 如多翼多舵面的航天飞行器。这些功能冗余信息对容错控制器的设计与实现有着重大意义。目前容错控制领域研究最多的是对系统执行器和传感器故障的容错控制。实际系统中, 执行器和传感器的故障模式包括部分失效、中断、偏移和卡死。其中最为严重的故障为卡死故障。它还可以细分为常值卡死和时变卡死。其中时变卡死还可以分为参数化卡死和非参数化卡死。非参数化卡死是一类不能用方程描述的未知卡死故障, 它包含了常值卡死和参数化卡死。因此, 容错控制问题如果解决了非参数化卡死故障, 则其他故障也能顺其自然地被解决。另外, 容错控制系统设计中需要考虑两大问题, 即性能优化和动态补偿。这两大问题相互对立, 故障的动态补偿会使系统的性能下降, 因此, 如何协调系统性能和故障补偿是一个值得深究的问题。针对系统可能发生的故障模式, 通过合理设计控制器同时补偿时变失效、中断、偏移和非参数化卡死故障问题, 以及系统的干扰抑制问题和优化不同模式下的性能问题, 将对系统容错控制的解决有较大的实际意义。另一方面, 随着控制系统日趋复杂和网络技术的不断发展, 实际工作控制系统中出现了各种子系统关联的大系统。这些系统由大量空间分布的关联单元组成, 每个单元都有自己的传感器和执行器输入/输出信号。因此, 此类大系统中有大量的传感器和执行器输入/输出信号, 如造纸工业、微机电系统、自动高速公路系统、飞行器编队系统和流量控制系统等。由于子系统关联通道传递着各个子系统的信息, 对整个复杂系统的安全性起到至关重要的作用, 因此对关联链接的容错也极其有意义。加之复杂系统中执行器的大量分布, 执行器故障不可避免, 容错系统的设计就更加重要。研究表明, 关联网络与系统的稳定性、同步性和收敛性有着密切关系。在网络化复杂系统情况下, 整个网络的一致同步由网络拓扑结构和耦合强度保证, 如果网络处于非理性状态甚至发生网络恶化情况, 整个动态网络极有可能失去一致同步性。因此对动态网络的容错也是研究重点之一。容错控制在网络化复杂系统中正在发生深刻的变化。综上所述, 当前容错控制系统的研究目的在于利用系统的冗余条件,设计合适的控制机构, 解决系统执行器、传感器、系统本身和关联链接等机构的各类故障的自动补偿和抑制, 以及不同故障模式下的性能优化问题。