“容错”, 顾名思义, 就是“容忍错误”的意思。它是计算机系统设计技术中的一个概念, 而对控制系统来讲, 则是针对高可靠性控制系统的一种综合策略。容错控制系统是一个不仅在正常情况下, 而且在某些元部件发生故障的情况下, 都能够保证系统稳定性, 并具有恰当性能指标的控制系统。容错控制系统的研究可以提高系统的安全可靠性、可维修性和使用寿命, 具有重要的实际意义和理论价值。
一、背景
如果将一个系统比作一个人的话, 则控制器可以视为人的大脑, 发布控制指令;执行器可以看作人的手和脚, 执行大脑的各项指令;传感器便是人的眼、鼻、耳、口、舌等感观部分, 收集和发布当前信息;而人体内的经络、血管等则对应于系统的关联链接, 负责各部分的信息关联。由此可见, 在众多系统部件中, 执行机构担负着整个系统的驱动功能, 所有运行状态的变化都需要通过执行器的运作调整得以实现。因此系统的执行器负荷最大, 结构最为复杂, 也是最容易发生故障的机构, 并且执行器故障对系统的可靠性、安全性和有效性影响最大。而传感器作为为系统、控制器、滤波器等机构接收并发送所需正确信息的部件, 故障的存在也直接影响到系统的有效运行及安全可靠性。在多个系统组成的复杂系统中, 关联链接和耦合网络的连接作用对整个系统的稳定性和跟踪同步性能而言不可忽视。因此, 关联部件的故障也能造成整个耦合系统的崩溃。另一方面,随着系统外部环境的变化、运行时间的延续和其他不可预测外力的影响,系统对象本身也会出现故障性变化, 如零件老化受损或脱落、机体发生化学反应及出现裂缝等, 使得原有系统模型失效, 导致系统不稳定。对一个控制系统而言, 控制器的正常工作是一个系统正常运行的最基本条件。因此, 控制器发生故障而给系统其他机构发送错误指令, 对整个系统安全性来讲会产生灾难性的后果。另外, 系统的其他部件, 如接口、回路和一些软件的故障也会对系统运行产生较大影响。总体来说, 这些故障都会直接影响到系统的安全可靠运行。在众多相关实际工程领域, 曾经发生过许多造成重大人员伤亡和严重经济损失的悲惨事件。这些事件都是由于机构设计不能抵制外部扰动或者系统部件发生故障等原因导致系统安全性的下降, 直至毁坏设备而发生的。在航空航天领域, 1985年日本JAL-747飞机因局部结构断裂而撞山坠毁, 机上524名人员中只有4人幸免。1986年美国挑战者号航天飞机上的一个密封圈失效, 导致价值12 亿美元的飞行器爆炸, 7 名宇航员全部遇难。1996年6月4日, Ariane5号火箭在升空37秒后爆炸, 主要原因在于惯性参考单元 (IRU) 的软件反对, 导致提供姿态和轨道信息到控制系统,使正常的姿态信息被一些控制系统无法辨别的诊断信息取代。
1996年土耳其波音757-200飞机因空速表故障而坠毁, 13名机组成员和176名旅客全部遇难。2000年法国协和客机在起飞过程中机翼起火爆炸, 造成机上109人全部死亡, 地面死亡5人。