一、失效模式分类不同的失效方式称为失效模式。
根据设备、子系统或系统发生失效的时间将失效分为早期失效、随机失效和老化失效;根据失效所造成的影响将安全仪表功能的失效模式分为安全失效、危险失效和无影响失效;根据引起失效的原因分为随机硬件失效、系统性失效和共因失效;考虑设备的自诊断功能时又分为通报失效、检测到和未检测到的失效;考虑冗余设备构成的表决系统时又分为独立失效和相关失效。
这里所说的失效模式为广义的失效模式,它涵盖了从各种角度分类的失效类别。通过分析,明确了正常寿命期内的随机失效是可靠性定量研究的基础;就安全相关系统来说,我们只关心危险失效和安全失效。
二、早期失效、随机失效和老化失效对安全相关系统要求时危险失效平均概率(PFDavg)及每小时危险失效平均频率(PFH)的计算,实际上是可靠性理论在功能安全领域的应用。
在可靠性理论中,“浴缸”(Bathtub)曲线是非常重要的对设备、模块或元件的失效率在其整个寿命期内变化情况的一种重要的描述,如图1所示。?
图1浴缸曲线设备在运行过程中会受到来自环境的应力,即环境对其施加的影响,如化学的、机械的、电气的或物理的影响。
当其自身的强度不能抵抗这些应力的时候就会出现设备的失效。由图1中可以看出设备在其寿命周期内的失效分为三个阶段:最初故障期、正常寿命期和老化期。这个阶段对应于三种失效方式。
(1)早期失效设备在最初故障期发生的失效为早期失效,失效率由大减小。这是因为生产出的设备中有一些存在生产缺陷,随着它们不断的暴露出来,失效率就逐渐下降。
(2)随机失效在去掉具有生产缺陷的设备之后,失效率相对保持不变,进入设备的正常寿命期,在该期间,设备多发生由于工作应力引起的随机失效。如果设备只有很少的生产缺陷,而强度又很高,那么发生随机失效的概率将非常低。正常寿命期内的随机失效率为常数,它是可靠性研究中所需的失效数据。
(3)老化失效随着使用时间的增长,设备自身的强度开始下降,进入老化报废阶段,失效率也随之逐渐上升(老化期)。可以看出,在最初故障期,设备具有随时间下降的失效率;在正常寿命期,设备具有随时间相对恒定不变的常数失效率;在老化期,设备具有随时间增大的失效率。
“浴缸”曲线可能有几种变形的情况。某些情况下可能不存在最初故障期,因为一些设备几乎不存在生产测试过程未检测到的生产缺陷,这些设备就没有失效率降低的区域。而某些应用中,设备还未进入老化期就已经得到了更新换代,因此就没有失效率升高的区域。
一般来讲,任何设备的设计生产都应该保证设备具有正常的寿命期。有的设备在寿命期内失效率的变化并不符合“浴缸”曲线所描述的这种特征,而是其他的曲线,如“过山车”(Roll Coaster)曲线。符合这种特征的设备在其寿命期内很难找到一个失效率稳定的阶段。设备的失效率是所有定量计算的基础。然而实际应用中,针对某个具体行业或某个具体工厂,设备的失效率很可能不是常数,而是随时间变化的早期失效率或老化失效率。
三、危险失效、安全失效和无影响失效IEC61511中把危险失效定义为那些有潜力使E/E/PE安全相关系统失去安全功能执行能力的失效。
这个定义与人们在实践中对危险失效的理解是一致的。定义中的潜力是否存在,取决于组成E/E/PE安全相关系统的设备之间的结构关系。冗余结构的系统会减少这种导致危险状态的潜力,因为冗余结构里1个硬件设备失效不易导致整个E/E/PE安全相关系统的失效。
IEC61511中把安全失效定义为那些没有潜力导致E/E/PE安全相关系统失去安全功能执行能力的失效。即不属于危险失效的都是安全失效,该定义包括了造成过程误停车在内的多种失效。但是在实践中,人们往往只把造成E/E/PE安全相关系统误动作的一类失效称为安全失效。这里对安全失效的定义是那些没有潜力造成E/E/PE安全相关系统失去安全功能执行能力的,但是有潜力造成E/E/PE安全相关系统误动作的失效。
设备的某些失效可能对E/E/PE安全功能无任何影响,这样的失效定义为无影响失效,记为λNONC。它既不会降低E/E/PE安全功能的执行能力,也不会增加E/E/PE安全相关系统的误动作,不影响E/E/PE安全相关系统的可靠性,对其进行分析没有实际意义。但是,无影响失效会影响单个设备的安全失效分数值(Safe Failure Fraction,SFF),从而可能会影响设备的应用。总而言之,从系统角度研究无影响失效没有意义。因此,从影响E/E/PE安全功能角度划分设备级的失效模式如图2所示。?
图2 设备级失效模式划分图实际应用中,人们不但希望E/E/PE安全相关系统是安全的,而且也希望E/E/PE安全相关系统的误动作率越低越好,以尽量减少或避免因E/E/PE安全相关系统的误动作对正常生产过程的影响。
可见,安全功能的误动作率与系统的可用性及成本密切相关,因此,对E/E/PE安全相关系统误动作率进行定量分析也很有意义。IEC61508、IEC61511关注的重点是安全性,并没有涉及与误动作率相关的问题。
四、随机硬件失效、系统性失效和共因失效对于一个E/E/PE安全相关系统来说,两种最基本的失效是物理失效和功能失效,或者说是随机硬件失效和系统性失效。
两者最根本的区别是:发生物理失效的设备根本不能执行功能,而发生系统性失效的设备是能够操作的,但不能执行其预定的功能。IEC61508-4也将E/E/PE安全相关系统的失效分为随机硬件失效和系统性失效,但该标准定义的随机硬件失效只指由于机能退化而导致的随机硬件失效,而不包含由于过大环境应力而导致的设备失效。但是两年后发布的IEC61508-6使用“硬件失效”没有“随机”二字,而且IEC61508-6附录D中描述共因失效可能源于设计或规范等系统错误或外部应力导致的随机硬件失效,这里的随机硬件失效的范畴与原定义不同,包含了外部应力导致的硬件失效。这里仍然沿用IEC61508-4的分类,并对系统性失效进一步分类,如图3所示。?
图3 基于失效原因的失效分类随机硬件失效:设备的操作条件在系统设计范围内,仅由设备自然机能退化引起的失效。
如老化失效。系统性失效:不是由随时间的自然机能退化引起,而是由特定原因引起的失效。这类失效一般通过修改设计或操作程序来减少。根据系统性失效产生的原因,系统性失效又进一步分为以下三类:
①过应力失效:设备承受了设计范围外的过应力而产生的失效。这个过应力可能由外部原因引起或者由内部影响因素导致。例如过大振动对过程传感器的损坏或者不可预见的砂尘造成的阀门失效。
②设计失效:广义地把系统投入运行之前引入的失效称为设计失效,包括软件错误、系统说明规范的缺陷,制造缺陷或者安装不规范带来的失效。例如由于操作力不够导致的阀门失效,传感器不能区分正确或错误要求,火灾或气体探测器安装位置错误。
③人因失效:由于人员在操作、维护和测试中的错误引起的失效。例如维护完后忘记拆除旁路线或者将过程传感器的隔离阀置于关闭位置。另外在修改中安装新的程序模块,但逻辑控制器不能满足所有设备的顺序停车要求。
一般来讲,系统性失效增加了冗余设备构成的E/E/PE安全相关系统的安全功能失效概率,例如系统的共因失效。而随机硬件失效是一种独立失效,一般认为其不会导致共因失效。共因失效是由于相同的原因导致一个以上的组件、模块或者设备发生失效。这些因素可能是内在原因,也可能是外部原因。
五、通报失效、检测到和未检测到的失效根据设备的自诊断功能又将安全仪表功能的失效模式分为检测到的和未检测到的失效。
顾名思义,被设备自诊断功能检测到的失效称为检测到的失效;未被设备自诊断功能检测到的失效称为未检测到的失效。因此设备的自诊断能力决定了检测到的和未检测到的失效率。通常用诊断覆盖率来衡量设备的自诊断能力。诊断覆盖率表示一次失效被自诊断检测到的概率。可以由下面的公式来表示:?
式中,c为诊断覆盖率;∑λD为所有检测到的失效率之和,这里的“D”代表“检测到”,即Detected;∑λ为失效率总和。设备的自诊断功能可以检测设备状态,在设备出现失效时发出警告,使设备能够尽快得到维修。
然而,自诊断功能不会百分之百检测到设备危险失效,因此,设备危险失效分为检测到的危险失效和未检测到的危险失效,它们的失效率分别为λDD和λDU。对安全失效也可以做相似的分解。
设备的总危险失效率和总安全失效率分别为λD、λS,则有:λD=λDD+λDU (1)λS=λSD+λSU
(2)某些设备的失效会导致自诊断功能不能正常工作。把不能检测和通报设备诊断状态的失效称为通报失效。通报失效有可能是被诊断设备自身的一种失效,也可能是用于自动诊断功能的另一设备的失效。
六、独立失效和相关失效在多个设备构成的冗余结构中,往往存在独立失效和相关失效两种情况。
本书将由自然应力导致的单一设备的随机硬件失效(见图3)定义为独立失效,即单一设备的失效不影响系统中其他相同的设备。
相关失效是指在同一时间或规定时间段内,由于系统间或单元间的空间、环境、设计、人为失误等原因而引起的两个或多个设备失效的状态。其原因可分为两大类:造成系统设备失效的原因(或环境)是相同的或非独立的,特别是当原因(或环境)相同而系统设备的失效特性也完全相同时,将发生系统中的共因失效;独立原因(或环境)造成的设备失效在系统中传播,导致系统设备的传递失效。所以,共因失效属于相关失效,是相关失效最主要的一种形式。所有系统性失效,如应力失效、设计相关的失效和人因失效,从根本上来说是相关失效。