首页 > 技术文章 > 高可靠性技术

xiaowangc 2020-12-21 15:02 原文

高可靠性技术

1.1 高可靠技术简介

产品的可靠性是指产品在规定的条件下、在规定的时间内完成规定的功能的能力。对产品而言,可靠性越高就越好。产品可以无故障工作的时间就越长。

MTBF(Mean Time Between Failure,平均无故障时间)具体是指产品从一次故障到下一次故障的平均时间,是衡量一个产品的可靠性指标,单位为小时。

MTBF值的计算方法,目前最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于军工产品和民用产品。其中MIL-HDBK-217是由美国国防部可靠性分析中型及Rome实验室提出的并成为行业标准,专门用于军工产品MTBF值计算,GJB/Z 299B是我国军用标准。而Bellcore是由AT&T Bell实验室提出,并成为商用电子产品MTBF值计算的行业标准,规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。

MTTR(Mean Time To Restoration,平均恢复前时间)源自于IEC 61508中的平均维护时间(Mean Time To Repair),目前是为了清楚界定术语中的时间概念。MTTR是随机变量恢复时间的期望值,它包括确认失效发生所必需的时间,以及维护所需要的时间。MTTR也不必须包含获得配件的时间,维修团队的响应时间,记录所有任务的时间,还有将设备重新投入使用的时间。

网络高可靠性主要指当设备或网络出现故障时,网络提供服务的不间断性能力,一般要求网络可靠性达到5个9以上。根据可靠性计算公式“可靠性=MTBF/(MTBF+MTTR)”可知,可靠性99.999%意味着每年故障时间不超过5分钟,可靠性99.9999%意味着每年故障时间不超过30s。

园区的高可靠设计是一个综合的概念。用户在提高网络的冗余性的同时,还需要加强网络构架的优化,从而实现真正的高可用。一般来说,设计一个高可用的园区系统,主要关系3个方面,即链路备份技术、设备备份技术和堆叠技术。

1.2 链路备份技术

园区系统的链路备份技术主要使用链路聚合、RRPP、Smart Link3种技术。

分布式的聚合技术进一步消除了聚合设备单点失效的问题,提高了聚合链路的可靠性。由于聚合成员可以位于系统的不同设备上,这样即使某些成员所在的设备整个出现故障,也不会导致聚合链路完全失效,其他正常工作的Unit会继续管理和维护剩下的聚合端口的状态,这对核心交换及系统和要求高质量服务的网络环境意义重大。

城域网和企业网大多采用环网来构建以提供高可靠性。环网采用的技术一般是RPR或以太环。RPR需要专用硬件,因此成本较高。而以太网环技术日趋成熟且成本低廉,城域网和企业网次啊用以太网环的趋势越来越明显。目前,解决二层网络环路问题的技术有STP和RRPP,STP应用比较成熟,但收敛时间在秒级。RRPP是专门应用于以太网环的链路层协议,具有比STP更快的收敛速度,并且RRPP的收敛时间与环网上的节点数无关,可以应用于网络直径较大的网络。

Smart Link是一种针对双上行组网的解决方案,实现了高效可靠的链路冗余备份和故障后收敛速度。

如图1-1所示,链路聚合是将多个物理以太网端口聚合在一起形成一个逻辑上的聚合组,使用链路聚合服务的上层实体把同一聚合组内的多条物理链路视为一条逻辑链路。

图1-1 链路聚合

链路聚合可以实现数据流量在聚合组种各个成员端口之间的分担,以增加带宽。同时,同一聚合组各个成员端口之间彼此动态备份。提高了连接可靠性。

RRPP(Rapid Ring Protection Protocol,快速环网保护协议)是一个专门应用于以太网环的链路层协议,如图1-2所示,它在以太网环完整时能够防止数据环路引起的广播风暴,而当以太网环上一条链路端口时能迅速恢复环网上各个节点之间的通信通路,具备较高的收敛速度。

图1-2 RRPP

为了满足用户对链路快速收敛要求的同时又能简化配置,H3C针对双上行组网提出了Smart Link解决方案,如图1-3所示。Smart Link实现了主备链路的冗余备份,并在主用链路发生故障后使流量能偶迅速切换到备用链路上,因此具有较高的收敛速度。

图1-3 Smart Link

Smart Link技术专用于双上行组网,收敛性能能可达到毫秒级,配置简单,便于用户操作。

1.3 设备备份技术

园区系统出现的故障类型较多,风险也无法避免,设备故障是园区网中常见的故障。

对于设备故障的缓解,最简单的方式就是冗余设计。可以通过对设备自身、设备间提供备份,从而将故障对用户业务的影响降低到最小。

设备自身备份技术,主要指设备自身的冗余设计。

H3C中的高端交换机,支持双主控板主备倒换技术。两块主控板分为主用板和备用板两个角色,主用板承担正常业务,备用板处于热备状态。一旦主用板出现故障无法正常哦工作,备用板能够在很短时间内完成状态切换,同时尽可能地保证业务不发生中断。主备备份应用于分布式网络产品的主控板,提高网络设备的可靠性。

H3C高端交换机的主控板、交换网板、电源系统等关键部件支持冗余热备份。交流/直流电源采用N+1冗余热备份,保证系统正常运行;而风扇系统1:1热备份,并且提供根据温度自动调速的功能。

VRRP(Virtual Router Redundancy Protocol,虚拟路由冗余协议)是一种容错协议,如图1-4所示。它保证当主机的下一跳设备出现故障时,可以及时地由另一台设备来代替,从而保证通信的连续性和可靠性。

图1-4 设备间备份技术 VRRP

VRRP将可以承担网关功能的路由器加入到VRRP组中,形成一台虚拟路由器。一个VRRP组由一个主设备(Master)和若干个备份设备(Backup)组成,主设备实现真正的转发功能。挡住设备出现故障时,备份设备称为新的主设备,接替它的工作

1.4 堆叠技术

IRF(Interlligent Resilient Framework,智能弹性架构)是一种增强的堆叠技术,其在高可靠性、冗余备份等方面进行了创新或增强。

IRF堆叠可以允许全局范围内的跨设备链路聚合,提供了全面的链路级保护。同时IRF堆叠实现了跨设备的三层路由冗余,支持多种单播路由协议、组播路由协议的分布式处理,实现了多种路由协议的热备份技术。

IRF堆叠实现了二层协议在Fabric内的分布式允许,提高了堆叠内Unit的利用率和可靠性,减少了设备间协议的依赖关系。

IRF堆叠中所有的单台设备都称为成员设备。成员设备之间物理堆叠口支持聚合功能,堆叠系统和上、下层设备之间的物理连接也支持聚合功能,这样就通过多链路备份提高了堆叠系统的可靠性。

IRF中采用1:N冗余,即Master负责处理业务,Slave作为Master的备份,随时与Master保持同步。当Master工作异常时,IRF将选择其中一台Slave成为新的Master,由于在堆叠系统运行过程中进行了严格的配置同步和数据同步,因此新的Master能接替原Master继续管理和运营堆叠系统,不会对原有网络功能和业务造成影响。同时,由于有多个Slave设备存在,因此可以进一步提高系统的可靠性。

IRF成员设备为框式分布式设备时,拥有多块主控板和多块接口板。对于框式分布式设备的堆叠,IRF并没有因为IRF技术具有备份功能而放弃每个框式分布式成员设备本身的主用主控板和备用主控板的冗余保护,而是将各个成员设备用主控板和备用主控板作为主控板资源同一管理,进一步提高了系统可靠性。

推荐阅读