哪些说性格很顽强在艰难险阻或巨大压力面前不
分类:pc28.am

有些CIO清楚容错系统较之集群具有更高可靠性,但让CIO为难的是应该如何说服CEO,事情明摆着:一台容错服务器20多万元,集群服务器一台2万元左右,2台不过是4万多元,要说服CEO并不容易。

信息技术复杂性使得用户在选型中常常难以抉择,对于核心系统选型用户经常面临着三选一,甚至四选一的难题。选择大型机、小型机,还是选择IA架构服务器并不是一个简单的结论。

在功能定位上,x86被定位于通用服务器,安腾被定位在关键业务应用服务器。如果进一步细分,x86又可分为单路、双路和多路服务器,对应英特尔的处理器是3000、5000和7000系列,此外,还有一个特殊的6000系列,它是7000系列在双路应用的延伸。其中,采用5000系列处理器的双路服务器是市场的主流,应用在大多数的应用场合,其价格也比较便宜,在万元左右。与之相比,采用7000系列处理器的多路服务器,价格要高出很多,被定位在高端应用,对可靠性有很高的要求的应用场合。目前,除了金融行业用户核心业务之外,越来越多用户开始选择x86服务器承担各种关键应用,其中高端的多路服务器成为了用户的选择。

在信息技术日新月异的今天,医疗机构越来越依赖信息系统来开展业务,对于门诊、临床等关键业务应用而言,提供7×24×365连续运营至关重要。目前大多数医院所采用双机热备、集群服务器在可靠性方面存在着不小的安全隐患,加之不少医院专业人员有限,在这种情况下,具有更高安全级别的容错服务器解决方案更加备受关注。

如果从ROI投资回报率)来看,容错服务器整体上是一个系统,相应的操作系统、数据库、应用软件等只需要一份授权;与之相比,集群系统硬件成本低,但是软件成本高,需要多购买一份软件的授权。总体计算下来,容错占优。但在国内环境下,有些厂商往往采用硬件赠送软件的方式,或者采用开源软件,就会使得容错在总体价格上的优势被削弱。采用开源软件的问题在于技术支持上往往跟不上。

对于CIO来说,最好的办法就是看看周边同行的选择,从重风险相对比较小,因为大家都是这么选择的,自己这样选择相对就比较保险。以系统7×24小时业务连续性的需求来看,双机方案还是比较流行的选择,与之相比,容错机还是属于小众市场。加上厂商宣传推广不够,更影响力了容错机的应用和推广。

为了进一步提升可靠性,采用两台相同型号、配置的多路服务器构建集群方案成为了普遍的一种选择。双机集群是一种由集群软件控制的软件冗余方案,但其中的一台设备出现故障的时候,由另外一台设备接替故障硬件工作,以期达到提高可靠性的目的。但在实际工作中,双机集群对管理要求比较高,即使切换成功,也还是需要一定的故障恢复时间,期间会导致业务中断,如果切换失败,所需要的故障恢复时间将更长,因此对于一些关键业务需求而言,双机集群方案不能够满足高可靠性的要求。

容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,服务器集群技术、双机冗余服务器方案和单机容错技术这三种实现方法都在被使用。但集群技术、双机冗余服务器方案由于依赖于软件的特性,其设计更为复杂,并且维护成本较高,而容错服务器的思路就是把所有运算器CA)、控制器CC)、存储器M和输入/输出装置这些部件全部采用冗余硬件设计。两个部件共运行同一个任务,以此来提高系统的运行可靠性。这种冗余硬件的设计并不难,但是最为困难的是如何保证计算和数据在硬件中的同步Lockstep),这是美国容错技术有限公司Stratus)的核心专利技术,也是其驰骋容错技术领域30年不败的关键。 

除了投资之外,可靠性上差异更为重要。对于某些关键业务应用,如钢厂MES系统(Manufacturing Execution Systems,制造执行系统),它是连接ERP 系统和基础自动化系统的桥梁,负责厂级生产管理和调度执行。其可靠性不可或缺,系统一旦宕机,生产就会停顿,损失无法估量。对于这样的关键业务系统,集群方案是不能够满足需要的,集群系统的设计目的是容灾,用于灾难情况下的系统恢复,而恢复是需要时间的,存在中断的危险。

不久前,在与一位医院信息中心主任交流中获悉,他为核心系统选择了容错机,而没有采用主流的双机方案。问到其中原因,该信息中心主任表示,他也的确犹豫过,毕竟选择双机方案似乎风险更小。但如果采用双机方案,对于7×24小时业务连续性需求还是存在很大的风险。他表示,双机方案的确存在着不能够顺利切换的可能性。一旦双机不能够实现故障切换,系统就要面临中断服务的风险,如果系统中断超过15分钟,按照市卫生局的要求,就需要上报,属于非常严重的事情。为此,信息中心需要承担很大的责任。    

与之相比,容错方案是一个理想的方案。它是一种硬件冗余的技术,借助独特的锁步技术,从体系结构上对系统进行保护。容错不仅能够做到服务器级别的容错,还可以实现对内存、I/O数据的容错。在双机集群方案中,如果一台服务器突发故障宕机,那么这台服务器设备中内存的数据,以及I/O中等待读写的数据,是没有办法进行同步保护的,只能够借助数据库数据回滚等软件技术进行重建,虽然不会给交易带来损失,但业务恢复、重建是需要时间的,这也是双机集群不能够保持业务连续的原因。

7×24小时不间断,stratus可以保证

有些厂商宣称集群系统可以无缝切换,多数情况下,这是做不到的。有些演示环境确实可以做到,但实际情况下,无缝切换很难实现。与之相比,容错系统具有更高的可靠性,从可靠性等级来衡量,容错系统的可靠性是99.999%,也就是5个9的水平;集群只有4个9。表明看仅是区区0.009的分别,但实际上,其中的差别是巨大的。

图片 1 
图1、双机系统可靠性依靠集群软件提供保障

与之相比,容错技术可以确保处理器、内存、I/O数据,做到每个处理器时钟周期保持严格同步,因此,当单一功能部件突发故障时,业务不会因此而中断。这种情况下,虽然失去了容错,但系统不会中断,业务不会受影响。当更换故障部件时,系统恢复容错工作状态。但用户不采用容错服务器方案,其中性能瓶颈是一个普遍关注的话题。当前容错服务器产品主要是基于双路服务器,较之多路似乎存在性能瓶颈。

美国stratus容错公司生产的容错服务器在一些关键性领域里应用非常广泛,例如:电信、机场、银行、冶金行业、安全、医院HIS系统、公安、电力行业、大的零售业等一切要求高可用性的行业。 

CIO肯定清楚其中的分别,但要让CEO搞清楚就难了。5个9,4个9都是一些技术语言,用来说服CEO往往是事倍功半。

图片 2  
图2、容错系统可靠性全部基于硬件

容错服务器厂商可以提供多路服务器解决方案吗?答案是肯定的。美国容错技术有限技术顾问高峰表示,多路服务器容错并不存在技术上的障碍。历史上,美国容错就曾经提供了多路RISC处理器的方案;目前之所以没有考虑x86多路服务器容错方案,主要是价格的考虑,用户往往很难承受。高峰表示,目前双路8核处理器,其性能相对于原来16路处理器的性能,可以满足用户的绝大部分需求。从用户实践看,容错方案并不存在所谓性能的瓶颈。这也是美国容错没有提供多路服务器容错的原因。他表示,不提供多路不是技术的原因,而是基于市场策略的选择,换句话说,没有提供多路容错的必要。

而现实是,双机应用仍然是现在的主流,凡涉及关键业务应用的领域,双机冗余都是一个重要的解决方案。但是双机冗余服务器方案不能够解决软件的故障。在实际运行过程中,有些时候数据库莫名其妙打不开了,在这种情况下,只有重新安装数据库,没有其他好的办法,而这不仅可能造成数据的丢失,也会在时间上无法满足医院的要求,这对医院是致命而不可接受的。

说服CEO不要采用技术语言,只需要让他清楚一件事情:一个闪电或一个控制信号错误导致了动车追尾,罪魁祸首就是可靠性不够。那么,采用容错就可以高枕无忧了吗?当然不是,但是容错方案是可靠性最高的方案了,如果连容错都抵挡不住,那么也就没有系统可以抵挡了。

与双机方案相比,容错方案对于7×24小时业务连续性的保障完全是基于硬件方案,而双机方案是基于软件层面的,因此容错方案可靠性非常高,几乎不存在宕机的风险。容错方案非常容易进行管理,硬件全部实现了冗余,支持热插拔。

高峰表示,用户对性能的担心,有时不是真的来自性能,而是来自对可靠性的考虑。从产品角度,多路服务器较之双路的确具有更高可靠性,这也是用户青睐多路服务器的原因。然而容错方案的可靠性不是依靠产品本身的可靠性,而是从系统的角度,依靠体系架构来解决问题。从目前技术水平看,两台双路服务器,相同功能部件同时发生故障的概率是非常低的,因此,容错服务器完全可以满足用户对可靠性的要求。

图片 3
上海中医药大学附属曙光医院信息中心刘珉

一句话,要让CEO做选择题。CEO可以不选择最好的方案,但一定要让CEO意识到可能存在的风险。CIO只要做到这点就可以了,至于最终决策不是CIO应该考虑的问题。

由此看来,风险是相对的。选择双机方案,从重的结果是,选型风险降低了;但从后期管理和运维的风险就是提升了。所谓背着抱着一边沉,CIO需要一个冷静而清晰的头脑。

除了容错之外,实际上,容错方案更是提供了可信计算。高峰表示,通常情况下,处理器计算不会出现问题。但作为电子器件,难免会受到各种因素的干扰,难免会产生高低电平的判断错误,计算机是依靠高低电平来判断“0”或者“1”,一旦出现错误,这种错误是不易察觉的。也就是说,计算机也会犯错误。对于容错而言,它是借助“锁步技术”,对两台设备计算结果进行比对,只有一致才被认可,因此可以有效避免意外错误的发生,这是容错方案特有的性能。对于容错系统的用户而言,可信计算可算是一种增值服务,是对用户高可靠性的一种额外奖赏。

在医院,7×24小时的不间断运行是对硬件与系统的考验,尤其是在关键业务上。上海中医药大学附属曙光医院曾使用stratus容错服务器很多年,信息中心刘珉主任说:对医院而言,信息主管最关心的是系统的安全稳定以及数据的准确性,在容错服务器中,由于采用冗余部件同时运行同一应用任务,这样当两个系统产生不一样计算结果时,系统就会察觉,并通过技术手段对于计算错误进行校验,从而提高应用的准确性。stratus容错服务器在我院使用的8年中,从未出现过停顿15分钟以上的故障,确实能够满足我们在关键业务上的需求。

...

为什么会有很多人选择双机方案?一是厂商宣传的结果,为提高可靠性,需要采用双机方案。二来双机方案的硬件成本相对较低,容错相对要贵一些。但如果考虑软件的成本,包括操作系统和数据库,双机需要购买双倍的授权,而容错机是一个单台设备,只需要购买单一的授权,因此考虑正版化,容错机的总体成本还占有优势。

...

图片 4
哥伦比亚大学基金会•上海德济医院信息主管张志翔

综合考虑各种因素,该信息中心最终选择了容错方案,在他看来,容错方案的风险是最低的。  

哥伦比亚大学基金会•上海德济医院信息主管张志翔主任介绍说:由于私立医院在人力等方面的投入较之大型三甲医院不足,因此在硬件上更希望能够尽量降低人力和维护成本,并能够稳定安全的运行。stratus容错服务器正好能够满足我们在硬件安全高效的要求。

...

对于容错服务器而言,虽然在理论上存在着两个相同部件同时损坏的情况,但是随着硬件水平的提高,这种概率是比较低的。容错硬件的设计一方面可以防止硬件的单点故障,同时也可以防止硬件所造成的计算错误,并对此做出校正。

图片 5
上海市卫生局信息中心高级工程师沈惠德

上海市卫生局信息中心高级工程师沈惠德很形象地将双机与容错进行了比喻。他说:如果将服务器比作人的器官,那么双机冗余像是器官移植,会出现“排异”的可能性,而容错服务器更像是自身的一套器官,不会出现排异,因此其安全可靠性更高。在他看来,医院信息化的不断推进对安全的要求更高,随着对医院等级评测要求的提高,也将推动容错服务器的发展。

1 1>2,stratus可以做到

买一台stratus容错服务器,得到的不仅仅是一个硬件设备,还有伴随的高可靠性、更精确运算以及更优性价比。

美国stratus容错服务器代理商之一上海复高计算机科技有限公司副总经理马俊华表示:stratus容错服务器部署更简单,可以大大减少软件成本;安全更有保障,能有效地保护动态数据不丢失。上海复高计算机科技有限公司系统集成部总经理汪国亮说:如果采用双机冗余方案,需要购买两套操作系统、两套数据库产品,那么其总体的投资与容错服务器方案相当,而系统的可用性方面,容错服务器显然更具有优势。

同为美国stratus容错服务器代理商的上海显亮数码科技发展有限公司总经理周彬彬说,应用容错服务器后,相比其他方式的“救火”行为,容错服务器将医院信息化底层无法预测的硬件故障预防,管理人员可以将更多的精力用于其他软件的运作与维护,可大大减少运维成本。

根据国际著名咨询机构IDC所公发布的数据:容错服务器可用性是99.9998%,消除单点故障的集群,可靠性仅为99.99%,而IBM的大型机为99.995%。就技术而言,双机只能保证写入硬盘的数据,不能够对缓存数据进行有效保护,双机系统当硬件出现故障进行切换时,是要产生停顿的,与此同时,双机切换有可能不成功,如此以来,对于医院的窗口单位而言,就会对正常的医疗秩序产生影响,甚至引发群体性事件,影响医院整体形象。有与之相比,容错产品支持任意硬件热插拔,包括主板、CPU等关键性硬件,外界并感觉不到切换,系统可靠性大大提高,同时因为系统具备纠错能力,系统更加稳定。如果说集群技术可以减少停机,那么容错系统的目标是避免停机,在相同的条件下,容错系统显然更加稳定和安全。需要稍加说明的是,小型机虽然也是一种选择,但这会增加成本,同时也对企业的技术人员提出了比较高的要求。

目前,容错服务器推广应用还需要政府推动以及人们认知水平的提高。一个好消息是,越来越多的医院在选购stratus容错服务器,说明在医院的关键业务中,容错服务器更加适用。

...

本文由pc28.am发布于pc28.am,转载请注明出处:哪些说性格很顽强在艰难险阻或巨大压力面前不

上一篇:治病行当顾客谈关键业务根底设备,系统可相信 下一篇:没有了
猜你喜欢
热门排行
精彩图文