专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

北京友友天宇COO张矩:云计算平台支撑的智能企业IT运维

文章来源:  中国云计算 发布时间: 2011年05月20日   浏览: 1260   作者:中国云计算

5月20日,在第三节云计算大会分论坛二“云计算平台与应用实践”中,北京友友天宇系统技术有限公司COO张矩带来了主题为《云计算平台支撑的智能企业IT运维》精彩演讲。

张矩在演讲从IT运维模式(pattern)的角度来深度探讨云计算 平台支撑的智能运维的理念和实现,全面介绍了云计算架构下信息系统运维的最新发展和理念,不仅涵盖了大规模信息系统 运维中与云计算联系紧密的高延展模式,高性能模式以及高可靠模式,而且还涉及到云计算技术在与传统运维工作紧密相关的部署模式,更新模式,容量计划模式中 的应用,最后引入了云计算架构下运维工作的两种新模式:可验证模式和可视性模式。

更多精彩演讲,即将为您播报,敬请关注。

以下是张矩的演讲实录:

张矩:首先非常荣幸有机会跟大家做一个汇报,非常感谢曹教授的介绍,刚才微软赵先生做了一个非常炫的演讲,我这里偏向技术多一点,在内容上大家会觉得稍微枯燥一些,力争给大家一些新的思路和新的内容,特别是在IT系统运维方面。总体来讲IT运维和软件开发之类,比较起来可能不是一个特别热门的话题,开场想借用两位知名人士的话,来简单讲一下云计算新的理念。

大家熟悉开源软件的都认识这个人Richard,他属于开源软件教父之级的人物。他讲云计算是愚蠢的提法,甚至比愚蠢还要差一些,完全是一种市场宣传的情况。业界有一个趋势不可逆转,所有人都采用的时候,就完全是一种市场行为了。

这是Oracle的CEO,他认为云计算的提法完全是垃圾或者是疯狂的提法。

既然这么多人来到第三届中国云计算大会,我们的看法肯定和二位他们是不同的。

很奇怪的就是这两位可以说是在性格上或者在观点上截然不同的两个代表,一个代表开源软件的运作,另一个代表全球第二大软件公司。为什么他们会觉得云计算这个事情完完全全是没有实际的东西呢。

这张图其实很有意思的,这是从猴子变成弯腰,从弯腰变成直立,随着技术的发展又从直立到弯腰。

我们认为云计算和平台带来一个重大的变革,就是对于海量数据的处理。海量这个词是一个相对的概念,一个高容量软盘大概是1.4M数据,如果你有1个G的数据可能耗费600到700张软件,那时候1G的数据就是海量数据。随着技术的发展,数据生成非常高效,我们讲生产效率,数据产生的效率,非常高效,返过来数据的系统如何处理这些数据提出了更高的要求。

谈到海量数据,不可避免涉及到软件体系,以及网络带宽和单个处理服务器,自身可扩展的极限,这些都是跟现在技术的发展状况非常有关系。云计算从一定程度上基于现在硬件发展的状态,再加上经济新的考虑,对海量数据的处理提出一些突破性的理念。

第一点,我们如何用分布式的方法来处理传统上往往用单机的方式才能处理的方式,包括结构化的数据,非结构化的数据,以及非常有特殊应用场景的,比如说用电量采集和大系统定制,非常有特色的数据。这些数据的存储在网络上和物理的介质上是分离的,整个系统需要分离性,我们讲的是分离性,需要一个很高的容忍度,并且能够很好的利用这种特性。

第二点,海量的数据很大一个特点就是海量,海量在数学上来讲很小的事件在海量情况下经常发生的情况。现在讲每年生产数据速度大概不到六个小时就会产生100个PAD的数据,这需要10万个硬盘,如果一个硬盘寿命是三年,每天大概有100块硬盘被损坏。我们在云计算平台上经常听到大家的讲,我们的数据最终是一致的,但是某一个时刻基本上物理上很难做到任何一个时间都是一致,不可能,我们针对不同的形式,在不同物理层级做优化,甚至规模大了以后,怎么通过点到点的方式来处理,使得系统具有高性能。

第三点,这跟我们今天谈的话题关系比较大,就是运维,云计算和云平台对企业系统的运维带来什么样的变动。一是可编程的技术架构,一是可运行的平台。其实没有一个最通用的系统架构,系统架构的设计很大程度上取决了业务应用的架构,数据访问的模式,最后是经济性。我们没有一个对所有情况都优化的架构,云计算的理念就是希望我构建的无论是SAS还是PAS层面上,我构建一个通用的架构,支持多租用,更多复杂的应用,这点我们是怎么做到的,怎么实现呢?一方面通用的优化架构是不存在的,另一方面我们想达到这个效果,实现这个目的。这有一个很好的案子,就是我们常常提到的可编程的模式,这也不是特别崭新的思路,在过去历史上有专用和通用互相冲突的问题,大家如果对CPU半导体行业比较了解,我们知道CPU是一个通用的处理器,它往往是解决我们常见的应用有优势,但是面对很多专门的应用,包括DSP,数据信号处理领域,往往不是它的专长。这时候既有CPU也有DSP,两种不同的架构解决一个问题。随着可编程的思路就产生了SPAD,其实这个概念完全一致的,我用可编程的芯片,可随时调整动态架构的芯片来支持不同的应用场景。

云计算带来的一个很大的变革,首先是把整个IT之整体架构层面细分了,其次是在基础架构的层面,和基础架构运行平台的层面,把它变得可以动态调整,可编程。

我多次提到可编程,大家会问可编程到底是什么概念?可编程从计算机科学角度来讲,一部分的概念是说我提供了一个操作的界面,可改变状态的界面,首先基础架构层面和运行平台层面自身有状态,有数据支持,其次我提供了一个操作可以改变我的基础架构层面和运行平台往来的数据,这个状态会影响下一步的操作。云计算技术怎么提供一个可编程技术架构的功能。

第一,虚拟化,虚拟化是真正把资源从物理的实体中抽象出来的一个技术。因为实际物理机器移动是很难的,可编程的第一步是把这个距离虚拟出来。

第二,把我需要的资源按照很好的力度切分给你,这也是在基础架构层面可以做可编程、动态调整。

第三,我把资源抽象出来之后,实际上是有位置的关系,资源具体在什么地方,会对整个基础架构有影响的。另外网络连接的影响,一方面是说网络传输延时的作用,另一方面我的资源和其他节点对接的性能是直接受我这两个之间连接数据的带宽影响的。位置实际影响着时延,网络影响着传输量。另外每一个资源在部署的情况下会有可靠性的问题,在基础架构层面,除了为了上层提供资源,还要做到可编程的目的,对资源位置,对资源的连接情况,对资源可靠性的情况都要进行良好的展现。

可编程平台层,平台层是为上面的应用提供环境,平台层是为了实现可编程的目的,提供更多的运行环境和更加丰富的功能。我的数据和数据所在的地方关联是需要保持的状态之一。另外平台层对上层应用提供的环境的状态是非常关键的,这涉及到上层应用的生命周期整个的管理。底层运行环境的状态,不仅受上层应用制约,更多的还是在另外一个层面上制约上层应用运行的状态。

举一个简单的例子,当上层应用部署的时候,并不一定在任何时刻都是全能力的部署,往往是部署的时候,我只满足我现有用户需求就可以了。这时候底层运行环境的状态会直接影响着这个时候我部署的容量大小,我在这个用户负载增加之后,我的应用在运行平台上怎么动态扩展,这实际上和我运行平台的状态或者资源可获得性非常直接关联的,而且直接受我的资源关联性、可获得性的限制。

还有一点,运行平台需要维持上层应用之间交互的状态,这一点实际上是说我怎么保证在平台上部署的应用,不直接互相冲突,做到数据共享,做到数据服务,跟可编程的运行平台是直接相关联的。

刚才给大家提到了实现海量数据的支持和可编程的基础架构和可编程运行平台所涉及到关键技术。

跟大家特别分享一下群组管理在可编程平台上起着非常关键的作用,可编程平台就是平台要维持自身的状态,同时维持上层应用的互相关联,这个东西听起来其实是实现上有很大的难度。我怎么能够在动态规模保证实时性,并且维持这个状态。在很多类似的产品和基础架构设计中都是用群组管理的概念实现的。

群组管理的概念提供了两个重要的功能。首先是通讯群组地址的扩展,也就是说服务使用者和服务通讯的时候,并不是点对点的通讯,而是完全通过虚拟的传递,这样很容易消除单点失效和性能瓶颈的问题。其次是我要维持群组之内身份的状态,我在一个群组之内,任何一个成员的加入和离线,或者出了故障,群里面所有成员都知道。这就可以保证我在平台这个层面维持自身的状态,知道我这个平台各个成员现在的状态。另外一点我可以通过创建群组,很方便管理上层应用之间互相关联关系。

刚才讲的是云计算技术对信息系统运维带来的一些比较深刻的变革,下面讲一下企业运维的一些基本的概念。

这张图是通常大家对企业运维的一个理解,一谈到企业运维,大家脑海里面就是这样一个样子,一个很大的工作台,工作台上有很多张显示器,在一般的工作台前面都会坐着IT运维人员,随时看显示器的数据和图表,根据显示器的数据和图表做一些工作。其实IT系统的运维包含了很多很多方面的工作和内容,其实是一项非常复杂的工程、工作任务。

概括来讲,IT运维包含四个大的方面:

第一个,就是我们常讲的服务满足的工作。这个工作就是无论是软件开发人员,还是商业业务的人员,需要IT资源的时候,运维人员怎么满足需求,首先对服务进行设计,然后对服务进行规划和预先的配置,然后是部署,最后是管理,然后不断的改善。当这个业务服务和业务系统完成了它应该起到的作用之后,怎么从系统中退休的工作。

第二个,服务质量,当你的请求来了,我怎么保证提供给你的服务质量。一是日常职场,二是SLA,服务质量 保证,包括可靠性,一年之内保证你的服务离线时间不超过多少时间,三是性能的问题,三个人使用和三百个人使用,我都可以给你提供比较满意的服务时间和性能。

第三个,监管。首先我怎么能够保证我做的一切事情是符合我跟客户介绍说的。其次政府法律法规对IT操作的要求,你怎么保证符合法律法规的要求。然后怎么通过技术手段保证安全性。通过监管体现我们日常事务可视性。

第四个,风险。就是灾备,去年到现在多次地震导致这方面越来越受到关注。

你提到的运维的工作都在做,我现在的工具完全可以解决这些问题,这些实际上不是我今天想说服大家,你要更换现在IT运维的工具,我今天主要想给大家介绍新的云计算技术和新的云计算体系架构之下,IT运维从理念上和实质上到底有什么变化。

这张图是想说明企业的应用现在变得非常非常复杂,从传统的一个简单的OA桌面应用,现在演化到作为企业商业运行支撑的一个关键组成部分,已经变得非常非常复杂。我们传统的运维方式,基本上是两极的运维方式。一是企业里面会有基础的系统管理员,负责硬件、机器的管理。二是上层有一些管理员,去管理整个业务系统。这种方式由于企业应用的复杂度不断的提高,会变得越来越不适应。现在更多的是把企业业务系统分成很多层面,用松耦合的方式来构建这个企业业务系统,同时映射到运维系统当中就是多个层级,各个层面互相之间有标准接口,变成可编程的管理,实现高效、通用的整个运维体系架构。

这张图给大家稍微解释一下,这张图是我们输入图象,对软件开发和运营是非常好的思考方式,我们怎么能够在非常繁杂的工作之中,把我们真正需要的,真正关键的东西提炼出来。根据这些关键的要点和关键的目标来制订我们处理或者说是运维的关键步骤和理念。这个图是说我怎么通过自动识别的手段最终识别出输入的图象,我们必须通过模式的方式跟大家分享一下大规模系统运维涉及到方方面面和重要的理念。

首先是规划和预置的模式,这个跟大家强调一点,其实传统的预置的模式,最大的问题在于时间,传统的运维过程就是先你申请机器,主管部门审批,IT部门安装、部署,最大的问题在于你等待,这个时间周期从几天到几周,到几个月的时间是传统运维方式最大的问题。云计算技术和云平台可以很好的解决这个问题。

我怎么部署,你管理二三十台服务器的时候,部署不是问题,如果你在二三十台服务器部署虚拟机,变成一百台到一千台需要管理的节点的时候,部署就变成一个很大的问题。云平台提供了良好的方式,包括部署的目录,我用推送或者抓取的方式部署,以及可以提供一个非常灵活的,从节点资源到角色映射的关系,都是云平台带来非常良好的工具。

另外就是考虑容量规划的问题,容量规划是解决互相冲突的问题,一是资源使率要很好的保证,二是尽量避免资源短缺的情况,这是传统IT运维情况下是矛盾的两个部分,在多租户的架构下往往会有一些新的思路。

另外一个就是延展性的问题,可靠性的问题,以及性能的问题。在新的云计算平台下,从运维的角度怎么来达到这个目标的。

另外给大家介绍非常关键的一点,在大规模系统中多租户、多应用的情况下,变更天天都在发生,不可改变,刚才赵先生提到,上个月有一个很大的云计算提供商发生了一个事故,其实如果你看这个事故的原因,从开始到结束,是如何发生的,就是简简单单路由的优化做了变化,导致了整个系统完全离线超过六个小时,通过这个变化的处理,在这个运算平台上有一个很重要的一点,就是怎么验证变化是正确的。这点和云计算能力和云计算平台的能力,云计算技术快速改变部署的能力,会为验证这件事儿提供非常方便的途径。

在平台上做验证的时候需要关注几点:

首先,在我这个平台上怎么把这个变化模型化,应用到我这个平台上。构建有反馈的回路,才可以对你的变化进行验证。

其次,大家验证的时候往往忽略两点,一是验证的时候可能有一些问题会忽略,大规模系统某一点出现故障,很容易产生一种影响,它导致的问题很容易级联其他的系统问题,导致整个系统恢复非常非常困难。刚才的案例是一个最典型的例子,服务离线完全是Waterfall和Spillage的失效。

最后,云平台就快速部署的能力,你这个系统怎么快速恢复,这是需要演练的事情。

这里面提到可视性的模式,我怎么做到我的操作和系统的状态被客户看的到。

这是事故发生,灾难发生,人为事件导致系统产生非常巨大的问题,我怎么保证在平台下能够很快的恢复。在云计算平台下,是怎么做的。

最后作为友友系统的一员,我希望大家能到我们的展台看一下体现我给大家介绍的这些理念和基础的大规模系统运维的平台,希望大家参观、观摩,多提意见,谢谢大家。


一键分享:

在线客服