“这些年大家都在谈数字化转型,但大家关注的核心焦点在建设上。怎么理解这句话?比如一家传统企业要数字化转型,会引进很多数字化系统、手段,例如上云,利用大数据、IOT驱动业务转型升级。
但企业实现数字化后,会拥有上百个系统,很容易出现缓慢、崩溃现象,面临很多挑战。其次,企业在运维管理方面养了好几十人的运维团队,工作量很大,但管理模式过于传统,效率很低。所以,这时候企业才开始用人工智能的手段来变革运维领域,解决企业各种系统运行问题。
云智慧总裁刘洪涛
不过,目前,大多数企业客户还属于上云,上系统的阶段,还没考虑到系统维护、运维的阶段。这也是为什么企业IT领域,IT运维发展滞后的原因。”云智慧总裁刘洪涛说道。
云智慧成立于2009年,是一家全栈智能运维解决方案服务企业。今年6月,云智慧完成了由华山资本领投,红杉资本中国基金、水木投资和浙民投/浙江丝路基金跟投的 2500 万美元 D 轮投资。
数字化时代,传统IT运维管理的机遇与挑战
目前,我国IT服务发展已经进入到相对稳定的增长阶段,有着极为可观的市场前景。据相关数据统计,2017年中国IT服务市场规模为6077.7亿元,同比增长16.2%,预计未来四年将保持13.8%年复合增长率,到2021年整体市场规模将突破万亿大关。
与此同时,越来越多的高科技企业加入到数字化转型大军中,而IT服务市场的竞争格局也发生着变化,优质IT服务企业开始进入大众视野。
然而,在移动化、大数据、云计算、人工智能等新技术的推动下,企业的 IT技术架构悄然变迁,从传统“IOE架构”走向“互联网架构”。互联网架构所涉及的网元数、技术栈、服务数等元素成倍剧增,使得运维压力越来越大。
刘洪涛告诉i黑马&数字观察,企业一方面享受着数字技术带来的创新成果,一方面却又有意无意的忽略了IT自身的潜在风险,不能在IT出现问题的第一时间发现,并作出有效应对。
首先,从C/S架构到B/S架构,再到移动化的APP和小程序,加上云计算、物联网、边缘计算等技术的应用,企业IT架构越来越庞大,运维工作变得越来越复杂。
“一直以来,IT部门的职责局限于维护系统的稳定运行,鲜少与业务运行指标挂钩,当业务出现波动后再从海量日志、监控数据中排查原因,往往已经造成难以弥补的损失。”
其次,庞大的数据量也是运维工作面临的巨大挑战。很多大型企业的服务器数量就达到上万台,每时每刻产生海量的数据,这些数据里还藏着大量关键信息,比如某系统的日志数据不正常,可能造成未来数小时整个业务流程的缓慢,甚至中断。
第三,过去受限于技术和人力等方面原因,IT系统一旦出现故障,需要手工排查问题,效率非常差。
“科技进步推动IT从标准化、自动化向数字化、智能化转变。如此高速发展、竞争激烈的经济环境中,企业必须重新审视IT与业务的关系,否则就会被行业领先者和互联网创新企业所淘汰。
与此同时,IT运维的角色正在发生根本性转变,从默默无闻的支撑者变成业务运行不可或缺的赋能者。而智能运维(AIOps)作为AI、大数据技术与IT运维融合的产物,也成为传统企业数字化转型的必然选择。”
智能运维是理念和策略,数据是基础
2016年,Gartner首次提出智能运维(以下简称AIOps)概念。
在Gartner的《Market Guide for AIOps Platforms》报告中对AIOps做出了定义:AIOps平台是结合大数据、人工智能(AI)或机器学习功能的软件系统,用以增强和部分取代广泛应用的现有IT运维流程和事务,包括可用性和性能监控、事件关联和分析,IT服务管理以及运维自动化。
总的来说,与传统IT运维相比,智能运维具有无可比拟的优势。过去受限于技术和人力等方面原因,IT系统一旦出现故障,便需要大量资源手工排查问题,效率非常差。
智能运维不但有效减少告警的误报率和错报率,通过交易链自动追踪和故障根因分析,帮助运维第一时间发现问题根源,并把故障的排查和修复时间缩短到数个小时。
举个例子,一家大型企业可能有数百套IT系统,过去,出现故障后,如果依靠人力逐一排查,大概需要一周的时间。而使用智能运维平台,不但有效减少告警的误报率和错报率,通过交易链自动追踪和故障根因分析,能够把故障的排查和修复时间缩短到数个小时。
在刘洪涛看来,智能运维并不是一个全新的理念,而是IT运营分析/运维管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。
AIOps智能运维平台以ITOM/ITOA系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。
前几年大家对AIOps争论非常大,都在讲自己对AIOps的定义与理解,以及接下来AIOps发展方向。当时对其争论的方向有这几个:第一类,AIOps是自动化运维,就是我们要把Ops消灭掉,通过自动化运维方式,用机器去取代人。第二类,利用智能化的手段,替代高重复性的工作,全程自动化、智能化操作。
第三类是我们理解的AIOps,AIOps的核心在于企业解决的不是运维的问题,而是如何提高运维效率,解决如何支持业务的问题。
“对于AIOps,我们的观点是,第一,与其说AIOps是产品,不如说这是一种理念和策略。通过以数据为基础,场景为导向,算法为支撑的AIOps平台,为企业现有运维管理工具和管理体系赋予统一数据管控能力和智能化数据分析能力,全面提升运维管理效率。
第二,现阶段AIOps的目标不是NoOps,而是BetterOps,通过更高效的运维帮助企业快速洞察人力难以企及的故障和问题,准确预测风险,化被动运维为主动运维。
可以这么理解,企业IT运维服务商,要帮助企业客户把运维问题消灭在内部,让使用者还没有发现问题之前,运维系统已经把问题解决掉了,感受不到运维的存在,做到无感知的运维。就像我们在使用微信一样,我们不会感觉微信背后有一个运维团队存在,虽然它偶尔会出故障,但极少,他们的运维的工作做得非常多,才能实现这点。
第三,AIOps的基础是什么?我们认为是数据。“因为AIOps需要收集企业内部系统、外部系统、第三方的各种数据,汇集到一起,通过AI的方式进行分析和处理,帮助企业运维人员用正确的运维动作和管理方式,提升整体的运维效率。”
总的来说,把日常的IT管理工作移交给拥有机器学习和自动化运维能力的智能运维平台,大大降低企业管理的时间成本和人力、资金投入。
而运维管理人员也可以从筛查海量告警信息、执行重复性巡检任务、人工判断故障、手动解决问题的低效工作中释放出来,专注于构建更加高效、高扩展的IT系统,支持企业的数字化业务发展,这也就是业界所倡导的“IT从运维到运营”之路。
AIOps智能运维平台还能有效预测潜在的IT故障,并在无需人为干预的情况下提前解决掉这些问题,而应用系统故障率的降低,将有效提高云计算资源的使用效率。这得益于机器学习和深度学习算法在IT监控和应用性能管理系统中的持续积累,不断记录IT运维人员在不同场景下使用故障排除或修复基本问题的自动化工具的操作。
刘洪涛认为,企业采用AIOps的能力不仅取决于IT监控系统的数据规模和自动化系统的可用性,还取决于人员和流程的一致性。
服务商可以在很短时间内把AIOps智能运维平台部署到企业,但是任何管理转型都不是安装一套系统那么简单,需要根据业务特点对人员和流程进行调整,而这往往需要更多的时间。
那么,一个完整的AIOps智能运维平台具备哪些要素呢?
刘洪涛指出,首先,这个平台要具备完整的数据采集和数据处理能力,可以收集企业的多维度数据,并且聚合到一起,这是基础。
其次,在具有海量数据基础之上,平台要具备AI能力,这个能力不是随便一个算法就能解决的,是针对运维领域的算法能力。
第三,就是对客户的业务要有充分和深度的理解。“我们知道,不同的行业,不同的公司,业务属性都不同,服务商需要依据客户的具体业务和应用场景,提供最佳实践的解决方案,而不是一个标准化的产品。
基于此,我们要了解不同行业的特性,不同企业客户的业务,对其业务要有深度的理解,进而针对他们的需求,提供个性化解决方案。
总的来说,我们的目标就是,一方面,要追求解决方案的标准化,要把很多需求做到模块化,方便客户调用。另一方面,对客户的业务要有深刻的理解,针对不同的客户,提供不同的模块产品组合,满足其业务需求。”
基于对客户的理解,从单一产品到解决方案延展
i黑马&数字观察了解到,2009年的时候,很多中小互联网企业的监控能力有限,Zabbix、Nagios等绝大部分监控工具提供的都是内网监控,只能监测内部服务器的运行状态,当外网出现问题或监测服务器宕机了,就无法收到任何告警信息,往往要等愤怒的用户打来投诉电话,运维工程师才知道网站或服务又不可用了。
云智慧看准时机,面向中小型互联网用户推出主动式拨测的网站监控SaaS服务——监控宝,这是一个简单、易用,基于外网监控的工具,它不需要有过多的投入,就能迅速发现问题。监控宝恰好满足了当时网站互联互通的需求痛点,用户增长相当快,2014年用户已达18万。
虽然监控宝做得非常成功,但是,大部分客户都是小微企业,付费意愿不强,无法满足云智慧进一步发展的需求。再加上,2014年移动互联网的爆炸式发展,行业对APM的需求日趋火爆,云智慧顺势推出了APM应用性能管理平台透视宝。
“当时我们发现,基础监控是客户最底层、最基础的运维需求,再往深入的看,就进入代码层面,叫应用监控,这就是后来我们所说的APM。”
据悉,APM和监控宝很大的不同在于它能够服务大中型企业,解决的是复杂的IT系统性能问题。当时有三家公司同时进入这个对技术门槛要求很高的领域。
也就是说这个方向比原来的更有价值,客单价也从原来的一年几千块变成了几十万。因为APM满足了大客户的需求,而且大客户都是有预算的。
随后,云智慧又根据互联网规模化发展的需求推出了另外两块业务,压测宝和天机数据。其中天机数据聚焦政企大数据方面的应用,通过搭建大数据平台,进行即时数据分析,提供业务发展和商业决策依据。
但是,i黑马&数字观察发现,当时市面上的几家APM厂商过得都不太好,要么宣布转型,拓展新业务,要么就是创始团队退出,公司名存实亡,一时间APM被唱衰的论调此起彼伏。
“我们这几家厂商从APM角度切入市场的战略是没有错的。随着企业系统复杂度越来越高,而IT对业务的支持或者业务对IT的依赖度也越来越高,这样客户对故障率、稳定性的需求愈加明显,而APM就是能够解决这些问题。
像BAT这类大型互联网公司,自己做APM这件事很久了,没有靠外面的一个产品或体系来做。因为一个互联网公司从底层架构开始搭建到整个代码开发完全都是自己的,所以对他们来说,自己去做APM是一个很自然的事情。”刘洪涛说道。
为什么后来大家都转型了?
刘洪涛进一步解释道,一年IT预算几千万甚至是上亿的大企业,需要的是完整的解决方案,而不是一个工具化的产品,而APM并不是大型企业的刚需。而且做一个大客户整个的销售过程是很漫长的,从挖掘客户需求到达成合作、签订合同、实施,半年时间过去了,同时还要有丰富经验的客户服务团队才能做这种事。
几十万,很显然,投入产出比不合理。这和中国APM市场的渗透程度有关:大客户不愿意买工具类产品,用什么产品他们不关心,他们关心的是解决问题。总而言之,客户对于故障分析这类问题的痛点是存在的,但客户并不想去买一个工具性的产品。
“当时我们赛道的几家都是看到市场有需求,才进来的,但后来我们也都发现了客户不想要单一的APM的工具这个问题,这一点和美国那边做单一APM产商活的很好的状况不同。美国客户是习惯购买单一工具类产品,因为他们的IT成熟度高,IT架构也比较清楚,客户技术水平也高,而中国的客户并不希望是买标准化工具。
就是因为我们这几家都看到这个问题了,所以各自选择了自己的下一步该怎么解决客户问题的方向,发展到今天,大家的道路不同,结果也是不同的。”
经过思考,云智慧开始转型,从单一的工具开始向一体化解决方案升级,目标客户定位开始向中大型企业延展,云智慧认为,只有这部分客户愿意为业务运维一体化解决方案买单。在此基础上,云智慧针对传统行业客户和互联网客户,提供了差异化的产品和解决方案。
互联网客户的技术能力较强,对业务运维服务需求不大,更偏向于工具性服务,因此主打工具类产品即监控宝和透视宝。传统行业客户需要综合性问题的解决方法,对这类客户,云智慧直接提供业务运维解决方案。
谈到云智慧的每次转型升级背后的思考逻辑时候,刘洪涛指出,云智慧的基因来自对客户业务和需求的理解,也是我们一直以来追求的。无论是初创阶段做监控宝,还是转型做APM,或者又升级做业务运维,智能运维,我们始终围绕的是客户到底要什么,我们做对客户的业务,对客户需求的深刻的理解。
基于这些理解,我们开始思考,到底做什么样的东西才能够满足客户需要。同时,云智慧也有自己的技术能力,把想做的东西通过技术做成产品化的东西,再落地。
“一直以来,我们对客户的现状和未来有深度的思考和理解,对IT行业有深度的思考,同时又有技术能力去实现我们这些想法,帮助客户解决问题。”
围绕上述思考,云智慧提出了智能运维实施的三阶段战略,第一,数据为先,在这个阶段实现企业IT数据的完整采集;第二,初步智能化,帮客户发现业务与IT的关联关系,实现业务全链路追踪和根因分析;第三,高级智能化,用AI帮助客户解决更有前瞻性的问题,包括故障预测、容量规划等。
概括来讲就是,云智慧通过智能业务运维DOCP平台,利用大数据和人工智能技术,以实时大数据处理、AIOps技术体系为基础,由轻量级、低入侵、松耦合的一体化监控、业务运维和智能运维解决方案,以及IT性能监控、应用性能管理、业务效能分析等应用模块为支撑构成一体化的数字化运维中心平台。
这样一来,企业客户可以通过业务运维可视化大屏,找到亟需解决的IT问题,持续提升业务运营和IT管理效率。
DOCP是一个运维监控管理和大数据智能分析平台,通过构建起支持数字化业务指标体系,可以全量采集不同数据源的IT性能数据、告警信息、业务指标数据,利用大数据技术对海量数据进行梳理、规范和关联,利用机器学习、深度学习等AIOps方法体系实现根因分析和故障溯源,准确评估系统异常对业务造成的实际影响,实现监控、分析、发现、告警等数字化运维环节的高效管控和业务与IT数据的双向驱动。
自从2016年云智慧推出智能业务运维DOCP以来,已经陆续在银行、保险、证券、零售、制造、航空等多个行业的不同应用场景落地,并获得了用户的一致认可。
以金融行业为例,Fintech的发展推动传统金融机构加速数字化转型,利用AI、大数据、区块链、物联网、生物识别创新技术,重塑自身业务模式、内部流程和决策管理能力,满足业务增长的需求。
而互联网金融业务的持续增长,传统以稳定可靠为先的IT管理模式和运维服务流程难以满足个人消费者互联网级的用户体验需求,因此需要更加精益、敏捷的新一代运维管理解决方案。
针对金融行业的需求特点,云智慧推出全栈智能运维解决方案,以数据为基础,场景为导向,算法为支撑,面向双态IT系统构建全栈统一监控平台,实现竖井系统的数据连通;基于机器学习的跨系统调用链监控与追踪,准确分析业务波动根本原因;依托PB级大数据能力,实时处理网络、APM、日志数据,实现面向事件的异常检测、根因分析、故障预测和智能告警,有效降低MTTR;围绕业务目标,实现业务与IT的统一健康态势可视化,支撑决策。
在最后,刘洪涛坦言,云智慧从网络监控工具到一体化智能运维解决方案的过程中遇到很多困难与挑战,“首先,从团队自身的迭代就是很大的挑战。我们原来的产品经理是做简单产品的,现在他要提供复杂的解决方案;前端的售前,原来是产品销售型变成解决方案型的售前;整个公司的客户服务流程或者业务流程也会发生很大的变化。
其次,单一的Saas产品销售是很容易的,客户需要签了合同,开帐号用就好了,但现在变成解决方案了,交付流程就变得很复杂,需要和客户讨论实际情况是什么样,我们需要根据客户的实际情况,提供相应的解决方案,而且还要让这个方案落地。
而且当解决方案在在客户那里上线以后,使用的过程中还会遇到各种问题,需要帮助客户迭代升级维护。所以对于公司整体运营来说,挑战非常大的。”