华为技术有限公司 章异辉 中国移动集团公司 艾兴华
【摘要】动环监控系统是站点与机房运维必备工具,投资巨大,但长期受数据准确性低、系统不智能困扰,运维效率提升并未达到预期。由于动环监控系统在基础设施投产后再现场集成,工程属性是制约动环监控系统应用效果的根因,用户、系统提供商、集成商三方利益或声誉受损。智能营维整体解决方案,将现场集成系统产品化,实现安装即部署、上电即上线,不但数据准确性有源头保障,还可以通过预警、预防性维护等智能化手段提高动力与环境系统营维效率,实现参与方多赢。
【关键词】动环监控,整体解决方案,预防性维护,高效运维,智能营维
一.投资巨大的动环监控应用困扰
从1995年中国电信部署第一代动环监控系统起,通信局站开始从有人值班走向无人值守。经过20多年发展,动环监控已经成为中国三大电信运营商和中国铁塔公司动环专业普遍采用的管理手段,累计投资超过200亿元,运维效率显著提高,走在全球通信运营商前列。
然而,目前动环监控系统应用层次仍然偏低,尚处于初级阶段,主要使用了告警提醒、数据查看等基本功能,数据挖掘、智能分析、管理支撑等深层次应用基本还处于摸索阶段。而且在长期的应用中,由于各种原因,导致动环监控存在以下问题:
1、通信协议不匹配:通信电源、空调设备品牌和类型多、型号杂,版本更新快,导致通信协议版本很多,管理比较困难。在动环监控系统建设时,由于下站成本高、工程人员素质和责任心参差不齐等多种因素,导致实际配置的通信协议匹配度偏低,往往只能解析出极少量关键数据。
2、监控测点遗漏多:主要表现为关键测点不按照合同要求安装,验收时只求侥幸过关。另外,通信电源、空调设备出厂时并未完全满足国家和行业相关规范,甲方也难以提出精确的要求,导致重要测点数据缺失,如某公司在检查时,曾发现交流电压缺失率高达10%。
3、数据丢失很严重:在站点、地市监控中心、省公司监控中心、网管中心、集团公司等各个层级之间,均存在数据丢失现象,给上层管理造成误导和困难。从调查情况来看,有些地市和省公司平台之间的告警数据丢失率超过10%。造成数据丢失的具体原因包括接口协议设计不完善、下层人为屏蔽等。
4、告警信息不规范或错误:主要体现在硬件误告警、告警对象配置错误、告警门限设置不当、告警级别设置错误、告警延时配置不当等。如某公司因为采用湿拖把清洁,导致水浸告警频繁产生,误告警率超过50%以上。此外,由于火灾带来的危害往往极大,烟雾探测误告警也给维护人员带来极大困扰。
5、告警量大分析难:动环监控告警数量大,往往让监控分析人员望而却步,现场维护人员疲于奔命。从调查情况来看,各省每月产生的告警量超过100万条,其中持续时间少于1分钟的告警量占比30%以上,而比较重要的告警量占比不超过10%。如何快速、有效地对各种告警深度分析和维护预警,还处于摸索阶段。
二.工程属性是制约动环监控系统应用效果的根因
与产品化的设备不同,动环监控系统出厂时仍是散件,包括采集器、传感器、摄像头、电池监测设备、空调控制器、智能电表、门禁系统、通信设备等,需要到现场进行工程安装、集成、调试与系统联调,不但对工程人员技术水平要求高,而且需要严格的工程管理,避免由于工程条件、安装经验、工作责任心不同及偶发因素影响产生的问题。但是,如果全部采用高水平、有经验的技术人员,安装调试人力成本将比肩动环监控系统硬件采购成本。在实际工作中,现场工程交付团队存在低学历化、非专业化趋势,有的甚至直接由交付专业性较差的第三方完成,更多问题由此产生。
对于动环监控系统来说,工程、运维人员属于弱电专业,而管理对象如通信电源、交直流配电等均为强电,而空调等又属于暖通专业。在跨专业人才普遍鲜有的情况下,靠工程规范难以约束施工人员行为,其结果是现场的工程问题触目惊心。例如,交流电缆并未从互感线中心穿过、检测机房温度的传感器位置不当、检测是否市电停电的变送器接在ATS后方、传感器通道配置数据错误等,监控系统检测信号与实际不一致问题比较常见,严重影响运维人员对现场情况的真实判断。
动环监控系统厂家都会提供或多或少的智能功能,正常情况下,也可以通过配置参数、公式等实现很多有价值的预警功能,而这些功能也是吸引用户投资的关键。然而,软件功能的实现离不开现场复杂的配置、大量的测试和精细的开发。往往,在采购阶段,这些工作量和费用是很难明确的,只能依靠交维后由用户自己配置,而最终的结果是几乎很少得到应用。
由于站点数量众多,小站普遍未纳入动环监控系统,宏站和局用机房虽基本覆盖,但严格的验收测试无法覆盖全网,只能简单验收,包括能看到设备数据、重点告警可以上传,实质上是带病入网,交维后误告警专项整治工作难以避免,质量差的工程甚至导致监控系统不可用。笔者曾在企业内刊发表《论动环监控工程界面定义标准化对系统提供商与运营商的双重价值》一文,试图通过将动环监控合同分解为基本监控和监控网优两部分,通过改良手段帮助用户获得可用、可实现智能功能的动环监控系统。然而,由于工程属性实质没有改变,最终并未成功。动环监控需要去除工程属性,从改良到变革。
三.站点能源整体方案可以实现上电即上线
通信站点的基础设施包括机房或机柜、电源、电池、FSU等,带网管的站点能源整体方案目前正成为发展趋势,在室外型站点体现更明显。不论是室外型还是室内型,站点能源整体方案如同“冰箱”产品一样,由供应商提供整体设计、制造、测试、运输,可以像组合家具一样,在现场按图纸组装,能够适应各种复杂安装场景,如高山、屋顶站点等。而整体设计、出厂前测试,相对于现场集成站点来说,具备天生的可靠性优势。例如,“冰箱”站点在设计阶段就会将温度传感器部署于能代表内部温度的位置,并在测试环节验收,不会产生温度不具代表性或误告警问题。现场组装不同于现场集成,不需要调试,上电即可监控是“冰箱”站点显著特点,在站点侧解决了现场集成相关的工程问题。

图1:新建站带网管一体化集成方案示意图
新建宏站可采用“冰箱”站点,存量站监控仍需要部署FSU和传感器,但可以全面采用无线传感器,使传感器可以自动发现、自动配置,减少信号错误监测。同时,FSU预装智能设备驱动程序,在监控系统研发阶段就已经优选和选化智能设备信号,避免工程人员现场配置。

图2:存量站无线传感+预集成智能设备协议整体方案示意图
小站需监控的对象、信号少,但由于传统模式下动环监控系统设备与工程总投资与宏站不相上下,过高的投资导致现网小站极少被纳入到动环监控系统中,对小站的管理仍然粗放。随着网络纵深发展,小站承担的业务占比越来越大,小站电源系统也需要纳入到统一的管理平台中。新建小站或扩容小站,采用与主设备匹配的刀片式电源可实现免工勘快速部署,更需要上电即上线,尽量减少工程质量的问题,降低下站费用的占比。图3是带网管预集成小站整体方案示意图,通过带内通信,运营商可以以较低的成本实现实现统一集中管理。对于共享站,铁塔公司也可以选择带外通信,实现带网管整体部署。

图3:带网管预集成小站整体方案示意图
网管系统预集成智能预警、调度与管理功能,让智能功能在系统设计环节实现,如维护提醒、严重故障预警、片区预防性维护、片区应急发电调度、TopN短板站点管理、能效优化指令、KPI报表等。智能功能在出厂前经过充分测试,不需要在部署时做相关的数据配置,用户获得与设计功能一致的可用系统,能否智能营维,是整体解决方案供应商追求的设计目标。

图4:传统方案与带网管整体交付的站点能源系统对比示意图
四.整体解决方案可以实现站点智能营维
目标可衡量、可管理是专业良性发展的基础,管理系统成为各专业必备工具,动环专业也不例外。通信主设备都带有独立的网管,全网可视、可管理。采用了动环监控系统后,网络能源设备运维模式与主设备是类似的,通过网管发现问题与薄弱环节进行改进,改善KPI。带网管按网部署是主设备标准模式,网络能源也需要带网管整体部署,才能使智能管理功能按设计实现,通过智能营维推动能源基础设施网优,保障供电可靠、节能降耗并提升运维效率。
预防性维护保障供电可靠:预警是预防性维护的基础,在线侦测易损件工作参数并进行寿命预测是可以设计和测试验证的功能,易损件包括如蓄电池、电解电容、风扇等。以电池预警功能为例,运维团队获得不同站点电池预警信息后,可根据站点重要程度、地理位置、历史停电概率、电池剩余备电时长、应急发电保障能力等因素,进行批量维护或调整油机调度策略,不但能预防停电后来不及应急发电导致的网络中断,还能降低维护成本,并避免应急发电太迟导致电池过放缩短寿命。
能效管理促进节能降耗:通过管理系统准确地提供站点能效数据,对站点能效进行排序,通过聚焦低能效TOPN站点及高能耗设备整改,精确投资,不断消除低能效站点,逐步提升全网能源效率。
自动代替人工提升营维效率:由于人工成本持续上升,系统设置与控制工作将由现场人工方式转变为远程自动方式,如人工下站进行的电池测试工作由电池健康度智能上报代替,由于雷击和浪涌引发的设备误跳闸由远程复位代替,依据电池健康度调度应急发电降低应急发电成本等,更多的智能功能将因为效率提升不断强化,智能化特性将直接转化为用户价值。
五.方案选择从整体、部件到整体轮回
站点能源主流方案一开始就是随主设备整网交付,并由主设备网管系统进行管理。把电源等配套设备从主设备中分离出来,按不同设备类别采购,大幅降低了采购成本。十年前开始的电源集采,成功地将通信能源行业打进了低价时代,同时也让供应商不断挑战行业底线,产品质量参差不齐,动环监控由于数据准确性及功能限制难以充当仲裁角色,带网管的智能营维整体解决方案提供整体质量保障,是当前阶段可以优选的方式。如同计算机行业经历的品牌整机到自己攒机再到品牌整机的轮回一样,整体解决方案将成功轮回,在守护用户利益的同时,也守住行业底线。
当前用户正在考虑或已启动FSU标准化以打破动环监控供应商在本地网范围内的垄断,自然会对带网管整体解决方案是否垄断存在担扰。在物联网、云化快速发展的今天,不但网络扁平化发展,应用也在扁平化发展。整体解决方案并非一定要成片部署,插花部署是常态。存量供应商将新部署的站点接入到相应的网管系统中,新供应商在部署站点的同时部署针对全网各插花站点的网管系统,按整网验收,供应商为用户提供整体保障。当A供应商提供的某个站点表现不佳、不能满足用户需求时,用户可以直接根据合同由B供应商替代,该站点在A供应商整网中删除,B供应商自行决定更新或优化该站点设备,使该站点达到KPI要求。存量站点接入成为整站方案的报价项,用户只需为站点KPI买单,而不是单纯为设备买单。
六.管理更全面、更智能是整网解决方案未来方向
运营商已经走过从自维、维保到代维的演进过程,随着中国铁塔成立,能源代维已经走向能源租赁。运营商正面临数字化转型,未来整网租赁也将成为可能,站点基础设施整体解决方案将包含主设备,通过统一的大数据平台运营和维护。
大数据平台包含站点所有资产信息、资源信息、运行历史数据、实时数据、业务数据等,获得授权的企业甚至个人参与大数据挖掘,开发相同或不同的APP应用。例如,电池厂家为了让电池精准适配应用环境,针对电池、电网、温度等数据进行挖掘,推出在网蓄电池管理APP;维护队伍为了防止停电断站,针对电池、电网、移动油机、应急发电历史数据、业务备电需求等进行挖掘,推出蓄电池性能预测APP。随着应用不断深入,类似功能的APP性能将出现交替领先现象,APP功能越来越符合使用者需求。
更全面的整网解决方案与大数据平台组合,营维更智能,设备商、服务商、运营商、塔商都将从中获益,最大化运营效益。
---------------------------------------------------------
免责声明:
1.本文援引自互联网,旨在传递更多网络信息,仅代表作者本人观点,与本网站无关。
2.本文仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。