前言:
随着银行业务形态的增多、体量的变大,系统规模快速扩大,系统每天产生的数据信息呈几何式增长,其中包括大量的客户数据、交易数据和运行数据等,它们具有非常大的潜在价值,也是大数据应用的基础来源。
这些信息数据量十分巨大,但却分散在各个中心服务器或者设备的不同位置,对运维数据的统一管理、监控、信息挖掘变得越来越困难,也使得运维工作量越来越大。
根据中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,结合当下监管部门对银行数据治理相关监督的指引,为提高银行竞争力,高质量快速完成数字化转型,将数据价值向资产化过渡,某行拟建设统一的运维大数据处理平台。优先选择从日志场景切入,精细化分析能力,打造场景化应用,实现全面可观测性,保障业务平稳高效运行。
一、低代码处简化数据处理流程
运维大数据平台的构建基于分布式高可用架构,满足容量随着业务需要动态扩展的需求;优化数据采集手段,实现对IT环境的实时数据采集以及集中高效的存储、查询、分析及可视化展示;
基于流批一体的数据处理技术,实现全局数据秒速查询。内置AI智能分析引擎,除了能够解决异常检测、异常定位及辅助故障定位等运维痛点问题外,通过数据建模和洞察还可以对系统进行综合健康及风险分析。
另外,平台对数据处理操作非常友好,用低代码的方式实现对复杂数据的处理,如交易数据的实时响应时间计算,需要从日志中提取请求及响应的时间,再根据交易特征进行计算和时间窗口聚合,类似这种复杂操作,只需要一条数据处理流就可轻松完成。
二、三个具体可观测场景助力数据处理
01.日志异常检测,助力根因定位
基于NLP技术对日志进行自动分类,可以在不用读懂日志本身内容的前提下,自动对日志进行解析并区分不同的日志模式,通过将相似的日志聚类在一起,可以有效地识别出日志中的变量和常量,从而得到结构化后的日志数据。
经过算法训练,以及聚类生成相对稳定的模板后,通过监控这些模板特征变化,可实现对系统运行情况的异常检测、故障预测、根因定位和辅助排障。
通过这种方式对日志进行监测,既不用消耗过多时间在日志内容本身的研究,可降低学习和维度成本,还可以提前对一些从未发生但可能发生的问题进行预测。待问题收敛定位后,可进一步查看日志上下文精准定位,再聚焦分析。
02.Logging中的Tracing,洞见交易串联分析
由于历史的原因,在没有改造日志规范的银行业务系统中,是没有统一交易的流水号来标识每一笔交易的。其中有些交易非常复杂,会从前端到网关、渠道、核心以及周边系统调用流转,一旦出问题很难定位排查。
面对这样的情况,首先通过提取交易特征变量,对日志中的交易进行端到端的串联分析,全链接自动识别交易的整个流程,使原本碎片化的交易追踪变得有序。
其次,通过对日志交易的链路识别、分析,将交易的发起至结束进行关联。再通过图形化展示界面,对各个环节进行不同的告警设置,实现跨系统统一查询全链路日志。
将每笔业务各阶段的数据片段进行串联,建立业务链路分析模型,聚合关键业务指标报送数据(日均交易笔数、响应时间、成功率等),统计分析业务瓶颈,掌握业务运行规律,能够极大地提升业务运维效率。
03.基于业务全景的风险分析观测
通过对运行维护中的日志数据进行全面自动收集、治理,再通过建立业务模型与实时数据关联,利用大数据洞察对业务系统做更全面、实时的分析,做到事前预测、事中管控、事后分析,加强不同阶段对业务运行的风险把控。
同时,在全局业务系统风险控制过程中,对业务系统的健康情况建模并从不同维度对业务系统健康风险进行评测,如交易运行情况、基础环境的稳定以及系统的健壮程度等。
对于多维度、多权重的决策,通过层次分析法建模,对原来主观判断的维度进行客观比对,通过衡量权重进一步科学地判定问题的影响程度,从而更准确评估系统风险。
本次案例是智能运维助力实现全面可观测性的一次成功落地实践,案例从两方面入手,一是事前做好各类型的数据链接、监控等,分层次,找关联;另一方面在观测到问题后能够快速评估问题影响,收敛问题并找到根因。
更多运维思路和案例我们将持续更新,敬请期待~
关注我们,更新不迷路~
私信发送“1”,了解擎创产品
发送“2”,获取原创案例
发送“3”,了解招聘信息
发送“4”,一键跳转官网
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择