IT故障的定位、报警与识别恢复在智能监测运维实践中解决方法
IT故障的定位、报警与识别恢复在智能监测运维实践中解决方法像用SITEVIEW轻松运维一类的网管软件与IT运维管理系统来监测管理IT所有的资源、设备、环境。
预防问题远比解决问题重要;
解决问题的套路远比解决重要;
知道问题点的根源远比套路直接;
而最牛的就是能从运行的状态趋势中研判问题可能的发生的情况与持续向好的状态,或者降低问题发生临界点。
不可否认,这才是未来智能要推动IT管理技术革新的目标所在,这也是我用SITEVIEWITOSS这个软件之所见,愿朋友们也能用过之后有新的见解与收获。
围绕IT故障的几个解决途径来看一下我截的几张图,顺便组合了一下:
对于故障来说,首先要定位其发生的地方,也就是寻根问源了,如何找有几种方式,一是可以进行全天侯不间断的监控某个运行状态,达到预设的阀值就可以进行警报,另外根据运行的一个趋势来智能判断来或者智能响应主动去恢复故障,这个可以是根据以往人工操作的经验,从共享知识库或者机器从以往监测运维的大数据中分析得来,还有可以通过监测的系统日志、设备日志、业务应用系统的日志信息来分析获取有价值的信息和智能识别问题,如何智能识别,这其实就是监测运维的数据进行重复利用和深度挖掘的意思,有了数据才能做人工智能学习和智能报障,智能恢复故障的。
报警设置:
知识库:
日志信息采集监测搜索分析:
我之前也研究过,和楼主的结论不谋而合 楼主说得很有道理,很多地方都说到我心坎里了 这个问题值得好好讨论下 这个观察角度很新颖,打破了我之前的固有认知,引发了不少新的思考。 希望楼主多更新这类内容,真的很有帮助 文字里能看出来做了不少功课,资料和观点都很扎实,是用心完成的优质帖子。 没有复杂的术语,通俗易懂,新手也能看明白 我也有过类似经历,和楼主说的一模一样 楼主太厉害了,整理得这么详细,必须支持 用心整理的内容就是不一样,信息完整、逻辑通顺,已经推荐给同好一起看。 这些经验都是实战出来的,比网上泛泛而谈的内容靠谱太多,收藏了慢慢看。 关注这个话题很久,看过不少相关内容,你的总结算是最全面、最贴合实际的之一。 楼主辛苦了,整理这么多内容,必须点赞收藏 非常认同你的看法,逻辑清晰不偏激,这样理性的讨论很难得。 这个话题值得深入探讨,希望能看到更多后续 这个问题一直有争议,你给出的分析很客观,兼顾了不同立场,值得细品。 内容很干货,没有多余的废话,值得反复 分析得很透彻,很多细节都说到点子上了~
页:
[1]
2