1、首先应该想方设法通过让系统变得更加稳定可靠,摆脱被动救火的局面。可靠之后,就要全力以赴去解决效率问题,让运维工作变得更加高效,让系统变得更加高效。

2、运螗徇吼笊维提升过程中应该抓好一下关键点——资源管理:从底层的基础设施,到上层的应用代码,都要进行合理的组织和管控。容错管理:故障不可怕,重要的是能快速及时的修复故障,让用户无感知的屏蔽故障。决策调度:端到端全流程监、管、控。

3、腾讯的L5系统,可以理解为一个加强版的智能DNS,可以实现监控、灰度、容错、路由和负载均衡的能力,对于支撑故障处理,提升运维效率,起到了至关重要的作用。

4、建立统一框架体系,实现网络框架和业务逻辑分离,使框架稳定性大幅提升,运维人员学习成本大幅下降,可以跨业务统一维护,大大提升集中运维的效率。

5、具备决策调度能力的自动化部署平台,从申请设备资源、分配资源、部署程序、验证测试、正式上线实现全流程自动化。
