精通
英语
和
开源
,
擅长
开发
与
培训
,
胸怀四海
第一信赖
宕机一般是指操作系统故障不能工作不能服务,也指某些关键业务服务掉线崩溃处理不了客户请求,这两种都是致命的问题,会严重影响业务和收入。
锐英源软件接触了很多客户,自己也是运营多年,对于宕机故事能讲出来不少,边讲故事,边讲宕机经验。
有个大客户,业务顺利,就受嫉妒,中了勒索病毒,服务器机器启动不了,这是典型的宕机。遇到这事也不用慌,有制造病毒的就有解病毒的,千万不要生气上火,焦点放到解决问题上才行。
锐英源软件的网站有一段时间比较风光被人盯上了,被敌人用了大量请求攻击,导致CPU很高,网页打不开,让阿里云查了日志,然后被迫重启。有些大型网站必须要有安全团队,或者至少要买一家大公司的安全产品,这样网站会减少宕机风险。
动态的网站被攻击手段很多,我认识一家郑州公司,政府给的有补贴,是以前大型资源网站的安全团队遗留下的成果,资源网站没了,但是安全团队存活下来,办成了公司,在中原地区客户还不少。
郑州铁路局下面一个仓库,一个监控系统保存数据到SQLSever数据库,长时间保存,让硬盘满了,系统运行不起来,锐英源软件到现场进行了历史无用数据删除,释放了大量空间,让监控系统从宕机状态变成了可用状态。
2022年给国企开发项目,项目运行非常稳定,没有宕机,但是因为用的是国企的局域网,局域网的IP分配非常紧张,项目设备的IP和原来的设备冲突,不过这类冲突不会导致网络环境的宕机,因为个数有限,路由器的安全机制能够屏蔽问题,但是冲突的IP太多,让路由器设备的CPU过高,还是会受影响。
大公司的核心骨干服务器非常害怕宕机,以前在河南联通机房,在小型机上做Unix开发,这些小型机一台几百万,上面运行的业务万万是不能影响的。开发时甲方给专用的时间段,安排专人盯着,不让乱安装软件,连编译器gcc,g++都不让安装,当时开发心情非常忐忑,不过最终完成了任务。
本月,锐英源软件的大客户优化了操作系统环境,让核心业务从5*24小时安全运行,提升为至少7*24小时不宕机。一般通过网络通信进行的业务,都要优化操作系统,不能只优化软件,软件不泄露资源,但是操作系统可能接受不了极端的通信环境,所以要优化操作系统。