图:软件服务商CrowdStrike出错导致“蓝屏事件”,造成众多采用Microsoft Windows系统的企业受到冲击,包括航空公司航班取消和延误。
上周五(7月19日),微软旗下部分应用与服务出现“蓝屏”问题,造成全球多项公共服务系统陷入瘫痪,被认为是有史以来最大的IT故障事件。起初外界误以为是微软的问题,后来证实故障源于软件服务商CrowdStrike的一次更新出错。
信息研究公司Gartner的数据显示,2023年CrowdStrike在安全软件市场的份额接近15%,全球排名第二。CrowdStrike自己宣称客户包括298家“财富500强企业”、前十大金融服务公司中的八家、前十大制造公司中的七家,以及美国43个州政府等。
“蓝屏事件”造成众多依赖Microsoft Windows系统营运的企业受到冲击。譬如,航空公司航班取消和延误,旅客无法入住酒店;医疗机构的运作中断,电子医疗纪录和在线诊疗服务中断直接威胁患者健康;金融行业的银行和金融服务公司业务中断,金融交易延误和数据丢失威胁全球市场稳定性。保险公司或需要为此支付高额赔偿金,而CrowdStrike也可能要面对一系列诉讼。
上述问题还只是冰山一角。受此次故障的影响,不少企业迅速启动灾难恢复计划,将数据从备份中恢复,同时确保业务的最基本运作可以持续。例如,一些企业启用手工记录,以确保交易和客户服务能够继续进行。这种回归到纸笔的操作方式,不仅降低了效率,还增加了出错的风险。
这次事件也让我们意识到依赖电脑系统的脆弱性,社会需要更加透明和有效的安全措施,以确保类似事件不会再次发生。笔者列出以下措施以供参考:
(1)系统更新需要慎重。这样可以避免因匆忙部署而导致的潜在问题,并给IT团队更多时间进行测试和评估。
(2)加强与网络安全公司的沟通。定期与合作的网络安全公司保持联系,了解最新的威胁信息和安全建议,从而及时采取相应措施。
(3)制定和测试灾难恢复计划。定期模拟可能的灾难情境,确保所有相关人员了解并能够迅速启动应急方案,以最大限度减少损失和恢复时间。
(4)培训员工,增强其应对意识和技能。提供定期的安全培训,让员工了解最新的网络威胁和防护措施,提高他们的应对能力。
(5)考虑采用更高效的系统架构,使用更精简的系统,或者物联网(IoT)设备等。
(6)考虑采用更多元化和去中心化的安全措施,以降低单点故障的风险。例如,分散数据存储和处理,可以减少因单一故障点导致的全面崩溃。
(7)提高系统冗余性,并加强内部流程的监控和审计。确保有足够的备援系统和监控机制,以便在出现问题时能够迅速切换和修复,减少对业务运营的影响。
港宜推进相关立法
“蓝屏事件”凸显了网络安全立法的必要性。香港特区政府已建议制定《保障关键基础设施(电脑系统)条例草案》,旨在提升关键基础设施营运者的网络安全水平。但仅仅依赖营运者在预防和报告方面的措施并不足够,我们还需要制定指引让营运者如何处理事故和进行恢复。借此确保在类似网络安全事件发生时,营运者能够快速有效地应对,减少损失和影响。
香港作为国际创科中心及全球金融中心,拥有海量高价值数据,推进关键基础设施保护法案是刻不容缓的。相关法案可以确保企业和公共机构采取必要的安全措施,减少网络的安全风险,从而保障社会的稳定和发展。
“蓝屏事件”事件主要是由CrowdStrike的一次软件更新引发,但对全球各行各业的广泛影响令人深思。
首先,即使是全球领先的安全公司也可能犯错,任何网络系统都不是百分之百安全的。也因此,企业与政府需要采取更加严格的预防措施,制定详细的应急计划,以应对潜在的灾难性故障。
其次,全球化与数字化互联衍生出的风险不可不察。全球企业之间的高度互联意味着一个区域的问题很可能会迅速蔓延并产生广泛影响。这种互联性虽然带来了效率和协作的好处,但也意味着风险的蔓延速度和影响范围比以往任何时候都更大。因此,企业应该考虑采取更加分散的安全措施,以减少单点故障的风险。
再次,该事件还揭示出现代社会对科技依赖的程度之深。几乎每个行业都依赖于电脑系统的运行,一旦系统出现故障,整个社会的正常运作都会受到严重影响。我们需要更加全面和灵活的应对措施,以确保在面临类似挑战时能够迅速恢复和持续运营。