尊敬的开发者,您好:
北京时间 2019 年 4 月 15 日,华北节点一个开发版应用的数据存储集群出现故障,导致一部分开发版应用以及数据存储还落在上面的个别商用版应用受到影响,以下为详细报告。
故障节点和影响范围
华北节点上数据落在该开发版存储集群上的开发版应用(也包括还在该集群上、尚未来得及迁移到商用版存储集群的个别商用版应用),全部服务都不可用,控制台登录也受到影响。
华北节点落在其他开发版存储集群上的开发版应用,以及绝大部分商用版应用,都不受影响。
故障时间
09:41 - 10:58(约 77 分钟)
故障时间线
- 09:41: 某一个开发版数据存储集群因为支撑应用过多压力过大,导致宕机,工程师立即介入处理。
- 09:51: 运维工程师优化系统配置后,立刻重启相关服务。因为数据量较大,重启的过程比较长。
- 10:58: 出问题的开发版存储集群重启完毕,该集群上的应用恢复正常访问。
故障原因与改进措施
在 LeanCloud 的后端,我们为商用版应用和开发版应用分别准备了多个存储子集群,各个子集群之间物理隔离,且商用版存储子集群全部配置了带 SSD 磁盘的高可用架构。本次故障的直接原因,是我们一个开发版存储集群因为压力过大出现宕机,理论上对商用版应用不会产生任何影响,但是故障发生时仍然有个别商用版应用没能及时迁移到商用版存储集群,其客观原因是:
- 底层数据存储系统的迁移是选择在业务低峰时段来定期执行的,因为迁移时会显著增大来源和目的两个集群的 IO 压力,为了不影响对外服务,我们严格限制了迁移操作的时间窗口,因此每天能够迁移的应用数量是有限的。
- 近期有较多用户选择升级到商用版,所以等待迁移的队列有点多,相比以前延迟有所增大。
因为我们的原因导致大家业务受到影响,我们非常抱歉!特别是那些没有及时完成数据迁移的商用版应用,我们会把这部分应用从升级商用版开始,到实际迁移完成之前,所有的商用版最低消费金额,以赠送的方式返还给开发者。同时,我们会采取一定措施来保证商用版应用被及时迁移至商用版存储集群,为此我们作出如下承诺:
- 应用升级到商用版之后,在 3 天之内完成迁移(例如 4/10 日用户升级价格方案,那么在 4/13 日之前我们会完成实际的迁移)。如果因为数据量大导致的流程问题,我们会提前单独和用户沟通。
- 如果您发现应用在升级 3 天之后没有迁移到商用版存储积存,可以联系我们索赔 900 元(相当于一个月的商用版最低消费)。
- 我们会在控制台增加展示应用存储系统的位置信息,便于开发者了解存储集群的变化。
以上承诺从今天开始生效,非常感谢您的监督和信任。