关于Foursquare长达11小时的宕机的反思MongoDB当然值得尝试,但是不能冒进

前几天 Foursquare 经历了长达 11 个小时的宕机,没错,11 个小时。网站官方的解释是 Shard 负载不均匀造成后续的连锁反应。很多人都知道 Foursquare 在线的 DB 是 MongoDB,今天又看到 10gen (MongoDB的开发与支持团队)的 Eliot Horowitz在得到 Foursquare 许可后,通过邮件组详细介绍了宕机的过程:Foursquare outage post mortem,不用说,也有为 MongoDB 辟谣的意味在里面。

Foursquare昨天宕机11小时事件说明数据库Shards过载

昨天Foursquare服务器一共宕机11小时左右,这件事影响很不好,Foursquare知道,所以他们今天在博客上发布了一篇文章解释事故的原因并道歉,并且会防止此类事件再次发生。Foursquare的数据是均匀的分配到不同的数据库“shards”中,不知道怎么的,昨天早晨,事情开始不均匀起来,其中有一个分部被分配了比其他分部多的数据,他们试着去平衡它们,但是没起作用,所以他们打算新建立一个分部,然后杯具了。