Amazon Web Services(AWS)解释了https://www.zdnet.com/article/aws-outside-impacts-数千-online-services/“>上周三的大范围停电,影响了数千个第三方在线服务数小时。
而数十个AWS服务受到影响,美国焊接学会说,这次停电发生在美国东部弗吉尼亚州北部地区。它是在其前端Kinesis服务器群中“少量增加容量”之后发生的。
Kinesis被开发者使用,以及其他AWS服务,如CloudWatch和Cognito authentication,要捕获数据和视频流并通过AWS机器学习平台运行它们。
请参见:IT数据中心绿色能源政策(TechRepublic Premium)
Kinesis服务的前端通过数据库机制处理身份验证、节流,并将工作负载分配到其后端“工作马”群集称为分片。
第一个警报是在太平洋标准时间凌晨5:15触发的,AWS工程师在接下来的五个小时里试图解决这个问题。Kinesis在太平洋标准时间晚上10:23完全恢复。
Amazon解释了前端服务器如何在其Kinesis后端分发数据:“前端机队中的每台服务器都维护一个信息缓存,包括后端群集的成员详细信息和碎片所有权,称为碎片映射。”
根据AWS,这些信息是通过调用提供成员资格信息的微服务、从DynamoDB检索配置信息以及对来自其他Kinesis前端服务器的消息的连续处理来获得的。
“对于[Kinesis]通信,每个前端服务器为其他每个服务器创建操作系统线程在前线舰队。一旦容量增加,已经在运行的服务器组成员将了解到新服务器加入并建立适当的线程。任何现有的前端机队成员都需要一个小时才能了解新的参与者。“
由于线程数超过了操作系统配置,前端服务器最终会出现“无用的碎片映射”,无法将请求路由到Kinesis后端群集。AWS已经回滚了触发该事件的额外容量,但对提高线程限制有所保留,以防延迟恢复。
作为第一步,AWS已经转移到更大的CPU和内存服务器,此外,它还减少了每个服务器在整个机群之间进行通信所需的服务器和线程总数。
它还在测试其操作系统配置中增加线程数量限制,并致力于“从根本上改善前端机队的冷启动时间”。
CloudWatch和其他大型AWS服务将转移到一个单独的,分区的前端舰队。它还致力于一个更广泛的项目,将一个服务中的故障与影响其他服务的故障隔离开来https://www.zdnet.com/article/aws-is-opening-yet-another-cloud-computing-region/“>AWS正在开辟另一个云计算领域,AWS也承认在事故期间更新其服务健康仪表板,但表示这是因为其支持工程师用来更新公共仪表板的工具受到了停电的影响。在此期间,它通过个人健康仪表板更新客户信息。
“对于此类事件,我们通常会发布到服务运行状况仪表板。在这个事件的早期,我们无法更新服务运行状况仪表板,因为我们用来发布这些更新的工具本身使用了Cognito,它受此事件的影响,“AWS说。
“我们要为这次事件给我们的客户造成的影响道歉。”
,“pageType”:“article”}>编程语言PHP8已经过时:这个新的JIT编译器指出了更好的性能
特斯拉的elon musk:为什么我们的新车型可以是欧洲设计的两厢车https://redventures.com/CMG-terms-of-use.html“target=”\u blan