AWS US-EAST-1 Bölgesindeki Hizmet Kesintisine Dair Resmi Açıklama ve Değerlendirme

Geçtiğimiz günlerde AWS altyapısında yaşanan büyük çaplı bir kesinti birçok global servisin (Fortnite, Snapchat, Alexa, ChatGPT vb.) kısa süreli erişim sorunları yaşamasına neden oldu. AWS bu olayla ilgili olarak “Summary of the Amazon DynamoDB Service Disruption in Northern Virginia (US-EAST-1)” başlıklı resmi bir açıklama yayınladı. Bu yazıya aşağıdaki link üzerinden ulaşabilirsiniz

https://aws.amazon.com/tr/message/101925/

Ben de bu blog yazısında, AWS’nin açıkladığı teknik detayları özetleyerek, olayın nedenlerini ve alınan önlemleri sizlerle paylaşmak istedim.

Olayın Özeti

Kesinti, 19 Ekim 2025 saat 23:48 (PDT) civarında başladı ve 20 Ekim 2025 saat 14:20 (PDT) civarında tamamen sona erdi.
Etki yalnızca bir bölgeyle (Northern Virginia / us-east-1) sınırlı olsa da, bu bölgenin AWS altyapısındaki merkezi rolü nedeniyle dünya genelinde birçok servisi dolaylı olarak etkiledi. Örneğin ülkemizde de pek çok platform çalışmadı.

Olay üç temel bileşeni kapsıyordu:

Amazon DynamoDB API hataları (19 Ekim 23:48 – 20 Ekim 02:40)
EC2 instance başlatma hataları ve gecikmeleri (19 Ekim 23:48 – 20 Ekim 13:50)
Network Load Balancer (NLB) bağlantı hataları (20 Ekim 05:30 – 14:09)

Gelelim herkesin merak ettiği soruya, peki böylesine büyük bir kesintiye ne neden oldu?

Kesintinin temel nedeni, AWS’nin altyapısındaki bir otomasyon hatasıydı. Bu hata, veri tabanı servislerinden DynamoDB’nin adres kayıtlarının (DNS) yanlışlıkla silinmesine yol açtı. Sonuç olarak sistem, ilgili servisleri bulamaz hale geldi ve bazı bölgelerde hizmet kesintileri yaşandı. Sorun, AWS ekiplerinin müdahalesiyle birkaç saat içinde giderildi.

DynamoDB’nin çökmeye başlamasıyla birlikte, bu servise bağımlı olan diğer AWS bileşenleri de etkilendi:

EC2: Yeni instance başlatma işlemleri başarısız oldu, mevcut makineler çalışmaya devam etti.
Lambda: Fonksiyon çağrılarında gecikmeler ve hata oranlarında artış yaşandı.
NLB: Sağlık kontrolleri yanlış sonuçlar üretince bağlantı hataları görüldü.
ECS / EKS / Fargate: Container başlatma ve ölçeklendirme işlemleri aksadı.
IAM, Redshift, STS: Kimlik doğrulama, sorgu ve token üretimi işlemleri geçici olarak durdu.

Benim yorumum nedir?

Her ne kadar AWS hizmetleri genel olarak yüksek erişilebilirlik standartlarına sahip olsa da, bu olay DNS otomasyonunun karmaşıklığının ve bölgesel bağımlılıkların ne kadar kritik olduğunu bir kez daha gösterdi. Bu tür olaylar bulut altyapılarında çok bölge (multi-region) mimarinin ve bağımsız hata izolasyonunun önemini hatırlatıyor. Bir Microsoft mühendisi olarak zaten biz de müşterilerimizin Azure projelerinde bu konuya özellikle değiniyoruz. Microsoft veya AWS veya Google çok büyük olsa da sonuçta kesinti olabiliyor. Bu nedenle bu kadar büyük operasyonlar için multi cloud şart. Tabi ki bu para odaklı bir konu, herkesin bu kadar bütçesi veya sistemlerini birden çok cloud ortamında çalışacak şekilde hazırda tutması mümkün olmuyor.

Eğer uygulamalarınız tek bir bölgeye bağımlıysa, bu tür kesintiler dolaylı olarak sizi de etkileyebilir.

Daha fazla bilgi için aşağıdaki linki okuyabilirsiniz;

https://aws.amazon.com/tr/message/101925/