Resilient by Design: Building Reliable Workloads on Azure

Azure Service Groups

Resilient by Design: Building Reliable Workloads on Azure

Chris Ayers

Chris Ayers

Reliability

Why Reliability Matters

Understanding Reliability and Resiliency

FAILURE IS ALWAYS AN OPTION

Reliability Levels

How Do We Measure Reliability?

Understanding RPOs and RTOs

Business & Non-Functional Requirements Layer

From Intent to Quantified Reliability

Requirements: Resilience & Recovery

Identify & Rate User and System Flows

Flow Identification

Criticality Classification

Operational Readiness

Keep It Simple

Trade-Offs

Azure Well-Architected Framework

Microsoft Azure Well-Architected Framework Pillars

Reliability Trade-Offs with Other Pillars

Architecture Layer

Structuring for Failure Containment

Dependency Management

Map Your Dependencies

Mitigation Strategies

Failure Mode Analysis (FMA)

Proactive Identification

Effective Mitigation

Single Points of Failure (SPOFs)

Understanding SPOFs

Mitigation Strategies

Active-Active vs. Active-Passive

Infrastructure / Platform Layer

Foundation for Consistent Resilience

Azure-Customer Shared Responsibility Model

Your Reliability Responsibilities

Azure Regions and Regional Strategy

Region Selection Criteria

Multi-Region Considerations

Azure Availability Zones

Types of Availability Zone Support

Zonal Resources

Zone-Redundant Resources

Data Replication: Storage Options

Scaling Strategies

Azure Reliability Services

Traffic & Load Balancing

Backup & Recovery

Software / Workload Layer

Runtime Resilience Behaviors

Resilience Patterns

Async & Event-Driven Patterns

Azure SDK Resiliency Best Practices

Built-in SDK Features

Your Responsibilities

Operations & Observability Layer

Detect, Respond, Learn

Safe Deployment Practices

OpenTelemetry

Metrics & Error Budgets

Load Testing

Key Benefits

Implementation

Chaos Engineering

Core Principles

Key Azure Scenarios

Disaster Recovery Strategies

Validating Resilience

Why Validate?

How to Validate

Incident Response & Continuous Learning

Governance & Enablement Layer