Recuperando-se de falhas com AWS Step Functions Redrive: Uma Abordagem Eficiente e Econômica

Reduza custos e aumente a eficiência ao lidar com falhas em workflows com o novo recurso de redrive do AWS Step Functions.

Os desenvolvedores frequentemente utilizam o AWS Step Functions, um serviço visual de workflow, para criar aplicativos distribuídos, automatizar processos empresariais e de TI, e orquestrar serviços da AWS com mínimo esforço de codificação.

Com a introdução do recurso de redrive para workflows standard no Step Functions, é possível redirecionar a execução de um workflow falhado a partir do ponto da falha, sem a necessidade de reiniciar todo o processo. Este post irá guiá-lo no uso desse novo recurso, mostrando como pular etapas desnecessárias e reduzir custos ao redirecionar workflows com falha.

Tratamento de Erros em Workflows

Qualquer estado de um workflow pode enfrentar erros de runtime, que podem ocorrer devido a problemas na definição da máquina de estado, falhas em tarefas, permissões incorretas ou exceções em serviços posteriores. Por padrão, ao ocorrer um erro, a execução do workflow é interrompida. O AWS Step Functions permite lidar com esses erros por meio de tentativas de nova execução, captura de exceções e retorno a um estado pré-definido.

Agora, com a funcionalidade de redrive, você pode continuar a execução do workflow a partir do estado de falha, ignorando as etapas já bem-sucedidas. Isso acelera a conclusão do workflow e reduz custos. A execução pode ser redirecionada a partir do último estado com falha, utilizando a mesma entrada da última execução falha.

Retry vs. Redrive

O mecanismo de retry é indicado para problemas transitórios, como conectividade de rede ou indisponibilidade momentânea do serviço. Você pode configurar o número de tentativas, intervalos e taxas de back-off para que o workflow tente novamente completar uma tarefa com sucesso.

Para erros que exigem mais tempo para serem solucionados, o redrive é mais adequado. Por exemplo, se um serviço downstream estiver inativo por um período prolongado ou se uma intervenção manual for necessária, como atualizar um banco de dados ou ajustar uma função Lambda, o redrive permite que o workflow seja retomado após a resolução do problema.

Estratégia Híbrida: Retry e Redrive

Uma abordagem eficaz é combinar ambos os mecanismos:

  • Retry: Configure um conjunto inicial de tentativas para erros transitórios, garantindo que problemas menores sejam resolvidos rapidamente, sem atrasos desnecessários no workflow.

  • Redrive: Se as tentativas falharem, use o redrive para retomar o workflow a partir do último estado com falha, permitindo intervenção manual ou solução de problemas mais complexos.

Reduzindo Custos com Redrive

A AWS cobra pelos workflows standard com base no número de transições de estado necessárias para completar uma carga de trabalho. Cada execução de uma etapa do workflow é contabilizada como uma transição de estado, e cada tentativa adicional aumenta esse número, resultando em custos maiores. Com o redrive, você paga apenas pelas transições de estado a partir do ponto de falha, reduzindo significativamente os custos em workflows complexos ou propensos a erros frequentes.

Exemplificando o Redrive

Considere um workflow que utiliza o Amazon Transcribe para converter um arquivo .mp4 em texto. Se o estado final do workflow falhar devido a um erro de permissões no IAM, você pode corrigir as permissões e redirecionar o workflow a partir do estado de falha, evitando a execução repetida das etapas bem-sucedidas. Isso economiza tempo e reduz custos.

Iniciando com o Redrive

O redrive está disponível apenas para workflows standard. Você pode redirecionar a execução de um workflow programaticamente via AWS CLI, SDK da AWS, ou usando o console do Step Functions para uma experiência visual simplificada. Basta selecionar o workflow com falha, escolher "Redrive", revisar os detalhes da execução e confirmar.

Detectando e Redirecionando Programaticamente

Workflows que falham podem emitir eventos no Amazon EventBridge, que podem ser monitorados para acionar automaticamente o redrive. Isso permite a detecção quase em tempo real de falhas e a retomada automática do workflow.

Conclusão

O redrive no AWS Step Functions oferece uma forma eficiente de lidar com falhas em workflows, permitindo a retomada a partir do ponto de erro e reduzindo custos operacionais. Para saber mais e explorar exemplos, visite a coleção de workflows serverless.

fonte: AWS Blog

Acesse as verticais Revna a seguir, para obter mais detalhes:

Serviços: Move to Cloud / Infraestrutura

Soluções: Inteligência Artificial /RPA

Veja mais notícias

Quer transformar sua gestão de TI?

Acesse o Be Revna e descubra como nosso sistema pode revolucionar sua operação e impulsionar seus resultados.

Faça uma Pesquisa

Olá! Preencha os campos abaixo para iniciar a conversa no WhatsApp

Olá, eu sou a Sunstone Assist. Vamos
encontrar o que sua empresa precisa?