← Voltar ao arquivo

Databricks

Databricks Workflows - For each Task - Paralelizando e executando tasks em loop

Fala pessoal, mais um vídeo sobre novidades no Databricks, hoje veremos como usar a task For Each para paralelizar e rodar tasks em loop, um recurso já disponível em diversas outras ferramentas e agora disponível no Databricks Workflows.

Para aplicar em um exemplo prático criei um cenário bem legal e comum em diversos ambientes, a necessidade de ingerir várias tabelas em Loop e paralelo.

O que veremos nesse vídeo:

  • Criando uma tabela de controle de ingestão

  • Gerando uma lista de Json com Struct e to_json()

  • Setando parâmetros em tasks e passando para outras tasks

  • Criando um notebook de ingestão parametrizado

  • Criando uma task For each que recebe uma lista de Json

  • Executando ingestão de 10 tabelas em loop e paralelismo de 5

Assista no YouTube

Obs: Vídeo na velocidade 1.2x para caber em algumas plataformas.

Que achou?

Fique bem e até a próxima.

Link no Github:

https://github.com/reginaldosilva27/Databricks/tree/main/tips/foreach

Referencias:

https://docs.databricks.com/en/jobs/for-each.html

https://www.databricks.com/blog/whats-new-workflows

Gostou? Tem mais no YouTube e no LinkedIn.

← Voltar ao arquivo