Databricks Workflows - For each Task - Paralelizando e executando tasks em loop

Fala pessoal, mais um vídeo sobre novidades no Databricks, hoje veremos como usar a task For Each para paralelizar e rodar tasks em loop, um recurso já disponível em diversas outras ferramentas e agora disponível no Databricks Workflows.

Para aplicar em um exemplo prático criei um cenário bem legal e comum em diversos ambientes, a necessidade de ingerir várias tabelas em Loop e paralelo.

O que veremos nesse vídeo:

Criando uma tabela de controle de ingestão
Gerando uma lista de Json com Struct e to_json()
Setando parâmetros em tasks e passando para outras tasks
Criando um notebook de ingestão parametrizado
Criando uma task For each que recebe uma lista de Json
Executando ingestão de 10 tabelas em loop e paralelismo de 5

Obs: Vídeo na velocidade 1.2x para caber em algumas plataformas.

Que achou?

Fique bem e até a próxima.

Link no Github:

https://github.com/reginaldosilva27/Databricks/tree/main/tips/foreach

Referencias:

https://docs.databricks.com/en/jobs/for-each.html

https://www.databricks.com/blog/whats-new-workflows

Databricks Workflows - For each Task - Paralelizando e executando tasks em loop

Posts recentes

Σχόλια