top of page
Foto do escritorReginaldo Silva

Databricks Workflows - For each Task - Paralelizando e executando tasks em loop

Fala pessoal, mais um vídeo sobre novidades no Databricks, hoje veremos como usar a task For Each para paralelizar e rodar tasks em loop, um recurso já disponível em diversas outras ferramentas e agora disponível no Databricks Workflows.


Para aplicar em um exemplo prático criei um cenário bem legal e comum em diversos ambientes, a necessidade de ingerir várias tabelas em Loop e paralelo.


O que veremos nesse vídeo:

  • Criando uma tabela de controle de ingestão

  • Gerando uma lista de Json com Struct e to_json()

  • Setando parâmetros em tasks e passando para outras tasks

  • Criando um notebook de ingestão parametrizado

  • Criando uma task For each que recebe uma lista de Json

  • Executando ingestão de 10 tabelas em loop e paralelismo de 5


Obs: Vídeo na velocidade 1.2x para caber em algumas plataformas.


Que achou?


Fique bem e até a próxima.


Link no Github:


Referencias:


101 visualizações0 comentário

Comments


Post: Blog2 Post
bottom of page