Fala pessoal, mais um vídeo sobre novidades no Databricks, hoje veremos como usar a task For Each para paralelizar e rodar tasks em loop, um recurso já disponível em diversas outras ferramentas e agora disponível no Databricks Workflows.
Para aplicar em um exemplo prático criei um cenário bem legal e comum em diversos ambientes, a necessidade de ingerir várias tabelas em Loop e paralelo.
O que veremos nesse vídeo:
Criando uma tabela de controle de ingestão
Gerando uma lista de Json com Struct e to_json()
Setando parâmetros em tasks e passando para outras tasks
Criando um notebook de ingestão parametrizado
Criando uma task For each que recebe uma lista de Json
Executando ingestão de 10 tabelas em loop e paralelismo de 5
Obs: Vídeo na velocidade 1.2x para caber em algumas plataformas.
Que achou?
Fique bem e até a próxima.
Link no Github:
Referencias:
Comments