top of page

Databricks SDK for Python - Automatizando sua vida sem precisar usar as APIS do Databricks

Fala dataholics, no post de hoje venho compartilhar uma maneira diferente de gerenciar seu ambiente Databricks, para os amantes de Python que não gostavam tanto do Databricks CLI, agora temos uma nova opção e venhamos e convenhamos muito mais dinâmica, falaremos sobre o Databricks SDK for Python.

Intro

 

O Databricks SDK para Python vem com o propósito de facilitar a vida dos amantes de Python, trazendo muitas funcionalidades do Databricks CLI e também uma interface para as APIs do Databricks, com o SDK você acessa as APIs de maneira simples, podendo criar suas rotinas automatizadas facilmente sem precisar ficar manipulando requisições para APIs.


O Databricks SDK esta na versão Beta, contudo, ele vem recebendo muita contribuição pela comunidade, com certeza veio para ficar, ele nasceu em março de 2023 e de la para cá já teve quase 30 releases no PyPI e bastante movimentação no Github.

github stats page

Assim como o Databricks CLI (uma interface via linha de comando, como se fosse um PowerShell com módulos do Databricks) o Databricks SDK for Python também interage com todas as APIs por detrás dos panos, ambos são uma interface amigável para as APIs, facilitando sua vida com funcionalidades prontas, então se você não tem facilidade em manipular as APIs ou mesmo que você já seja craque nas APIs do Databricks esse SDK vai te ajudar muito.


A instalação é extremamente mais simples e por ser Python podemos usá-lo num notebook como já estamos familiarizados.


Abaixo estamos instalando SDK dentro do notebook, mas, você poderia instalar nas Libs do cluster e todas às vezes que ele iniciar será instalado automaticamente.

instalando python SDK

Após a instalação reinicie o Kernel:

reiniciando python

Agora bora usar algumas funções.


Abaixo estou listando todos os Clusters All Purpose no meu Workspace de teste, o ponto importante é, listar é uma operação simples, mas, aqui você pode aproveitar o resultado para automatizar alguma rotina ou inventario, a sua imaginação é o limite.

OBS: Na autenticação estou passando um Token pessoal (PAT), contudo não é necessário informar, o próprio SDK já tenta fazer isso automaticamente, mas, caso você não seja admin ou tenha alguma política que barre, você pode usar um token ou uma App Registration para conexão.

Listando Clusters

Exemplo ligando todos os clusters:

Ligando clusters

Listando Jobs do Workflow com o resumo da quantidade de clusters e Tasks, pois, o mesmo Job pode usar mais de um cluster diferente, exemplo um Job com 4 tasks e 4 clusters diferentes, isso é muito útil para quem está conhecendo o ambiente.

Listando Jobs

Listando todos os notebooks da minha pasta de usuário recursivamente.

Listando notebooks

Listando todos os notebooks do Workspace:

Listando todos notebooks

Listando todos os usuários do Workspace.

Listando usuários

Como mencionei, os exemplos foram bem simples para vocês conhecerem o SDK, em breve trarei scripts mais elaborados que venho trabalhando.


Bom daqui pra frente você já tem mais uma ferramenta no seu cinturão para facilitar sua vida, monte sua pasta de script e seja feliz.


Você pode ver a documentação do SDK por 3 lugares, Github, PyPI e na página oficial do SDK.

Dica: No github navegue e explore a página de exemplos, muita coisa legal por la.

Exemplos no github

E se você é novo por aqui, assina o feed do blog que vem muita coisa boa por aí e me segue no LinkedIn:

Link para os scripts criados:


Fique bem e até a próxima.

1.604 visualizações0 comentário
Post: Blog2 Post
bottom of page