Fala dataholics, falo pouco sobre esse tema de certificações e estudos, porém, tenho visto muitas dúvidas de pessoas perguntando como estudar Databricks, por onde estudar, por qual curso começar?
Bom, a verdade é que não existe um único caminho ou o melhor caminho, não existe o melhor curso, não é isso que responderei aqui, acredito que cada um de nós aprende de maneiras, velocidades e métodos diferentes, mas, mostrarei o caminho que fiz para alcançar algumas certificações da Databricks e algumas dicas importantes que pode te ajudar.
Leia ate o final! Esse post ficou um pouco mais extenso do que os anteriores, mas tenho certeza que alguma dica vai te agregar.
O post esta dividido nesses tópicos:
Introdução
Por onde estudei?
Dicas sobre Certified Associate Developer for Apache Spark 3.0
Dicas sobre Databricks Certified Data Engineer Associate
Dicas sobre Databricks Certified Data Engineer Professional
Dicas sobre Databricks Certified Data Analyst Associate
Dicas sobre Academy Accreditation
Como se manter atualizado e conectado
Considerações finais
Já tem quase 1 ano que passei na certificação de Databricks Engineer Professional e nunca havia postado nada sobre ela, uma das certificações mais difíceis e cansativas que já fiz, para ter noção do quão difícil ela é, ainda hoje temos somente 548 pessoas com essa credencial, essa informação peguei do próprio site da Databricks, pode ser que tenham pessoas que não solicitaram a credencial, mas ainda seria um número bem pequeno de pessoas, darei algumas dicas de como você pode se preparar para ela.
O que mostrarei para vocês foi o caminho que fiz para alcançar essas certificações:
Databricks Certified Associate Developer for Apache Spark 3.0 - Setembro - 2021
Databricks Certified Data Engineer Associate - Maio - 2022
Databricks Certified Data Engineer Professional - Junho - 2022
Databricks Certified Data Analyst Associate - Outubro - 2022
Também tirei algumas Accreditations: (Provas para validação de conhecimento não monitoradas)
Academy Accreditation - Databricks Lakehouse Fundamentals - Maio - 2022
Academy Accreditation - Platform Administrator - Outubro - 2022
Sim, 2022 foi um grande e longo ano pra mim rs.
Atualmente no portal da Databricks temos 4 trilhas de certificações e abordarei um pouco sobre elas durante a explicação das provas que realizei, essas são as trilhas:
Data Analyst
Data Engineer
ML/Data Scientist - Essa é a única que não estudei, preferi focar na engenharia.
Specialty Badges
Primeiramente, onde estudei?
Para todas as provas estudei pelo Databricks Academy, aqui é uma das dicas principais e infelizmente nem todos terão esse privilégio.
Se sua empresa for Databricks Partner você já tem uma gama de cursos liberados para praticar, isso já é um baita acelerador e também uma economia financeira, até hoje não gastei nada com cursos de Databricks, esses cursos oficiais custam milhares de dólares, então sinta-se presenteado pela sua empresa se ela for partner, sei que tem excelentes cursos no mercado, com didáticas diferentes e em português, o inglês ainda é um grande fator que fazem as pessoas não gostarem tanto do Databricks Academy, todo o conteúdo é inglês e muitos deles sem legenda.
Ah como posso saber se minha empresa é Partner? Só buscar nesse link, eu procurei a minha na aba Consultoria.
Se sua empresa for partner, basta pedir acesso com seu login profissional e ser feliz.
Dentro do Databricks Academy você vai encontrar todos os caminhos prontos para estudar.
Mas Reginaldo, e se eu não trabalho ou minha empresa não é Partner, consigo fazer algum curso de graça? Sim, consegue estudar, mas o conteúdo é bem limitado para quem não é partner e aí você precisará complementar o estudo por documentações, blogs e workshops, também falarei um pouco mais sobre isso.
Para acessar o conteúdo sem ser Partner, na página de login do Databricks Academy você irá escolher essa primeira opção: Customers and Prospects.
Os cursos disponíveis são bem mais limitados, mas, ainda temos alguns bem legais que podem ser o seu pontapé inicial, não desanime se não tiver acesso completo, estude o que tem disponível, complemente com outros conteúdos gratuitos como blogs, YouTube, workshops da Databricks, não deixe de estudar, se precisar de ajuda me chama, vou ter o prazer em ajudá-lo a achar o melhor conteúdo free para você.
Falarei abaixo um pouco das certificações que apliquei, quais cursos estudei e dicas sobre cada uma, seguirei a ordem que realizei, mas isso não interfere em nada, muitas pessoas já fazem direto a Engineer Professional ou seguem ordens diferentes, o importante é o conteúdo a ser estudado.
A primeira prova que fiz entra como uma Specialty Badge, dentro dessa categoria temos 3 provas, são certificações bem específicas, por isso não fazem parte da trilha de Data Engineer, a Spark Developer até poderia fazer, mas boa parte do seu conteúdo é abordado na Data Engineer Associate.
Apache Spark Developer Associate
Platform Administrator
Hadoop Migration
Certified Associate Developer for Apache Spark 3.0:
Essa prova é totalmente focada em desenvolvimento, podendo escolher as linguagens PySpark ou Scala, claro que escolhi PySpark ne rs, mas, existem os guerreiros do Scala.
Essa prova também valida seu conhecimento básico sobre a arquitetura do Spark.
Para o plano de Developer tem esse Learning Plan de 23 horas para quem é partner:
Tempo de estudo:
Meu conhecimento em PySpark era baixo, minha base era 100% SQL e um pouco de Python e C#, esse curso me ajudou muito, levei em torno de 1 mês para completar, praticando todos os Labs disponíveis, eis aqui o diferenciador, pratique todos os Labs mesmo que você ache muito fácil ou simplista, a prática será o divisor, muitos subestimam a prova pelo conteúdo parecer simples, mas na hora da prova não lembram uma sintaxe de group by por não praticarem, dominar a sintaxe vai fazer uma grande diferença.
A melhor dica para essa prova é, durante o teste você tem acesso à documentação base do Spark, isso ajuda muito, contudo, não tem como fazer busca dentro do conteúdo, você precisar ir pelo índice da documentação ou buscar manualmente, a documentação é essa:
Esse material foi suficiente para passar nessa prova, tenho certeza que isso te dará mais confiança para aplicar a prova.
Databricks Certified Data Engineer Associate:
Essa prova já é mais focada para habilidades de um Data Engineer, incluindo também a parte de desenvolvimento com PySpark, logo se você já fez a primeira de Developer essa sera mais simples.
Você precisará dominar os conceitos de Lakehouse, modelagem medalhão, ETL, um pouco de Streaming e Auto Loader, e a features como o Workflows, Databricks Datawarehouse e um pouco sobre segurança incluindo Unity Catalog.
Para se preparar, esse Learning Plan irá te ajudar, inclusive faça também os de Certification Overview, eles dão um overview sobre a certificação bem legal.
Essa prova já é um pouco mais difícil, alguns casos de uso que tomam bastante tempo de entendimento, se prepare mais no que você não domina tanto, exemplo, eu já conhecia muito bem de Lakehouse, ETL, PySpark e SQL, então dei uma ênfase maior para as partes de segurança e streaming, que para mim, são os pontos mais difíceis dessa prova.
Tempo de estudo:
Também levei 1 mês, estudando e praticando os laboratórios, nessa época eu já trabalhava mais intensamente com Databricks, então algumas coisas já eram parte do meu dia a dia, isso facilitou bastante.
A Databricks ainda não tem aqueles testes da certificação igual à Microsoft lançou recentemente, contudo, para essa prova tem um, realize esse teste após estudar e antes de fazer a prova, vai te dizer se você está pronto ou não, seja sincero com você mesmo rs.
Databricks Certified Data Engineer Professional:
Essa é a braba rs, uma prova focada para engenheiro de dados avançado em Databricks, muito focada para plataforma Databricks como um todo, seu conhecimento precisa ser amplo em vários aspectos.
Ela aborda quase tudo sobre a plataforma, ou seja, você precisa dominar workflows, notebooks, Databricks DataWarehouse (endpoint), utilização do Repos, utilização das APIs, gestão de Secrets, Databricks CLI, dominar tudo das provas anteriores de Spark e Engineer vai te ajudar.
Essa prova cai muito conteúdo mesmo, confira toda a grade aqui:
Como já faz um tempo que fiz ela, já não me recordo de tudo que caiu, mas, senti muita dificuldade em lembrar sintaxes de manipulação de APIs, uso do Databricks CLI gestão de acessos, segurança de dados sensíveis e configuração de boas práticas para jobs produtivos.
Essa prova é intensa e cansativa, se prepare bem fisicamente e esteja num local confortável, pois, serão 2 horas de sofrimento rs, eu terminei essa prova faltando 1 minuto, sem tempo para revisar nada, ela tem muitos casos de uso complexos, que levam bastante tempo para ler e entender.
Tempo de estudo:
Eu já estava me preparando para essa prova pelo menos uns 6 meses, pois, eu havia ganhado 1 Voucher para fazer ela na versão Beta, fiz e não passei, então percebi que ela não era para mim naquele momento.
A minha dica aqui é, essa prova é para quem trabalha pelo menos 2 anos com Databricks, já atuando um pouco com suporte, arquitetura e administração do Databricks.
Se você esta começando agora com Databricks, deixe ela de lado por um bom tempo, foque nas duas primeiras que já falei e ganhe experiencia implementando pipelines.
Se você já trabalha com Databricks a mais de 1 ano e quer estudar para essa prova, recomendo uns 3 meses de estudo intenso.
Existe um curso na Databricks Academy para quem é partner, mas não acho que ele seja suficiente, estude por fora e pratique bastante os tópicos da certificação.
Databricks Certified Data Analyst Associate:
Essa prova é focada para analistas de dados, o objetivo principal é medir seu conhecimento no Databricks DataWarehouse (antigo Endpoint).
Será avaliado seu conhecimento na linguagem SQL, modelagem medalhão, como se conectar ao Databricks DataWarehouse, quais benefícios em usar o DataWarehouse, gestão de acessos e um pouco de conceito de Delta lake.
Estude bem sobre Dashboards, cai bastante sobre esse tema, como criar, agendar atualizações, tipos de gráficos disponíveis entre outros, também estude bem sobre Alerts.
Learning plan para essa certificação, são 7 horas de conteúdo.
Tempo de estudo:
Essa prova achei relativamente fácil, me preparei com 1 semana, pois, já conhecia bem sobre o recurso, sobre linguagem SQL e conceitos, então foquei meus estudos mais sobre Dashboards e Alerts.
Considero esse Learning plan suficiente para passar nessa certificação.
Academy Accreditation:
Academy Accreditation - Databricks Lakehouse Fundamentals - Maio - 2022
Academy Accreditation - Platform Administrator - Outubro - 2022
Esses 2 testes de conhecimento são grátis para quem é Partner, um ponto importante é, elas são provas não monitoradas e você pode usar a internet durante a prova, isso acaba até tirando um pouco da sua credibilidade, pois, sabemos que tem pessoas que vão pesquisar na internet só para passar e publicar o certificado no LinkedIn, triste, mas existem muitos, não é o nosso caso, se você esta lendo esse post, tenho certeza que você irá estudar corretamente.
Sobre a Lakehouse Fundamentals, é um teste bem básico e focado em conceito e na plataforma Databricks, conhecer sobre as features disponíveis, inclusive sobre Machine Learning.
Esse teste foi criado depois de ja ter feito a Engineer Associate, por isso não fiz antes.
O plano de estudos é esse, e está disponível para quem não é partner também:
Sobre a Platform Administrator, esse teste é bem difícil e eu realizei ele 2 vezes, é focado para administradores do Databricks, são tarefas totalmente diferentes das tarefas de um engenheiro de dados.
Esse é o Learning plan, estude com calma e tente praticar bastante para reforçar seu conhecimento:
https://partner-academy.databricks.com/learn/lp/207/Platform%2520Administrator%2520Learning%2520Plan
Existem outras Accreditations disponíveis para quem é Partner, algumas focadas para cada Cloud Azure, AWS e GCP, contudo, acredito que essas que comentei hoje são as principais para quem quer se qualificar na plataforma Databricks.
Se eu fosse fazer tudo de novo, seguiria essa ordem:
Academy Accreditation - Databricks Lakehouse Fundamentals
Databricks Certified Associate Developer for Apache Spark 3.0
Databricks Certified Data Engineer Associate
Databricks Certified Data Analyst Associate
Academy Accreditation - Platform Administrator
Databricks Certified Data Engineer Professional
Como se manter atualizado e conectado:
Independente de qualquer curso que você fizer, seja ele na Databricks Academy ou em outra plataforma, é indispensável que você se mantenha atualizado sobre as novidades e tudo que está em volta daquela ferramenta, existem muitas maneiras de fazer isso e falarei como faço para me manter sempre atualizado.
1- LinkedIn
Sem dúvida para mim essa é a primeira da lista, conecte-se com pessoas da Databricks, profissionais de dados que compartilham conteúdo sobre Databricks, poderia citar uma lista aqui de pessoas que acompanho, mas, vou acabar esquecendo de alguém rs. Mas, conecte-se e seja ativo no LinkedIn.
E claro, me siga no LinkedIn também né rsrs: https://www.linkedin.com/in/reginaldosilva27/
2 - Blogs
Leio muitos artigos sobre Databricks e tudo ao seu redor, casos de uso, erros, explicações de como funciona, sem dúvidas os conteúdos de blogs são riquíssimos, não saberia metade do que sei sem ler post diariamente. Se possível leia pelo menos 1 artigo por dia, mas leia com qualidade, não somente para dizer que leu, tem dias que começo a ler e percebo que estou me enganando, então, paro de ler e deixo para outro dia.
Como você já está lendo aqui, a dica é, se inscreve aí para receber e-mails sempre que eu fizer um novo post.
Gosto muito da plataforma Medium e recentemente comecei acompanhar a Dev.to, recebo notificações diárias e escolho 1 post por dia para ler, sobre temas variados.
3 - Comunidades
Participe de comunidades e grupos para receber notícias, participar de discussões sobre casos, isso sem dúvida me ajudou muito, inclusive arrumar emprego, sobre Databricks temos essa comunidade no WhatsApp e Slack.
Databricks BR:
4 - Youtube e Workshops
Além dos conteúdos de blogs, siga e assista vídeos e lives no YouTube, a Databricks vem crescendo muito no Brasil e estão compartilhando muito conteúdo através de workshops sensacionais, siga as paginais e canais da Databricks oficial e de pessoas que compartilham sobre o tema, comecei um canal no YouTube e estou compartilhando algumas coisas por la também, segue la.
5 - ChatGPT
Sim, isso mesmo, o ChatGPT é muito útil para estudar, basta saber fazer as perguntas corretas, ele pode fazer resumos de conteúdos e te dar tópicos mais detalhados. Use e abuse nesse sentido, claro sempre tomando cuidado em fazer as perguntas corretas, o ChatGPT ainda gera muita informação incorreta, então tome cuidado, mas não deixe de usar.
Considerações finais:
É importante ressaltar que existem outras maneiras de estudar e se manter atualizado (Inclusive deixa um comentário aí de como você faz), essas dicas que você leu aqui são os métodos que utilizo e a maneira que fiz para conseguir passar nas certificações da Databricks.
Um ponto importante a Databricks está aplicando atualizações em seus conteúdos, acrescentando e unificando alguns tópicos, então sempre que for fazer um curso na Databricks Academy escolhas os que são V3.
Se você seguir estas dicas, não tenho dúvidas que terá sucesso nas certificações, mas, seja paciente, estude, pratique e adquira experiencia e vai realizando as certificações durante esse processo, entenda, o foco NÃO É A CERTIFICAÇÃO E SIM O CONHECIMENTO. Estamos usando a certificação como objetivo para alcançar algo maior, as trilhas das certificações são um bom caminho para isso.
É importante ressaltar também que já tinha uma forte experiência sobre dados antes de começar a trabalhar com Databricks, isso sem dúvidas me ajudou a entender as coisas mais rapidamente, tenha o seu próprio tempo de estudo, a direção é mais importante que a velocidade.
Espero que tenha te ajudado a planejar seus estudos sobre Databricks.
Fique bem e até a próxima.