Fala dataholics, da série de dicas rápidas para dicas relâmpago rs. Hoje vou compartilhar um script que uso em certos momentos para consultar configurações especificas dos clusters no Databricks.
Quando estamos criando um Databricks Cluster, podemos aplicar configurações especificas para customizar o comportamento do Spark, contudo, mesmo você não especificando nenhuma durante a criação do seu cluster, há centenas de configurações de Spark criadas com valores padrão, deixarei um script para que você possa listar todas elas e algumas que são mais comuns no dia a dia.
Aqui nessa imagem mostra onde suas configurações Spark customizadas ficam no Cluster do Databricks.
Com esse trecho de código você verá as mais de 300 spark configs disponíveis, essa quantidade vai variar de configurações especificas no Cluster e da Cloud que você executar, pois, existem Spark Confs especificas para cada cloud.
df = spark.sparkContext.getConf().getAll()
i=1
for d in df:
print(str(i),' - ',d)
i = i+1
Nesse trecho de código, estou filtrando apenas as ClusterTags, quando você cria um cluster pode especificar Tags, entretanto, mesmo que não especifique nenhuma, existem várias tags padrão, algumas delas muito uteis no nosso dia a dia.
df = spark.sparkContext.getConf().getAll()
i=1
for d in df:
if 'clusterUsageTags' in d[0]:
print(str(i),' - ',d)
i=i+1
Eu deixei um notebook para você com as Cluster Tags mais comuns e uteis, pode ter faltado uma ou outra, mas essa lista já é bem legal.
Dependendo das configs do Cluster, algumas tags não ficam disponíveis, exemplo, se seu Cluster não for Autoscale as tags minWorkers e maxWorkers não são criadas.
Também deixei uma lista com algumas principais Spark Confs:
E para fechar, listando todas as variáveis de ambiente:
import os
i=1
for var in os.environ.items():
print(str(i),' - ',var)
i = i+1
Link do Github:
Espero que te ajude.
Fique bem e até a próxima
Comments