Systemd no Linux: como pensar troubleshooting de serviços em um homelab real

Introdução

Quando um serviço Linux falha, muita gente corre direto para editar arquivo de configuração, reiniciar processo ou copiar comando da internet. Esse é o caminho mais rápido para transformar um problema pequeno em um incêndio técnico.

No meu homelab, a lógica passou a ser outra: antes de mexer, entender. Antes de reiniciar, observar. Antes de culpar o serviço, olhar o papel do systemd.

O systemd é o gerenciador de serviços usado pelo Fedora Server, Fedora Workstation e pela maioria das distribuições Linux modernas. Ele não é apenas “aquilo que inicia serviços”. Ele organiza o boot, controla processos, gerencia dependências, registra logs com o journalctl e define como cada serviço deve se comportar quando inicia, falha, reinicia ou depende de outro componente.

Em um ambiente como um homelab, onde existem serviços como Nginx, Docker, Grafana, Prometheus, Samba, dnsmasq, firewalld e Tailscale, o systemd funciona como o sistema nervoso da infraestrutura.

Docker executa containers.
Nginx publica aplicações.
Grafana mostra métricas.
Prometheus coleta dados.
Samba compartilha arquivos.
Mas quem coordena boa parte dessa operação é o systemd.

Entender systemd não é decorar comandos. É aprender a seguir pistas.

O que é o systemd no Linux?

O systemd é o processo responsável por iniciar e coordenar os serviços principais do sistema operacional. Durante o boot, depois que o kernel é carregado, ele inicia o primeiro processo do sistema.

Esse processo recebe o identificador:

PID 1

No Fedora, esse processo é o próprio systemd.

Para verificar:

ps -p 1

O resultado esperado é algo como:

PID TTY          TIME CMD
1 ?        00:00:01 systemd

Isso importa porque todos os demais processos do sistema descendem direta ou indiretamente dele.

A hierarquia mental é esta:

Kernel
   │
   ▼
systemd PID 1
   │
   ├── sshd
   ├── nginx
   ├── grafana
   ├── docker
   ├── samba
   └── outros processos

Ou seja: quando um serviço falha, o problema raramente deve ser analisado de forma isolada. É preciso entender como ele foi iniciado, por quem foi iniciado, com quais dependências, em qual ordem e com qual política de reinício.

Essa é a primeira virada de chave.

Por que systemd é tão importante em um homelab?

Em um desktop comum, talvez você só perceba o systemd quando algo dá errado. Em um homelab, ele aparece o tempo todo.

No meu ambiente, serviços importantes dependem dele diretamente:

sshd
nginx
grafana
prometheus
docker
smb
dnsmasq
firewalld
tailscaled

Cada um desses serviços tem uma função prática.

O sshd permite acesso remoto.
O nginx faz proxy reverso e publica serviços.
O grafana exibe dashboards.
O prometheus coleta métricas.
O docker sustenta aplicações em containers.
O smb publica compartilhamentos Samba.
O dnsmasq pode atuar como DNS interno.
O firewalld controla regras de firewall.
O tailscaled mantém a VPN mesh da Tailscale.

Quando um desses serviços não sobe, não basta perguntar:

“Qual comando eu rodo?”

A pergunta correta é:

“Em que ponto da cadeia esse serviço quebrou?”

Essa pergunta muda tudo.

Units: a linguagem do systemd

O systemd trabalha com o conceito de unit. Uma unit é a menor unidade gerenciada por ele.

Alguns exemplos:

nginx.service
docker.service
grafana-server.service

Existem vários tipos de units, mas as principais para troubleshooting são:

.service
.target
.timer
.socket

Uma unit do tipo .service representa um serviço.

Uma unit do tipo .target representa um agrupamento lógico de units, parecido com os antigos runlevels.

Uma unit .timer agenda tarefas periódicas, funcionando como uma alternativa moderna ao cron.

Uma unit .socket permite ativação sob demanda.

Os arquivos de unit geralmente ficam em dois lugares:

/usr/lib/systemd/system

Esse caminho costuma armazenar units instaladas por pacotes.

/etc/systemd/system

Esse caminho costuma armazenar customizações locais.

Essa distinção é importante. Arquivos vindos de pacotes não devem ser alterados sem critério. Customizações locais geralmente pertencem ao /etc/systemd/system.

O ciclo de vida de um serviço

Os comandos básicos são simples:

systemctl start SERVICO

systemctl stop SERVICO

systemctl restart SERVICO

systemctl reload SERVICO

systemctl status SERVICO

Mas o ponto principal não é decorar esses comandos. É saber quando usar cada um.

start inicia um serviço parado.
stop para um serviço ativo.
restart derruba e sobe novamente.
reload tenta recarregar configuração sem derrubar completamente o processo.
status mostra o estado atual e geralmente já entrega as primeiras pistas do problema.

Em troubleshooting, o comando inicial quase sempre deve ser:

systemctl status SERVICO

Por exemplo:

systemctl status nginx

systemctl status grafana-server

systemctl status docker

systemctl status smb

O status responde perguntas essenciais:

O serviço está ativo?
Falhou?
Foi encerrado?
Qual foi o código de erro?
Existe alguma mensagem recente?
Qual processo foi iniciado?
Quando ocorreu a falha?

Não é a resposta final. É o começo da investigação.

Boot: serviço ativo agora não significa serviço ativo depois

Um erro comum é confundir serviço iniciado com serviço habilitado no boot.

Para iniciar agora:

systemctl start nginx

Para iniciar automaticamente no boot:

systemctl enable nginx

Para verificar:

systemctl is-enabled nginx

Para desabilitar:

systemctl disable nginx

Isso explica um cenário clássico:

“O serviço funciona quando eu inicio manualmente, mas depois que reinicio o servidor ele não sobe.”

Nesse caso, antes de investigar logs profundos, o primeiro diagnóstico deve ser:

systemctl is-enabled SERVICO

Se estiver desabilitado, o serviço pode estar perfeito tecnicamente, mas simplesmente não foi configurado para subir no boot.

Dependências: Requires, Wants e After

Aqui está uma das partes mais importantes do systemd.

Muitos problemas de boot não acontecem porque o serviço está quebrado. Eles acontecem porque o serviço subiu cedo demais, tarde demais ou sem algo de que precisava.

Três diretivas ajudam a entender isso:

Requires
Wants
After

Requires define uma dependência obrigatória. Se a dependência falhar, o serviço principal também falha.

Wants define uma dependência desejável. Se a dependência falhar, o serviço principal ainda pode continuar.

After define apenas ordem de inicialização. Ele não cria dependência obrigatória.

Esse ponto é crucial.

Quando uma unit tem:

After=network.target

isso não significa necessariamente que ela depende da rede. Significa apenas que ela deve iniciar depois daquele target.

A diferença é sutil, mas muda o diagnóstico inteiro.

Se um serviço precisa obrigatoriamente de outro, procure por Requires.

Se ele apenas gostaria que outro estivesse disponível, procure por Wants.

Se ele só precisa iniciar depois de algo, procure por After.

Durante o estudo do homelab, analisar units como mongod.service ajuda justamente a entender esse comportamento: ordem de boot, política de restart, tipo de serviço e PIDFile.

Restart: quando o serviço cai e volta sozinho

Outra diretiva importante é:

Restart=

Ela define o que o systemd faz quando o serviço termina ou falha.

Exemplos comuns:

Restart=always

Restart=on-failure

always reinicia sempre.
on-failure reinicia apenas quando há falha.

Isso explica outro cenário clássico:

“O serviço fica reiniciando sem parar.”

Nesse caso, o problema não é apenas o restart em si. O restart é o sintoma visível. A causa pode ser configuração inválida, permissão incorreta, diretório inexistente, porta ocupada ou falha de dependência.

O systemd tenta manter o serviço vivo porque a unit mandou fazer isso.

A investigação correta é:

systemctl status SERVICO

Depois:

journalctl -u SERVICO

E, se necessário:

journalctl -xe

Type: como o systemd entende o comportamento do serviço

A diretiva Type= informa como o systemd deve interpretar a inicialização do serviço.

Dois tipos comuns são:

Type=simple

Type=forking

No simple, o processo iniciado por ExecStart é considerado o processo principal do serviço.

A lógica é:

ExecStart
↓
Processo inicia
↓
Serviço ativo

No forking, o processo inicial cria um processo filho e retorna. Esse padrão é comum em serviços mais antigos.

A lógica é:

Processo pai inicia
↓
Cria processo filho
↓
Processo pai encerra
↓
Processo filho continua

Nesse caso, o systemd pode precisar de um PIDFile para saber qual processo acompanhar.

Se o Type estiver errado, o systemd pode achar que um serviço morreu quando ele está vivo, ou achar que ele subiu corretamente quando na verdade falhou.

Por isso, em troubleshooting mais avançado, olhar o arquivo da unit faz diferença.

Journalctl: a caixa-preta do Linux moderno

O journalctl centraliza logs gerenciados pelo systemd.

Ele é uma das ferramentas mais importantes para resolver problemas reais.

Para ver logs de um serviço:

journalctl -u nginx

Para ver logs do boot atual:

journalctl -b

Para ver logs do boot anterior:

journalctl -b -1

Para acompanhar em tempo real:

journalctl -f

Para investigar uma falha recente:

journalctl -xe

No homelab, a lógica ficou bem clara.

Se o Grafana falha:

journalctl -u grafana-server

Se o dnsmasq falha:

journalctl -u dnsmasq

Se o Nginx falha:

journalctl -u nginx

O journal geralmente mostra a primeira pista realmente útil. E essa pista costuma ser mais valiosa que qualquer chute.

A cronologia correta do troubleshooting

A forma errada de resolver problema é sair alterando tudo.

A forma correta segue uma cronologia.

1. Verificar o estado do serviço

Comece com:

systemctl status SERVICO

Esse comando responde se o serviço está ativo, falhou ou sequer foi iniciado.

2. Ler os logs do serviço

Depois:

journalctl -u SERVICO

Aqui você procura mensagens de erro, falhas de permissão, porta ocupada, arquivo ausente ou configuração inválida.

3. Verificar logs gerais do sistema

Quando o erro não está claro:

journalctl -xe

Esse comando amplia o contexto e pode mostrar falhas relacionadas.

4. Verificar dependências

Se o serviço depende de rede, banco, socket, diretório montado ou outro serviço, é preciso investigar a cadeia.

O erro pode não estar no serviço principal. Pode estar em algo que deveria ter subido antes.

5. Verificar configuração

No caso do Nginx, por exemplo, antes de reiniciar:

nginx -t

Se a configuração estiver inválida, reiniciar o serviço só vai confirmar o erro.

6. Verificar permissões e diretórios

Muitos serviços falham por motivos simples:

arquivo inexistente
diretório ausente
usuário sem permissão
porta já em uso
caminho errado

7. Verificar SELinux

Em sistemas Fedora, SELinux não é detalhe. Ele pode bloquear conexões, leituras, escritas e acessos de rede mesmo quando permissões tradicionais parecem corretas.

Por isso, depois dos logs e da configuração, SELinux entra naturalmente na investigação.

Exemplo prático: Nginx falhando

Imagine que o Nginx parou de funcionar.

O impulso inicial seria editar o arquivo de configuração e reiniciar.

Mas a abordagem correta começa assim:

systemctl status nginx

Se o status indicar falha, o próximo passo é:

journalctl -u nginx

Se houver suspeita de configuração quebrada:

nginx -t

Só depois faz sentido reiniciar:

systemctl restart nginx

Essa ordem evita tentativa e erro.

A pergunta não é:

“Como reinicia o Nginx?”

A pergunta é:

“O Nginx falhou por configuração, dependência, permissão, porta ocupada ou bloqueio externo?”

Esse é o raciocínio.

Exemplo prático: dnsmasq falhando

O dnsmasq é um bom exemplo porque serviços de DNS podem falhar por conflito de porta.

A porta 53 pode já estar ocupada por outro processo, como systemd-resolved, libvirt dnsmasq ou outro serviço DNS.

A cronologia seria:

systemctl status dnsmasq

Depois:

journalctl -u dnsmasq

Se o erro indicar porta ocupada, aí faz sentido investigar sockets e processos escutando.

O ponto principal: o erro não deve ser presumido. Ele deve ser lido.

Exemplo prático: Grafana falhando

Se o Grafana falha, o primeiro passo é:

systemctl status grafana-server

Depois:

journalctl -u grafana-server

No Fedora, dependendo do tipo de acesso que o Grafana tenta fazer, SELinux pode entrar na história.

Então o raciocínio não é:

“Grafana está quebrado.”

É:

“O processo subiu? Caiu? Foi bloqueado? Não conseguiu abrir porta? Não conseguiu acessar recurso? O systemd reiniciou? O SELinux negou algo?”

Esse tipo de pergunta reduz o ruído.

Timers: quando usar systemd em vez de cron

O systemd também pode substituir o cron em tarefas periódicas usando timers.

Timers são úteis para:

backups
atualizações
scripts periódicos
sincronizações
rotinas de manutenção

A vantagem é que eles se integram ao ecossistema do systemd:

systemctl
journalctl
dependências
status
logs

Em vez de ter uma tarefa solta no cron, você tem uma unit rastreável, com logs e estado.

Para um homelab, isso ajuda muito. Se uma rotina de backup falhar, você consegue investigar pelo mesmo modelo mental:

systemctl status nome-do-timer.timer

journalctl -u nome-do-servico.service

Systemd timer ou n8n?

Uma distinção importante no homelab é saber quando usar systemd timer e quando usar n8n.

Use systemd timer quando a lógica for simples:

Executar X
às 02:00
todos os dias

Exemplo:

rodar backup diário
sincronizar arquivos
executar script de limpeza
atualizar base em horário fixo

Use n8n quando a lógica envolver decisão:

Executar X
↓
Verificar resultado
↓
Tomar decisão
↓
Executar Y
↓
Enviar notificação

O systemd é excelente para execução confiável de tarefas no sistema operacional.

O n8n é melhor para fluxos condicionais, integração com APIs, mensagens, notificações e automações com ramificações.

Essa separação evita usar ferramenta complexa para tarefa simples e ferramenta simples para fluxo complexo.

Erros comuns em serviços Linux

Serviço não inicia

Comece com:

systemctl status SERVICO

Depois:

journalctl -xe

Possíveis causas:

configuração inválida
arquivo ausente
permissão incorreta
porta ocupada
dependência ausente
SELinux bloqueando

Serviço cai imediatamente

Verifique:

journalctl -u SERVICO

Procure mensagens relacionadas a:

failed
permission denied
address already in use
no such file or directory
invalid configuration

Serviço funciona manualmente, mas não no boot

Verifique:

systemctl is-enabled SERVICO

Se estiver desabilitado:

systemctl enable SERVICO

Serviço reinicia sem parar

Investigue a diretiva:

Restart=

Mas não pare nela. O restart é consequência. A causa está nos logs.

Boas práticas no troubleshooting com systemd

A primeira boa prática é validar antes de reiniciar.

No Nginx:

nginx -t

antes de:

systemctl restart nginx

A segunda é ler logs antes de alterar configuração.

Muitas vezes, o erro já está explícito no journal.

A terceira é respeitar dependências.

Nem todo problema está no serviço que apareceu como falho. Às vezes ele só falhou porque outro serviço, socket, mount ou recurso de rede não estava pronto.

A quarta é lembrar do SELinux.

Em distribuições como Fedora, SELinux faz parte do diagnóstico. Ignorar isso é perder tempo.

A grande lição: troubleshooting é cronologia

Resolver problemas em Linux não é decorar 500 comandos. É seguir uma linha de investigação.

A cronologia mais segura é:

status
↓
logs
↓
dependências
↓
configuração
↓
permissões
↓
SELinux
↓
correção
↓
validação

Essa ordem impede que você mexa onde não precisa.

Ela também ajuda a aprender de verdade. Cada erro deixa de ser uma tragédia e vira uma pista.

No homelab, isso muda a relação com a infraestrutura. O servidor deixa de ser uma caixa preta e passa a ser um sistema observável, previsível e diagnosticável.

Conclusão

O systemd é uma das ferramentas mais importantes do Linux moderno. Ele controla serviços, organiza o boot, gerencia dependências, acompanha processos, executa timers e centraliza logs por meio do journalctl.

Em um homelab, entender systemd é essencial porque praticamente tudo passa por ele: Nginx, Docker, Grafana, Prometheus, Samba, dnsmasq, firewalld, Tailscale e vários outros serviços.

A principal lição não é apenas saber usar systemctl start ou systemctl restart. A principal lição é aprender a pensar.

Quando um serviço falha, a ordem importa.

Primeiro veja o status.
Depois leia os logs.
Depois entenda dependências.
Depois valide configuração.
Depois investigue permissões.
Depois considere SELinux.

Esse raciocínio transforma troubleshooting em método.

E método, no Linux, vale mais que chute.