6.7 KiB
Loki 无日志排查与修复手册
背景
现象:Grafana Explore 使用 Loki 数据源查询 {job="kubernetes-pods"} 时无结果,页面提示 No logs found。
影响:日志链路不可用,无法按服务排查线上问题。
链路目标:
- Promtail 采集 Kubernetes Pod 日志
- Loki 存储与检索日志
- Grafana 查询展示日志
一、排查思路
本次按“组件健康 -> 采集发现 -> 文件可读 -> 入库验证 -> 查询验证”的顺序排查。
1) 确认监控组件健康
先确认 Promtail/Loki/Grafana 是否都在 Running,避免在异常状态下排查配置。
2) 判断是“没采到”还是“没查到”
通过 Promtail /targets 和 /service-discovery 页面确认是否存在 active target。
- 若
0/0或0/1 unready,说明采集端有问题 - 若 target 正常但 Loki 无数据,再看推送或查询标签
3) 检查 Promtail 能否访问节点日志文件
重点确认:
/var/log/pods是否可见- 采集路径是否匹配
- 是否存在大量
stat ... no such file or directory
4) 直连 Loki API 验证是否入库
绕过 Grafana,直接访问 Loki API。
- 若 API 无数据,问题在 Promtail 采集/推送链路
- 若 API 有数据,问题在 Grafana 查询条件、时间范围或标签
二、根因分析
本次属于“Promtail 侧采集链路不完整”,主要问题如下:
- Kubernetes SD 目标未生效(Promtail targets 显示
kubernetes-pods (0/0))。 - 即使加入静态采集,目标一度
0/1 unready。 /var/log/pods下日志多为符号链接,真实目标在/var/lib/docker/containers。- Promtail 容器未挂载
/var/lib/docker/containers,导致大量stat ... no such file or directory。 - 标签维度不足,不便于按业务服务名筛选日志。
三、修复思路
1) 强化 Promtail 权限与发现能力
在 deploy/k8s/monitoring/promtail.yaml 中:
- 补充 RBAC 资源权限:
nodespodspods/logservicesendpointsnamespaces
2) 增加静态采集兜底
在 scrape_configs 中新增 kubernetes-pods-static,路径:
/var/log/pods/*/*/*.log
用于在 Kubernetes SD 临时失效时仍能采集日志。
3) 修复宿主机日志访问链路
Promtail DaemonSet 增加:
securityContext.runAsUser: 0securityContext.runAsGroup: 0- 挂载
hostPath: /var/lib/docker/containers
并挂载到容器内同路径只读。
4) 完善标签体系,支持按服务筛选
新增/保留标签:
namespacepodcontainerapp
静态采集通过 pipeline_stages 从 filename 解析标签,并从 pod 生成 app(去除滚动后缀)。
四、关键变更文件
deploy/k8s/monitoring/promtail.yaml
本次 Loki 主配置与 Grafana 数据源无需改动,核心修复集中在 Promtail 采集侧。
五、排查与修复命令清单
以下命令均在项目根目录执行。
1) 组件状态检查
kubectl get pods -n monitoring -o wide
kubectl get svc -n monitoring
kubectl logs -n monitoring -l app=promtail --tail=120
kubectl logs -n monitoring -l app=loki --tail=80
2) Promtail 文件系统与配置检查
$pod=(kubectl get pod -n monitoring -l app=promtail -o jsonpath='{.items[0].metadata.name}')
kubectl exec -n monitoring $pod -- sh -c "ls -ld /var/log /var/log/pods /var/log/containers"
kubectl exec -n monitoring $pod -- sh -c "find /var/log/pods -name '*.log' | head -n 20"
kubectl exec -n monitoring $pod -- sh -c "cat /etc/promtail/promtail.yaml"
kubectl exec -n monitoring $pod -- sh -c "cat /run/promtail/positions.yaml | head -n 120"
3) Promtail Web 诊断页(targets / service-discovery)
$pod=(kubectl get pod -n monitoring -l app=promtail -o jsonpath='{.items[0].metadata.name}')
$job=Start-Job -ScriptBlock { param($p) kubectl port-forward -n monitoring pod/$p 19080:9080 } -ArgumentList $pod
Start-Sleep -Seconds 3
Invoke-WebRequest -UseBasicParsing http://127.0.0.1:19080/targets | Select-Object -ExpandProperty Content
Invoke-WebRequest -UseBasicParsing http://127.0.0.1:19080/service-discovery | Select-Object -ExpandProperty Content
Stop-Job $job -ErrorAction SilentlyContinue
Remove-Job $job -Force -ErrorAction SilentlyContinue
4) RBAC 实测
kubectl auth can-i list pods --as=system:serviceaccount:monitoring:promtail --all-namespaces
kubectl auth can-i watch pods --as=system:serviceaccount:monitoring:promtail --all-namespaces
kubectl auth can-i list namespaces --as=system:serviceaccount:monitoring:promtail
kubectl auth can-i get nodes --as=system:serviceaccount:monitoring:promtail
5) 应用修复并滚动重启 Promtail
kubectl apply -f deploy/k8s/monitoring/promtail.yaml
kubectl rollout restart ds/promtail -n monitoring
kubectl rollout status ds/promtail -n monitoring --timeout=120s
kubectl logs -n monitoring -l app=promtail --tail=120
6) Loki API 直连验证
$job=Start-Job -ScriptBlock { kubectl port-forward -n monitoring svc/loki 13100:3100 }
Start-Sleep -Seconds 3
Invoke-WebRequest -UseBasicParsing "http://127.0.0.1:13100/loki/api/v1/query_range?query=%7Bjob%3D%22kubernetes-pods%22%7D&limit=10" | Select-Object -ExpandProperty Content
Stop-Job $job -ErrorAction SilentlyContinue
Remove-Job $job -Force -ErrorAction SilentlyContinue
7) 按 app 标签验证
$job=Start-Job -ScriptBlock { kubectl port-forward -n monitoring svc/loki 13100:3100 }
Start-Sleep -Seconds 3
Invoke-WebRequest -UseBasicParsing "http://127.0.0.1:13100/loki/api/v1/query_range?query=%7Bjob%3D%22kubernetes-pods%22%2Capp%3D~%22.+%22%7D&limit=5" | Select-Object -ExpandProperty Content
Stop-Job $job -ErrorAction SilentlyContinue
Remove-Job $job -Force -ErrorAction SilentlyContinue
六、Grafana 查询建议
建议先放大时间范围(Last 6 hours / Last 24 hours),再逐步收敛:
{job="kubernetes-pods"}
{job="kubernetes-pods", namespace="juwan"}
{job="kubernetes-pods", app="user-rpc"}
{job="kubernetes-pods", app=~"user-rpc|snowflake|email-mq"} |= "error"
七、后续优化建议
- 当前 Loki 使用
emptyDir,重建后数据会丢失;生产建议改 PVC 持久化。 - 可以补充 Promtail 的
drop规则,减少噪音日志(如健康检查日志)。 - 建议在 Grafana 中预置业务 Dashboard 与告警规则(按 app + error rate)。
八、结论
本次无日志的核心问题不在 Loki 或 Grafana,而在 Promtail 采集链路:
- 发现目标不稳定 + 日志文件符号链接目标未挂载
完成上述修复后,已可通过 Loki API 查到日志,并支持按 app 维度查询。