123
Base 谈谈你对 SRE 的理解 SRE 是 Google 提出来的概念,它的全称是站点可靠性工程(Site Reliability Engineering),其核心目标是 通过工程化手段,提升系统的稳定性、可靠性,当落实到实际应用场景时: 可以通过监控、告警、日志采集等手段提高系统整体的可观测性,并在出现故障时可及时发现; 通过一些辅助手段,例如状态检测脚本,定期检测后端服务可用性,当出现宕机时将流量转移并尝试对其重启恢复。还可以通过 keepalived + VIP 的方式为服务提供统一的访问入口,防止单点失败的情况发生。 谈谈你对 Devops 的理解 xxx 实践场景 一个项目运维交给你后,你会如何梳理,以实现快速上手 信息收集:根据现有的材料,了解: 当前网络拓扑 服务部署方式(容器/service,以及部署数量) 并根据服务配置文件,判断有哪些依赖组件(数据库、外部接口、以及像kafka等其他中间件) 是否有监控、告警、日志采集等运维系统 CICD流程等 信息梳理:将收集的信息,通过表格、拓扑图等方式进行整理归纳; 运维阶段:分析系统薄弱环节,并进行优化,例如:是否有单点失败问题?重要数据是否有备份?监控是否全面?告警策略是否合理? 项目要进行重保,前期、期间、后期如何处理? “项目重保(重点保障)”通常是指某个重要时期的系统稳定性保障,比如:618、双11、促销活动、系统迁移、重大发布、节假日流量高峰等。 重保前期: 系统巡检,确认关键服务、依赖组件、数据库、缓存等状态正常; 准备应急预案,例如线上服务出现问题时的紧急回滚策略等; 权限冻结,只允许紧急变更; 安全漏扫 重保期间: 24h实时监控,关注核心指标(QPS、RT、错误率、CPU、延迟等); 灰度/限流策略:根据流量情况动态限流或启用熔断; 扩缩容策略:自动/手动扩容,保证服务稳定; xxx 重保后期: 复盘,总结经验 遇到过最复杂的问题与解决方案? 磁盘空间使用率超过百分之80% 排查思路: 通过 du -sh /* 从根开始逐级排查大文件,发现应用日志占用了大约 100G 的空间,但将日志删除后,磁盘空间并未释放 使用 lsof | grep 文件名 后发现,该文件仍被进程所占用,进而导致文件描述符未被释放 解决方案: 重启 lsof 中显示的进程,磁盘空间释放,问题解决 以后再删除大文件,找到了一个更好的方案,就是使用 > 文件,通过标准输出重定向的方式将文件置为空,这样可以使磁盘空间立刻得到释放 安装完 docker 并启动容器后,发现宿主机无法访问其他网段的IP ...