Interviews

Base 谈谈你对 SRE 的理解 SRE 是 Google 提出来的概念，它的全称是站点可靠性工程（Site Reliability Engineering），其核心目标是通过工程化手段，提升系统的稳定性、可靠性，当落实到实际应用场景时：可以通过监控、告警、日志采集等手段提高系统整体的可观测性，并在出现故障时可及时发现；通过一些辅助手段，例如状态检测脚本，定期检测后端服务可用性，当出现宕机时将流量转移并尝试对其重启恢复。还可以通过 keepalived + VIP 的方式为服务提供统一的访问入口，防止单点失败的情况发生。谈谈你对 Devops 的理解 xxx 实践场景一个项目运维交给你后，你会如何梳理，以实现快速上手信息收集：根据现有的材料，了解：当前网络拓扑服务部署方式（容器/service，以及部署数量）并根据服务配置文件，判断有哪些依赖组件（数据库、外部接口、以及像kafka等其他中间件）是否有监控、告警、日志采集等运维系统 CICD流程等信息梳理：将收集的信息，通过表格、拓扑图等方式进行整理归纳；运维阶段：分析系统薄弱环节，并进行优化，例如：是否有单点失败问题？重要数据是否有备份？监控是否全面？告警策略是否合理？项目要进行重保，前期、期间、后期如何处理？ “项目重保（重点保障）”通常是指某个重要时期的系统稳定性保障，比如：618、双11、促销活动、系统迁移、重大发布、节假日流量高峰等。重保前期：系统巡检，确认关键服务、依赖组件、数据库、缓存等状态正常；准备应急预案，例如线上服务出现问题时的紧急回滚策略等；权限冻结，只允许紧急变更；安全漏扫重保期间： 24h实时监控，关注核心指标（QPS、RT、错误率、CPU、延迟等）；灰度/限流策略：根据流量情况动态限流或启用熔断；扩缩容策略：自动/手动扩容，保证服务稳定； xxx 重保后期：复盘，总结经验遇到过最复杂的问题与解决方案？磁盘空间使用率超过百分之80% 排查思路：通过 du -sh /* 从根开始逐级排查大文件，发现应用日志占用了大约 100G 的空间，但将日志删除后，磁盘空间并未释放使用 lsof | grep 文件名后发现，该文件仍被进程所占用，进而导致文件描述符未被释放解决方案：重启 lsof 中显示的进程，磁盘空间释放，问题解决以后再删除大文件，找到了一个更好的方案，就是使用 > 文件，通过标准输出重定向的方式将文件置为空，这样可以使磁盘空间立刻得到释放安装完 docker 并启动容器后，发现宿主机无法访问其他网段的IP ...

Interviews

123

321