2025 Homelab 運維年度報告
2025 Homelab 運維年度報告
年度服務水準達成
設定目標與實際表現
- 服務水準目標 (SLO): 85%
- 實際服務水準 (SLA): 89%
- 結論: 達成 2025 年度 SLO
整體而言,系統可用性符合預期目標。考量到這是單人維運的 Homelab 環境,且無全天候監控機制,此成績顯示基礎架構設計及日常維護工作具備一定成效。
重大事件分析
事件一:S03 伺服器儲存設備故障 [2025-03]
事件描述
S03 伺服器發生 SSD 完全失效的硬體故障,儲存設備無法被系統識別。經診斷後確認為硬體層級問題,需透過製造商 RMA 流程處理。
時間軸與影響
- RMA 處理週期:31 天
- 資料損失:約 300MB
- 其餘資料狀態:完整保存
技術分析
此次故障屬於突發性硬體失效,事前無明顯徵兆。SMART 監控數據未能提前預警,推測為 SSD 控制器或 NAND Flash 突發性故障。
改進方向
- 加強 SMART 數據監控頻率與告警機制
- 評估建立本地 hot spare 庫存,縮短硬體更換時間
- 檢視備份策略,考慮提高關鍵資料的備份頻率
- 測試從備份完整恢復的流程與時效
事件二:AWS US-East-1 區域中斷影響備份系統 [2025-10]
事件描述
AWS 美國東部第一區域發生服務中斷,導致部署於該區域的異地備份系統暫時無法存取。
影響範圍
- 受影響服務:異地備份系統
- 中斷時長:與 AWS 官方公告一致
- 本地服務:未受影響
基礎設施變更
伺服器汰換專案 [2025-02]
變更內容
完成舊世代伺服器的退役與更新作業。
- 退役設備:S01 (舊版)、S02、S03
- 新增設備:S01 (新版)
S03 於汰換前一個月發生硬體故障。建議儘快完成整體基礎架構的現代化。
硬體老化
目前 Homelab 中的多數硬體已服役近十年,正逐步接近其生命週期終點 (End-of-Life)。基於本年度的經驗,計劃於 2026 年啟動全面性的基礎設施現代化計畫
- 完成 S02 及 S03 的硬體更新,與已升級的 S01 看齊
- 汰換所有服役超過 8 年的儲存設備
報告日期: 2025-11-09
維運環境: Project Atlas: Global Infrastructure Modernization Initiative 2025