2025 Homelab 運維年度報告

Homelab 運維年度報告Posthomelab

2025 Homelab 運維年度報告

2025 Homelab 運維年度報告

年度服務水準達成

設定目標與實際表現

  • 服務水準目標 (SLO): 85%
  • 實際服務水準 (SLA): 89%
  • 結論: 達成 2025 年度 SLO

整體而言,系統可用性符合預期目標。考量到這是單人維運的 Homelab 環境,且無全天候監控機制,此成績顯示基礎架構設計及日常維護工作具備一定成效。

重大事件分析

事件一:S03 伺服器儲存設備故障 [2025-03]

事件描述

S03 伺服器發生 SSD 完全失效的硬體故障,儲存設備無法被系統識別。經診斷後確認為硬體層級問題,需透過製造商 RMA 流程處理。

時間軸與影響

  • RMA 處理週期:31 天
  • 資料損失:約 300MB
  • 其餘資料狀態:完整保存

技術分析

此次故障屬於突發性硬體失效,事前無明顯徵兆。SMART 監控數據未能提前預警,推測為 SSD 控制器或 NAND Flash 突發性故障。

改進方向

  • 加強 SMART 數據監控頻率與告警機制
  • 評估建立本地 hot spare 庫存,縮短硬體更換時間
  • 檢視備份策略,考慮提高關鍵資料的備份頻率
  • 測試從備份完整恢復的流程與時效

事件二:AWS US-East-1 區域中斷影響備份系統 [2025-10]

事件描述

AWS 美國東部第一區域發生服務中斷,導致部署於該區域的異地備份系統暫時無法存取。

影響範圍

  • 受影響服務:異地備份系統
  • 中斷時長:與 AWS 官方公告一致
  • 本地服務:未受影響

基礎設施變更

伺服器汰換專案 [2025-02]

變更內容

完成舊世代伺服器的退役與更新作業。

  • 退役設備:S01 (舊版)、S02、S03
  • 新增設備:S01 (新版)

S03 於汰換前一個月發生硬體故障。建議儘快完成整體基礎架構的現代化。

硬體老化

目前 Homelab 中的多數硬體已服役近十年,正逐步接近其生命週期終點 (End-of-Life)。基於本年度的經驗,計劃於 2026 年啟動全面性的基礎設施現代化計畫

  • 完成 S02 及 S03 的硬體更新,與已升級的 S01 看齊
  • 汰換所有服役超過 8 年的儲存設備

報告日期: 2025-11-09
維運環境: Project Atlas: Global Infrastructure Modernization Initiative 2025

Homelab

Homelab