【實戰分享】重建我的 Proxmox 家用實驗室:WhatsUp Gold 360、HA 測試與真實災難復原

嗨,各位科技同好!最近我花了一些時間,重新打造家中的 Proxmox 實驗室,這是一段充滿驚喜與教訓的技術旅程。這次的重建不只挑戰了我對虛擬化的理解,也讓我親身體驗了高可用性(HA)、ZFS 儲存韌性、真實災難復原(DR)流程。這篇文章將帶大家看看我如何從無到有,建立一套高效又穩定的環境。

架構設計:選擇 Proxmox 與 ZFS 的理由

我選擇 Proxmox 作為核心虛擬化平台,主要看重以下幾點:

  • 內建高可用性(HA)機制
  • 自動故障轉移與備份功能
  • 開源且社群活躍,資源豐富

在儲存方面,我採用了 ZFS 搭配本地陣列的資料複製,同時也透過 NFS 建立第二層的共享儲存。原本想透過模擬來測試 HA,沒想到意外真的來了……

意外的災難測試:從網卡異常啟動 HA

我使用的是舊型 HPe DL360 Gen9 主機,其中一張 10GbE 網卡不穩,導致 Linux bonding 頻繁斷線,意外觸發了 HA。Proxmox 立即啟動故障轉移程序,花不到三秒就把受影響的虛擬機轉移至其他節點,WhatsUp Gold 服務在 40 秒內自動恢復!

有趣的是,ZFS 複製的儲存比 NFS 儲存還快恢復使用,這可能跟連接速度(10GbE 對 2GbE)有關,這也再次證明 ZFS 的穩定性與效能。

借助 GenAI 提升部署效率

我透過 GenAI 輔助配置整個叢集,根據硬體資源調整設定、建立 HA 結構與 ZFS 複製流程。同時,我也寫了一支 PowerShell 腳本,透過 Proxmox API 擷取主機與 VM 資訊,並整合至 WhatsUp Gold 的監控系統中。此外,我還建立了 Proxmox 的 SNMP 模板,讓 WhatsUp Gold 可即時監控服務狀態。

HA 驗證:從 Kernel Panic 中學到的事

在一次核心異常(kernel panic)事件中,我實際驗證了 HA 功能的穩定度。透過 GenAI 的協助,我快速比對日誌、追蹤時間點並確認原因,成功重建了整個節點並讓 HA 自動恢復運作,這讓我對新環境的穩定性更具信心。

NFS 儲存中斷事件:真實災難來了!

某個星期五早上,我突然收到 WhatsUp Gold 360 警示,指出連接器異常。打開網站一看,整個生產環境竟然下線!

深入調查發現:所有托管在 NFS 的 VM 全數失聯,包括主力 WhatsUp Gold 伺服器。NFS 系統完全宕機,無法 ping 通、SSH、HTTPS 也都失效。這次事件讓我更堅信:「備份」與「儲存冗餘」永遠是系統設計的核心。

從備份中重生:一步步救回我的 VM

我先強制重啟儲存系統,並從 USB 裝置還原備份。在 GenAI 協助下,我逐步建立新的 Linux VM,使用 WinSCP 傳輸檔案、qemu-img 轉換磁碟,順利還原 AlmaLinux 與 Ubuntu 系統。

比較棘手的是 Windows VM,無論如何都無法啟動。最後我找到了 guestmount 工具,直接掛載虛擬磁碟、擷取 SQL Server 資料庫(MDF/LDF),再移植至 ZFS 測試機,成功救回數據。

學到的教訓與系統調整

這次經驗讓我更加重視以下幾點:

  1. ZFS 的穩定性:在整個故障期間,ZFS VM 完全沒受影響。
  2. 多層次備份策略
    • Proxmox 定期備份至 ZFS 本地磁碟陣列
    • 每日/每週備份至 NFS
    • 透過 WinSCP 將備份複製至 Windows 主機並同步至 OneDrive
  3. 減少 NFS 過度依賴:我已將大部分 VM 移至 ZFS 儲存,NFS 僅作為異地備援使用。

結語:從混亂中建立韌性架構

從一開始的建置、到突如其來的故障與還原,這段旅程充滿挑戰與成就感。Proxmox 的強大能力,加上 ZFS 與備份策略,讓我建立起能應對真實場景的堅韌環境。

未來我將繼續優化家庭實驗室的架構,也會持續分享更多經驗。如果你也在經營家庭 Lab,或對高可用性架構有興趣,歡迎交流!

本文改寫自 Jason Alberino 發表於 Progress WhatsUp Gold 官方部落格的原文

返回頂端