【實戰分享】重建我的 Proxmox 家用實驗室：WhatsUp Gold 360、HA 測試與真實災難復原

【實戰分享】重建我的 Proxmox 家用實驗室：WhatsUp Gold 360、HA 測試與真實災難復原

嗨，各位科技同好！最近我花了一些時間，重新打造家中的 Proxmox 實驗室，這是一段充滿驚喜與教訓的技術旅程。這次的重建不只挑戰了我對虛擬化的理解，也讓我親身體驗了高可用性（HA）、ZFS 儲存韌性、真實災難復原（DR）流程。這篇文章將帶大家看看我如何從無到有，建立一套高效又穩定的環境。

架構設計：選擇 Proxmox 與 ZFS 的理由

我選擇 Proxmox 作為核心虛擬化平台，主要看重以下幾點：

內建高可用性（HA）機制
自動故障轉移與備份功能
開源且社群活躍，資源豐富

在儲存方面，我採用了 ZFS 搭配本地陣列的資料複製，同時也透過 NFS 建立第二層的共享儲存。原本想透過模擬來測試 HA，沒想到意外真的來了……

意外的災難測試：從網卡異常啟動 HA

我使用的是舊型 HPe DL360 Gen9 主機，其中一張 10GbE 網卡不穩，導致 Linux bonding 頻繁斷線，意外觸發了 HA。Proxmox 立即啟動故障轉移程序，花不到三秒就把受影響的虛擬機轉移至其他節點，WhatsUp Gold 服務在 40 秒內自動恢復！

有趣的是，ZFS 複製的儲存比 NFS 儲存還快恢復使用，這可能跟連接速度（10GbE 對 2GbE）有關，這也再次證明 ZFS 的穩定性與效能。

借助 GenAI 提升部署效率

我透過 GenAI 輔助配置整個叢集，根據硬體資源調整設定、建立 HA 結構與 ZFS 複製流程。同時，我也寫了一支 PowerShell 腳本，透過 Proxmox API 擷取主機與 VM 資訊，並整合至 WhatsUp Gold 的監控系統中。此外，我還建立了 Proxmox 的 SNMP 模板，讓 WhatsUp Gold 可即時監控服務狀態。

HA 驗證：從 Kernel Panic 中學到的事

在一次核心異常（kernel panic）事件中，我實際驗證了 HA 功能的穩定度。透過 GenAI 的協助，我快速比對日誌、追蹤時間點並確認原因，成功重建了整個節點並讓 HA 自動恢復運作，這讓我對新環境的穩定性更具信心。

NFS 儲存中斷事件：真實災難來了！

某個星期五早上，我突然收到 WhatsUp Gold 360 警示，指出連接器異常。打開網站一看，整個生產環境竟然下線！

深入調查發現：所有托管在 NFS 的 VM 全數失聯，包括主力 WhatsUp Gold 伺服器。NFS 系統完全宕機，無法 ping 通、SSH、HTTPS 也都失效。這次事件讓我更堅信：「備份」與「儲存冗餘」永遠是系統設計的核心。

從備份中重生：一步步救回我的 VM

我先強制重啟儲存系統，並從 USB 裝置還原備份。在 GenAI 協助下，我逐步建立新的 Linux VM，使用 WinSCP 傳輸檔案、qemu-img 轉換磁碟，順利還原 AlmaLinux 與 Ubuntu 系統。

比較棘手的是 Windows VM，無論如何都無法啟動。最後我找到了 guestmount 工具，直接掛載虛擬磁碟、擷取 SQL Server 資料庫（MDF/LDF），再移植至 ZFS 測試機，成功救回數據。

學到的教訓與系統調整

這次經驗讓我更加重視以下幾點：

ZFS 的穩定性：在整個故障期間，ZFS VM 完全沒受影響。
多層次備份策略：
- Proxmox 定期備份至 ZFS 本地磁碟陣列
- 每日/每週備份至 NFS
- 透過 WinSCP 將備份複製至 Windows 主機並同步至 OneDrive
減少 NFS 過度依賴：我已將大部分 VM 移至 ZFS 儲存，NFS 僅作為異地備援使用。

結語：從混亂中建立韌性架構

從一開始的建置、到突如其來的故障與還原，這段旅程充滿挑戰與成就感。Proxmox 的強大能力，加上 ZFS 與備份策略，讓我建立起能應對真實場景的堅韌環境。

未來我將繼續優化家庭實驗室的架構，也會持續分享更多經驗。如果你也在經營家庭 Lab，或對高可用性架構有興趣，歡迎交流！

本文改寫自 Jason Alberino 發表於 Progress WhatsUp Gold 官方部落格的原文