none
Windows 2019 两节点镜像 S2D ,关闭一节点后,群集卷脱机。 RRS feed

  • 问题

  • HP DL380G10  Windows 2019 * 2 ,每台800G SSD Cache*2, 4T SAS * 4 ,配置镜像S2D模式。

    前期安装时可能也没注意,依次重启貌似没有问题,到现在存储上有一些服务在跑以后,发现只要一关闭节点1,那么群集将会出现问题。

    群集虚拟磁盘(Volume1) 脱机,显示分离的状态,且无法手动连接;

    而这时群集虚拟磁盘(ClusterPerformanceHistory) 正常,群集的核心资源也都是联机状态(群集IP,名称,见证等)。

    查看错误日志,发现与论坛上搜到的一篇英文帖子故障,报错都几乎完全一致:

    https://social.technet.microsoft.com/Forums/en-US/5aa6b81d-a736-4d50-9ad3-185c37f1bca5/s2d-cluster-2-nodes?forum=ws2019

    2019年7月28日 12:09

全部回复

  • 你好,

    请在以下网站确认您的硬件是否支持

    https://www.windowsservercatalog.com/

    请把server 2019的更新包打到最新

    https://support.microsoft.com/zh-cn/help/4464619/windows-10-update-history

    文档确实支持2节点的部署,但是2节点的部署对故障域要求不超过2个。

    请确保它不会存在双重故障:两个磁盘出现问题 - 您的群集已关闭,一个节点和一个磁盘出现问题 - 群集已关闭,所以我们推荐4节点的部署以来获得更多的故障域和性能。

    您能否提供更详细的报错,在事件查看器里,是否有相关报错产生于事件发生的时间点?请把截图上传到论坛(注意 :隐藏个人信息)

    请查看常见的报错解决方案

    https://docs.microsoft.com/zh-cn/windows-server/storage/storage-spaces/troubleshooting-storage-spaces

    'STATUS_VOLMGR_PACK_WITHOUT_QUORUM(c0380035)

    这里的报错是仲裁丢失了,请问您用的什么见证?

    原因您可以参考下面的相似贴

    https://social.technet.microsoft.com/Forums/en-US/74dbd313-741e-424e-8acb-d7d68e22174c/two-node-s2d-cluster-disk-volume-fails-when-one-host-goes-down?forum=ws2016

    请注意Elden Christensen说的话

    解决方案

    请参考下面的链接

    http://kreelbits.blogspot.com/2018/04/s2d-recovering-detached-virtual-disk.html

    http://kreelbits.blogspot.com/2018/07/the-proper-way-to-take-storage-spaces.html


    Please Note: Since the web site is not hosted by Microsoft, the link may change without notice. Microsoft does not guarantee the accuracy of this information.

    如果您还是想使用2节点的部署,也有一种新的方案推荐给您。

    https://docs.microsoft.com/zh-cn/windows-server/storage/storage-spaces/nested-resiliency


    Best Regards,

    Frank


    Please remember to mark the replies as an answers if they help.
    If you have feedback for TechNet Subscriber Support, contact tnmff@microsoft.com

    2019年7月29日 6:56
    版主
  • 与我之前转帖的那个链接一样,使用域控作为文件见证。

    而更新,已经是累计更新2019 07;

    硬件是按照 Windows 2019 S2D 兼容性列表采购的,这个应该没有问题,已经通过厂商的光盘将驱动刷到了最新。

    且与你发的链接一样,在切换或者关闭1个节点前,通过Get-StorageJob 确认同步已完成,群集磁盘的状态是正常。

    网卡是HP贴标Mellanox 41芯片:

    Driver Version : 2.20.21096.0
    Firmware Version : 14.23.8052
    Port Number : 1
    Bus Type : PCI-E 8.0 GT/s x8
    Link Speed : 25.0 Gbps/Full Duplex
    Part Number : 817747-001
    Serial Number : ACA82901X1
    Device Id : 4117
    Revision Id : 0
    Current MAC Address : 
    Permanent MAC Address : 
    Network Status : Connected
    Adapter Friendly Name : CX41
    Port Type : ETH
    IPv4 Address #1 : 

    文中提到的SES:

    PS C:\Windows\system32> Get-StorageEnclosure | Get-PhysicalDisk

    DeviceId FriendlyName     SerialNumber MediaType CanPool OperationalStatus HealthStatus Usage
    -------- ------------     ------------ --------- ------- ----------------- ------------ -----
    2004     HP MB4000JVYZQ   ZC1ARLCH     HDD       False   OK                Healthy      Auto-Select
    2002     HP MB4000JVYZQ   ZC1AQFN1     HDD       False   OK                Healthy      Auto-Select
    2005     HP MO000800JWTBR 49C0A1M0T0QR SSD       False   OK                Healthy      Journal
    2006     HP MO000800JWTBR 49C0A1LST0QR SSD       False   OK                Healthy      Journal
    2001     HP MB4000JVYZQ   ZC1AQEX1     HDD       False   OK                Healthy      Auto-Select
    2003     HP MB4000JVYZQ   ZC1AQDM2     HDD       False   OK                Healthy      Auto-Select
    1003     HP MB4000JVYZQ   ZC1AQGKD     HDD       False   OK                Healthy      Auto-Select
    1006     HP MO000800JWTBR 49C0A1M1T0QR SSD       False   OK                Healthy      Journal
    1005     HP MO000800JWTBR 49C0A1LQT0QR SSD       False   OK                Healthy      Journal
    1004     HP MB4000JVYZQ   ZC1AQDQL     HDD       False   OK                Healthy      Auto-Select
    1001     HP MB4000JVYZQ   ZC1AP9TL     HDD       False   OK                Healthy      Auto-Select
    1002     HP MB4000JVYZQ   ZC1AQDMP     HDD       False   OK                Healthy      Auto-Select


    PS C:\Windows\system32> Get-StorageEnclosure

    FriendlyName      SerialNumber   OperationalStatus HealthStatus NumberOfSlots ElementTypesInError
    ------------      ------------   ----------------- ------------ ------------- -------------------
    HPE Smart Adapter PEYHC0DRHC81VE OK                Healthy      8
    HPE Smart Adapter PEYHL0ARCBJ13F OK                Healthy      2
    HPE Smart Adapter PEYHC0DRHC82LN OK                Healthy      8
    HPE Smart Adapter PEYHL0ARCBJ1C8 OK                Healthy      2

    • 已编辑 jj163 2019年7月30日 1:54
    2019年7月30日 1:49
  • 你好

    基于复杂性和具体情况,我们需要做更多的研究。 如果我们对这个问题有任何更新或有任何想法,我们会尽快发布。 感谢您的理解。 如果您在此期间有进一步的信息,可以在论坛上发帖,这有助于我们全面了解和分析这个问题。

    对于这种问题,可能需要比较多事件日志和cluster日志的综合分析以及一些调试,如果事件比较紧急的话,我们建议您向微软寻求企业咨询服务,以便您可以得到更快速的回应。

    https://support.microsoft.com/zh-cn/gp/support-options-for-business 


    不便之处,感谢您的谅解和耐心。

    Best Regards,

    Frank


    Please remember to mark the replies as an answers if they help.
    If you have feedback for TechNet Subscriber Support, contact tnmff@microsoft.com

    2019年7月30日 6:05
    版主
  • 非常好,我收藏了!
    2019年7月30日 9:48
  • 更新一下:

    两台服务器使嵌套的镜像以及奇偶校验模式,重启节点1会有50% 几率故障。

    2019年8月5日 7:25
  • 你好,

    感谢你的更新。

    Best Regards,

    Frank


    Please remember to mark the replies as an answers if they help.
    If you have feedback for TechNet Subscriber Support, contact tnmff@microsoft.com

    2019年8月6日 7:18
    版主