none
Cluster Failover + Quorum - Configuração/Problema RRS feed

  • Pergunta

  • Ola Pessoal,

    Primeiramente, meu cenário é,

    2 Nós - Hyper-v Server 2016, ambos atualizados e um storage IBM, cada nó tem duas placas de rede e no Windows foi configurado NIC Team no modo dinamico com LACP no Switch

    Os nós tem praticamente o mesmo hardware (um deles tem menos memória), a comunicação deles com o storage é via fibra, um deles está com dois fibre channel conectados e o outro com um porem ambos tem MPIO e drivers configurados, no storage criei duas luns e apresentei para o grupo onde estão somente os nós, uma lun com 1,5 TB e outra com 1GB.

    Estou criando o cluster e testando para uso em produção, tenho o seguinte problema nesse cenário, o disco de 1,5TB foi colocado como CSV e o ode 1GB como testemunha de quorum, fiz a validação do cluster e corrigi tudo que foi apresentado no relatório, agora o problema, se o Nó que esta naquele momento como owner do disco quorum ficar offline, o cluster para, o segundo nó não assume os recursos clusterizados nem discos, nada... Com os dois nós online, consigo mover VMs, discos e funções principais sem problemas e o failover funciona se  o nó que fica off não for o owner do cluster.. detalhe, se ao invés de utilizar um disco como quorum eu configurar um compartilhamento de arquivos, tudo funciona normalmente...

    Esses são os eventos gerados, no nó owner do clusterb( nó A)

    #

    O nó do cluster B foi removido da associação ativa do cluster de failover. Talvez o serviço de Cluster nesse nó tenha sido interrompido. Isso também pode ter ocorrido porque o nó perdeu a comunicação com outros nós ativos no cluster de failover. Execute o Assistente para Validar Configuração para verificar a configuração de rede. Se a condição persistir, verifique se há erros de hardware ou software relacionados ao adaptador de rede. Além disso, verifique se há falhas em outros componentes da rede aos quais o nó esteja conectado, como hubs, comutadores ou pontes.:

    eventos gerados no outro nó (nó B)

    #

    O nó do cluster A foi removido da associação ativa do cluster de failover. Talvez o serviço de Cluster nesse nó tenha sido interrompido. Isso também pode ter ocorrido porque o nó perdeu a comunicação com outros nós ativos no cluster de failover. Execute o Assistente para Validar Configuração para verificar a configuração de rede. Se a condição persistir, verifique se há erros de hardware ou software relacionados ao adaptador de rede. Além disso, verifique se há falhas em outros componentes da rede aos quais o nó esteja conectado, como hubs, comutadores ou pontes.

    #

    O recurso de cluster 'QuorumDisk' do tipo 'Physical Disk' na função clusterizada 'Grupo de Clusters' falhou.

    Com base nas políticas de falha para o recurso e a função, o serviço de cluster pode tentar colocar o recurso online neste nó ou mover o grupo para outro nó do cluster e reiniciá-lo. Verifique o estado do recurso e do grupo usando o Gerenciador de Cluster de Failover ou o cmdlet Get-ClusterResource do Windows PowerShell.

    #

    A função de cluster 'Grupo de Clusters' excedeu o limite de failover. Ela esgotou o número configurado de tentativas de failover no período alocado para isso e ficará no estado de falha. Nenhuma outra tentativa será feita para colocar a função em modo online ou executar failover dela em outro nó do cluster. Verifique os eventos associados à falha. Depois de eliminadas as causas da falha, a função poderá ser colocada em modo online manualmente ou o cluster poderá tentar fazer isso outra vez após o período de atraso de reinicialização.

    #

    O serviço de Cluster está sendo encerrado porque o quorum foi perdido. Isso pode ser causado pela perda de conectividade entre alguns dos nós do cluster ou todos eles, ou devido ao failover do disco testemunha.
    Execute o Assistente para Validar Configuração para verificar a configuração de rede. Se a condição persistir, verifique se há erros de hardware ou software relacionados ao adaptador de rede. Além disso, verifique se há falhas em outros componentes da rede aos quais o nó esteja conectado, como hubs, comutadores ou pontes.

    #

    O RHS (Subsistema de Hospedagem de Recursos) do cluster foi terminado e será reiniciado. Isso normalmente é associado à detecção de integridade do cluster e à recuperação de um recurso. Consulte o log de eventos do Sistema para determinar o recurso e a DLL de recurso que estão causando o problema.

    No storage os hosts foram adicionados tanto com suporte a multipath dinamico quanto sem, ja tentei recriar as luns e checar eventos no storage, no Windows já tentei deixar o quorum offline para depois adicionar no cluster e configurar o wuorum, tambem tentei ntfs, refs, tentei deixar online e com letra e depois adicionar no quorum, nada resolveu...

    Alguém já passou por esse problema ou tem alguma sugestão?

    Obrigado

    quinta-feira, 2 de agosto de 2018 01:53

Respostas

  • Boa tarde,

    Por falta de retorno essa thread está encerrada.

    Se necessário favor abrir uma nova thread.

    Atenciosamente,

    Igor F. Kunrath

    Esse conteúdo é fornecido sem garantias de qualquer tipo, seja expressa ou implícita

    Technet Community Support

    Por favor, lembre-se de Marcar como Resposta as postagens que resolveram o seu problema. Essa é uma maneira comum de reconhecer aqueles que o ajudaram e fazer com que seja mais fácil para os outros visitantes encontrarem a resolução mais tarde.

    • Marcado como Resposta IgorFKModerator quarta-feira, 22 de agosto de 2018 12:38
    quarta-feira, 22 de agosto de 2018 12:38
    Moderador

Todas as Respostas

  • Pessoal, notei o seguinte comportamento hoje..:

    Para teste os dois nós foram formatados com hyper-v server 2012 r2, atualizados, instalei os drivers mpio e o cluster foi recriado, fiz o teste desconectando a rede de um deles (mas mantive a conexão com storage), do nó que era owner do quorum, novamente tudo parou, mas notei olhando pelos eventos que era como se o nó A estivesse informando que o nó B foi removido e o B informava que o A foi removido, notei que uma vm...

    Fiz então outro teste, forçando o desligamento do servidor, ou seja, perdeu rede e storage ao mesmo tempo, nesse caso o outro nó assumiu todas as funções...

    Eu imaginava que quando um nó fica fora da rede mas ainda tem conexão com storage, ainda sim ele seria removido e outro assumiria.. alguem ja viu esse comportamento?

    sábado, 4 de agosto de 2018 18:47
  • Boa tarde Guilherme F. Carvalho, tudo bem?

    Houve algum progresso no seu caso? Conseguiu descobrir alguma coisa a mais sobre o assunto?

    Atenciosamente, 


    Igor F. Kunrath

    Esse conteúdo é fornecido sem garantias de qualquer tipo, seja expressa ou implícita

    Technet Community Support

    Por favor, lembre-se de Marcar como Resposta as postagens que resolveram o seu problema. Essa é uma maneira comum de reconhecer aqueles que o ajudaram e fazer com que seja mais fácil para os outros visitantes encontrarem a resolução mais tarde.

    quinta-feira, 16 de agosto de 2018 18:46
    Moderador
  • Boa tarde,

    Por falta de retorno essa thread está encerrada.

    Se necessário favor abrir uma nova thread.

    Atenciosamente,

    Igor F. Kunrath

    Esse conteúdo é fornecido sem garantias de qualquer tipo, seja expressa ou implícita

    Technet Community Support

    Por favor, lembre-se de Marcar como Resposta as postagens que resolveram o seu problema. Essa é uma maneira comum de reconhecer aqueles que o ajudaram e fazer com que seja mais fácil para os outros visitantes encontrarem a resolução mais tarde.

    • Marcado como Resposta IgorFKModerator quarta-feira, 22 de agosto de 2018 12:38
    quarta-feira, 22 de agosto de 2018 12:38
    Moderador
  • El tema fue solucionado?.. A mi me pasa lo mismo.
    sexta-feira, 25 de janeiro de 2019 18:55