none
Multisubnet deve estar fixa? RRS feed

  • Dotaz


  • Boa noite, estou com um problema que não consigo entender, espero que alguém possa me ajudar. Tenho o seguinte ambiente: 

    placa1 com dois ip:

    172.31.128.11/20 

    172.31.128.10/20

    placa2 com dois ip:

    172.31.64.10/20

    172.31.64.11/20

    Os ips com final 11 são referentes ao grupo do MSSQL alwaysOn, problema é quando atribuir na mão o segundo ip 172.31.64.11/20 na placa de rede, o cluster do windows não conseguir virar (Estava tentando fazer o failover do SQL sem perca de dados). Porém quando ele tentar virar o nó dava erro e tinha que retornar para o outro nó2. Após remover a atribuição manual da placa de rede, o Windows Failover Cluster conseguiu iniciar a placa.

    A role configurada no "Windows Failover Cluster" nó1 - 172.31.64.11/20 e nó2 - 172.31.128.11/20.

    Cada nó tem 2 placa de redes, em nétwork vejos as 4 como up. cada placa terá 2 ips, configuração está por quorum.

    Preciso definir na mão o segundo ip?

    Porque o nó dois está fixado o segundo ip e não tenho esse tipo de problema.

    Erro que ocorreu:

    "Cluster resource 'AG_1_172.31.128.11' of type 'IP Address' in clustered role 'AG_1' failed.

    Based on the failure policies for the resource and role, the cluster service may try to bring the resource online on this node or move the group to another node of the cluster and then restart it.  Check the resource and group state using Failover Cluster Manager or the Get-ClusterResource Windows PowerShell cmdlet."

    "Clustered role 'AG_1' has exceeded its failover threshold.  It has exhausted the configured number of failover attempts within the failover period of time allotted to it and will be left in a failed state.  No additional attempts will be made to bring the role online or fail it over to another node in the cluster.  Please check the events associated with the failure.  After the issues causing the failure are resolved the role can be brought online manually or the cluster may attempt to bring it online again after the restart delay period."

    "The Cluster service failed to bring clustered role 'AG_1' completely online or offline. One or more resources may be in a failed state. This may impact the availability of the clustered role."

    Erro ao tentar fazer o failover manual:

    "

    Cannot bring the Windows Server Failover Clustering (WSFC) resource (ID 'bb21b3cb-aa2a-4bef-b318-1a36c2078d') online (Error code 5942).  The WSFC service may not be running or may not be accessible in its current state, or the WSFC resource may not be in a state that could accept the request.  For information about this error code, see "System Error Codes" in the Windows Development documentation.
    Failed to designate the local availability replica of availability group 'AG_1' as the primary replica.  The operation encountered SQL Server error 41066 and has been terminated.  Check the preceding error and the SQL Server error log for more details about the error and corrective actions. (.Net SqlClient Data Provider)"


    Desde já agradeço a atenção e paciência.


    Guisal

    neděle 20. ledna 2019 21:48

Odpovědi

  • GuiSal,

    Então o uso do DHCP para reservar o endereço de IP é uma solução, mas não adianta deixar o IP fixo na placa se a mesma não esta em uso.

    Esta falha justamente esta ocorrendo devido a configuração do TTL, neste caso, a tabela ARP não é atualizada e quando os pacotes de rede utilizados pela serviço DNS são trocados, pode estar ocorrendo indevidamente uma falha no direcionamento e identificação dos pacotes, consequentemente falhas na troca de dados.

    Utilize os comandos NBTStat e ARP informando os endereços de IPs envolvidos neste ambiente de failover, recomendo atualizar o cache do servidor DNS antes de realizar a execução destes comandos.


    Pedro Antonio Galvão Junior [MVP | MCC | MSTC | MIE | Microsoft Evangelist | Microsoft Partner | Engenheiro de Softwares | Especialista em Banco de Dados | Professor Universitário | @JuniorGalvaoMVP | http://pedrogalvaojunior.wordpress.com]

    • Označen jako odpověď GuiSal úterý 29. ledna 2019 9:29
    pátek 25. ledna 2019 16:22
    Moderátor

Všechny reakce


  • Boa noite, estou com um problema que não consigo entender, espero que alguém possa me ajudar. Tenho o seguinte ambiente: 

    placa1 com dois ip:

    172.31.128.11/20 

    172.31.128.10/20

    placa2 com dois ip:

    172.31.64.10/20

    172.31.64.11/20

    Os ips com final 11 são referentes ao grupo do MSSQL alwaysOn, problema é quando atribuir na mão o segundo ip 172.31.64.11/20 na placa de rede, o cluster do windows não conseguir virar (Estava tentando fazer o failover do SQL sem perca de dados). Porém quando ele tentar virar o nó dava erro e tinha que retornar para o outro nó2. Após remover a atribuição manual da placa de rede, o Windows Failover Cluster conseguiu iniciar a placa.

    A role configurada no "Windows Failover Cluster" nó1 - 172.31.64.11/20 e nó2 - 172.31.128.11/20.

    Cada nó tem 2 placa de redes, em nétwork vejos as 4 como up. cada placa terá 2 ips, configuração está por quorum.

    Preciso definir na mão o segundo ip?

    Porque o nó dois está fixado o segundo ip e não tenho esse tipo de problema.

    Erro que ocorreu:

    "Cluster resource 'AG_1_172.31.128.11' of type 'IP Address' in clustered role 'AG_1' failed.

    Based on the failure policies for the resource and role, the cluster service may try to bring the resource online on this node or move the group to another node of the cluster and then restart it.  Check the resource and group state using Failover Cluster Manager or the Get-ClusterResource Windows PowerShell cmdlet."

    "Clustered role 'AG_1' has exceeded its failover threshold.  It has exhausted the configured number of failover attempts within the failover period of time allotted to it and will be left in a failed state.  No additional attempts will be made to bring the role online or fail it over to another node in the cluster.  Please check the events associated with the failure.  After the issues causing the failure are resolved the role can be brought online manually or the cluster may attempt to bring it online again after the restart delay period."

    "The Cluster service failed to bring clustered role 'AG_1' completely online or offline. One or more resources may be in a failed state. This may impact the availability of the clustered role."

    Erro ao tentar fazer o failover manual:

    "

    Cannot bring the Windows Server Failover Clustering (WSFC) resource (ID 'bb21b3cb-aa2a-4bef-b318-1a36c2078d') online (Error code 5942).  The WSFC service may not be running or may not be accessible in its current state, or the WSFC resource may not be in a state that could accept the request.  For information about this error code, see "System Error Codes" in the Windows Development documentation.
    Failed to designate the local availability replica of availability group 'AG_1' as the primary replica.  The operation encountered SQL Server error 41066 and has been terminated.  Check the preceding error and the SQL Server error log for more details about the error and corrective actions. (.Net SqlClient Data Provider)"


    Desde já agradeço a atenção e paciência.


    Guisal

    Esqueci de falar no primeiro post:

    Antes estava funcionando corretamente, tive que alterar a driver da placa e ocorreu esse problemas.

    O sufixo DNS estão corretor nos dois nós.

    A validação do Cluster não deu nenhum falha, apenas warning de configuração do tipo ttl maior que o sugerido ou que não localizou disco ou "

      The RegisterAllProvidersIP property for network name 'Name: Listener_AG1' is set to 1. For the current cluster configuration this value should be set to 0.

    "

    Mas o cliente utilizar o MultiSubnetFailover=True para conexão então está ok.


    Guisal


    • Upravený GuiSal neděle 20. ledna 2019 22:18 Faltou informação
    neděle 20. ledna 2019 22:14
  • GuiSal,

    Por acaso no seu servidor DNS e DHCP o mac address da placa de rede foi configurado para algum IP?


    Pedro Antonio Galvão Junior [MVP | MCC | MSTC | MIE | Microsoft Evangelist | Microsoft Partner | Engenheiro de Softwares | Especialista em Banco de Dados | Professor Universitário | @JuniorGalvaoMVP | http://pedrogalvaojunior.wordpress.com]

    pondělí 21. ledna 2019 12:10
    Moderátor
  • Não tenho DHCP no ambiente, somente o serviço de AD e DNS.

    Guisal

    pondělí 21. ledna 2019 13:26
  • GuiSal,

    Ok, bom, se o TTL esta dando maior do que o sugerido temos ai um cenário em que seu ambiente de rede pode estar tendo problemas para realizar o direcionamento dos pacotes e responder as solicitações de rede.

    Por acaso você já reinicializou o servidor DNS? Ao executar o comando NSLookup o que é apresentado?


    Pedro Antonio Galvão Junior [MVP | MCC | MSTC | MIE | Microsoft Evangelist | Microsoft Partner | Engenheiro de Softwares | Especialista em Banco de Dados | Professor Universitário | @JuniorGalvaoMVP | http://pedrogalvaojunior.wordpress.com]

    středa 23. ledna 2019 17:11
    Moderátor
  • O tll foi configurado mais alto para o caso de problema ou desligamento do servidor as máquinas não atualizarem ou tentar atualizar os ips e perder a conexão.

    nslookup retorna os dois ips quando os dois registros estão no servidor.

    Copiei as VMs para tentar reproduzir o problema do failover não funcionar, mas não consegui, antes de iniciar o failover eu definir os ips na placa de rede e o problema não ocorreu.

    No caso de não ter um DHCP para reservar o ip, o ideal seria eles fica fixo na placa de rede, certo?

    Só não sei porque o failover falhou quando estava fixado e funcionou depois de remover.

    Gostaria de evitar esse tipo de problema no futuro, mas não sei porque ocorreu, você tem alguma hipótese?


    Guisal

    čtvrtek 24. ledna 2019 12:59
  • GuiSal,

    Então o uso do DHCP para reservar o endereço de IP é uma solução, mas não adianta deixar o IP fixo na placa se a mesma não esta em uso.

    Esta falha justamente esta ocorrendo devido a configuração do TTL, neste caso, a tabela ARP não é atualizada e quando os pacotes de rede utilizados pela serviço DNS são trocados, pode estar ocorrendo indevidamente uma falha no direcionamento e identificação dos pacotes, consequentemente falhas na troca de dados.

    Utilize os comandos NBTStat e ARP informando os endereços de IPs envolvidos neste ambiente de failover, recomendo atualizar o cache do servidor DNS antes de realizar a execução destes comandos.


    Pedro Antonio Galvão Junior [MVP | MCC | MSTC | MIE | Microsoft Evangelist | Microsoft Partner | Engenheiro de Softwares | Especialista em Banco de Dados | Professor Universitário | @JuniorGalvaoMVP | http://pedrogalvaojunior.wordpress.com]

    • Označen jako odpověď GuiSal úterý 29. ledna 2019 9:29
    pátek 25. ledna 2019 16:22
    Moderátor