locked
Pseudo plantage serveur 2008 R2 RRS feed

  • Discussion générale

  • Bonjour à toutes et tous,

    L'un de nos serveurs 2008 R2 SP1 devient parfois indisponible au niveau du réseau. En effet, ce matin c'est la troisième fois en 2 mois, et la seconde fois ces 15 derniers jours, que ce serveur ne répond plus de manière étrange. Il s'agit d'un serveur sous environnement VMware ESXi 4.1 qui fait office de serveur de fichiers.

    Ce problème se traduit par l'impossibilité d'accéder aux partages de ce serveur et l'impossibilité pour moi d'ouvrir une session TSE pour voir ce qui se passe sur ce serveur. Pourtant, il continue de répondre aux pings.

    Via vCenter, j'arrive à ouvrir une console sur ce serveur, j'arrive également à faire le Ctrl+Alt+Suppr, et là je bloque sur le fond d'écran d'ouverture de session sur lequel je ne peux même pas saisir mon mot de passe pour me connecter.

    Ce qui est énervant, c'est qu'il n'y a à priori rien de remonté dans l'observateur d'évènements.

    Lorsque je redémarre ce serveur, "tout rentre dans l'ordre", mais je dois gérer les pots cassés dûs à la fermeture violente de certains fichiers ouverts par mes utilisateurs, et remettre d'équerre des profils de connexion Citrix, ceux-ci étant hébergés sur ce serveur... Bref, un bon lundi matin !

    Sauriez-vous m'orienter sur des pistes à propos de ce phénomène ?

    D'avance merci.

    Bonne journée.


    FXE
    lundi 16 janvier 2012 10:20

Toutes les réponses

  • Bonjour,

    A quelle fréquence se produit le problème? Pouvez-vous le relier à une autre activité? Par exemple la prise des suavegardes, un vMotion automatique...

    Si vous disposez des outils suffisants, pouvez-vous mesurer l'utilisation de la mémoire non paginée? Personnellement je pencherais pour une fuite mémoire provoquée par un ou plusieurs pilotes (VMware Tools, anti-virus,...)

    D'avance, merci!


    Marc Lognoul aka the FullMetal Architect

    My Site/Mon Site  | My Blog in English  | Mon Blog en Français  | Follow me on Twitter/Suivez-moi sur Twitter  | Join my Network on LinkedIn/Rejoignez mon réseau sur LinkedIn

    lundi 16 janvier 2012 11:19
  • Bonjour Marc et merci pour votre réponse.

    C'est la troisième fois que ce problème apparaît. Il s'est produit la première fois le 03/10/2011, la seconde fois le 29/12/2011 et la troisième fois hier.

    Aucune activité particulière à mettre face à ce problème qui s'est produit à chaque fois entre 9H30 et 10H30.

    En cherchant un peu, j'ai trouvé dans les logs ce message, qui n'apparaît pas au moment de ce phénomène, mais dans le doute... :

    Nom du journal :System
    Source :       srv
    Date :         16/01/2012 14:42:30
    ID de l’événement :2012
    Catégorie de la tâche :Aucun
    Niveau :       Avertissement
    Mots clés :    Classique
    Utilisateur :  N/A
    Ordinateur :   fichiers.domaine.local
    Description :
    Le serveur a rencontré une erreur réseau lors de la transmission ou la réception de données. Des erreurs occasionnelles sont attendues mais en trop grand nombre cela indique une erreur possible de la configuration réseau. Le code de statut de l’erreur est contenu dans les données renvoyées (formaté sous Word) et peut vous donner des indications sur l’origine du problème.
    XML de l’événement :
    <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
      <System>
        <Provider Name="srv" />
        <EventID Qualifiers="32768">2012</EventID>
        <Level>3</Level>
        <Task>0</Task>
        <Keywords>0x80000000000000</Keywords>
        <TimeCreated SystemTime="2012-01-16T13:42:30.246089100Z" />
        <EventRecordID>86654</EventRecordID>
        <Channel>System</Channel>
        <Computer>fichiers.domaine.local</Computer>
        <Security />
      </System>
      <EventData>
        <Data>\Device\LanmanServer</Data>
        <Binary>0000040001002C0000000000DC07008000000000840100C0000000000000000000000000000000008F050000</Binary>
      </EventData>
    </Event>

    Je planche sur des outils pour mettre en lumière une éventuelle fuite mémoire.

    Merci.

    Bonne journée.


    FXE
    mardi 17 janvier 2012 07:43
  • Bonjour,

    Il ne faut pas forcémment exclure un lien entre les deux problèmes mais cette erreur est très certainement une conséquence, sans doute pas la cause. Le service "serveur" (et son pilote srv.sys) pouvant être fortement impactés par une fuite mémoire.

    En ce qui concerne la recherche de fuite mémoire non paginée, 2 pistes:

    • Avec PoolMon: http://support.microsoft.com/kb/177415 (ancien article mais tjrs applicable "en gros")
    • Avec Perfmon, Memory -> Pool Nonpaged Bytes. Suivre la progression juqu'à ce que le problème se produise

    Bonne chasse!


    Marc Lognoul aka the FullMetal Architect

    My Site/Mon Site  | My Blog in English  | Mon Blog en Français  | Follow me on Twitter/Suivez-moi sur Twitter  | Join my Network on LinkedIn/Rejoignez mon réseau sur LinkedIn

    mardi 17 janvier 2012 08:51
  • OK Marc, merci pour ces 2 pistes.

    J'ai déjà commencé à explorer cette piste : http://www.simple-talk.com/content/article.aspx?article=970. Et en l'explorant, je me suis rappelé que je dispose de SCE 2010, et que le serveur impacté est supervisé par cet outil. La piste ci-dessus explique qu'il est intéressant de suivre l'évolution de la valeur "Memory\Pool nonpaged bytes", est dans SCE on retrouve la mesure de "Performance mémoire\Octets de réserve non-paginée". Cependant, pour une raison inconnue, je n'ai aucune remontée concernant cette mesure, ce qui est fort dommage car elle est sûrement un bon indicateur à propos de mon problème.

    Je continue mes recherches avec vos liens et vais également de ce pas sur le forum SCE pour des explications.

    Je vous tiens informés. Bonne journée.


    FXE
    mardi 17 janvier 2012 11:02
  • Bonjour,

    un de mes clients avait cette erreur (beaucoup plus souvent) qui était due à une mauvaise configuration des registres de mémoire paginée, avec les mêmes conséquences (pb d'accès TSE, pb de connexion des nouveaux utilisateurs,...).

    La solution a été de modifier 2 paramètres dans la ruche "Memory Management" dans "CurrentControlSet\Control\Session Manager"

    PagedPoolSize positionné à 0xffffffff

    et

    PoolUsageMaximum à 0x3c

    C'est à dire utiliser Toute la mémoire en mode paginée et déclencher la libération de mémoire à 40% (au lieu de 60 par défaut).

    Comme il n'y avait pas de message d'erreur (hors les pbs de connexion), j'ai comparé les valeurs de registres normales (par défaut) par rapport à cet unique serveur qui posait problème.

    A bientôt,


    Thierry DEMAN. Exchange MVP. https://www.mcpvirtualbusinesscard.com/VBCServer/MVPtdeman/profile (68 MCPs) http://base.faqexchange.info
    mardi 17 janvier 2012 12:27
  • Bonjour Thierry et merci pour votre réponse,

    Parlez-vous bien de la ruche "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Memory Management" ?

    Si oui, dans cette ruche, j'ai bien la clé "PagedPoolSize" qui est à 0, mais je n'ai pas la clé "PoolUsageMaximum".

    J'ai comparé avec un autre Windows 2008 R2 SP1 et 2 autres Windows 2003 R2 SP2, et c'est la même chose.


    FXE
    • Modifié FXE mardi 17 janvier 2012 14:15
    mardi 17 janvier 2012 14:15
  • Bonsoir,

    Ca y est j'ai trouvé la solution pour problème de monitoring de la mémoire non paginée avec SCE (au cas où cela peut aider : http://social.technet.microsoft.com/Forums/fr-FR/systemcentermonitoring/thread/77033e94-6ab9-499d-b7b4-1bece0d6c852).

    Maintenant je scrute...

    Je vous tiens informé.


    FXE
    jeudi 19 janvier 2012 17:28