none
Сервер подвисает - растёт пинг RRS feed

  • Общие обсуждения

  • Добрый день. Совершенно не понятная ситуация.

    Есть ферма RDS из двух серверов. 2012 R2. Один из них брокер. Диски пользователей находятся в сети на схд. Лун примонтирован по iSCSI на другой сервер (не состоит в ферме)

    В один прекрасный момент стала наблюдаться картина. Сервер (то один, то другой) стали периодически подвисать. Просто нулевой отклик у всех клиентов. и так секунд 2-10. Иногда доходит до того, что просто зависает мёртво и помогает только перезагрузка. Оба сервера на VmWare, локальные их диски с системой на той же СХД. Каналы сетевых интерфесов между ними и схд по 10Гбит.

    Стал мониторить. в момент зависаения очень резко подрастает пинг. Т.е. всё нормально сначала, потом вдруг поднимамется до 0.5-2 секунд. иногда просто нет ответа.

    Долго и упорно мониторил, смотрел процессы - ничего не вижу. Менял приоритеты серверов, смотрел нагрузки в Zabbix. 

    Просто в один прекрасный момент нагрузка на сеть резко вырастает до 60-200мбит и начинается само веселье.

    И так поочереди то на одном сервере, то на другом - похоже что проблема скачет с пользователем.

    В итоге сегодня обнаружил, что один из серверов полностью вёл себя весь день нормально, а вот второй периодически в пинге вываливал вот это

    Reply from 10.1.1.8: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.8: bytes=32 time=1ms TTL=128
    Reply from 10.1.1.8: bytes=32 time=328ms TTL=128
    Reply from 10.1.1.8: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.8: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.8: bytes=32 time<1ms TTL=128

    Ну и такое происходило регулярно, то 10мс, то 2000мс.

    Происходит такое, только когда на сервере есть активные пользователи. Ночью (когда их нет) - всё отлично.

    Только наступает утро - на одном из серверов начинаются такие проблемы. В процессах пользователей скачков нету, в мониторе ничего не выловил. 

    Как ещё можно копать или может было подобное.

    Принтера раздаются на сервер через GPO и сервер печати, который на другом сервере. Распространяю через него принтера по группам в политики GPO.

    В event логе особо проблем нету. Только информативные сообщения.

    Просто бьюсь головой об стол уже....


    5 июля 2017 г. 16:01

Все ответы

  • Стоял гуглхром там. Удалил - всё прекратилось. Может совпадение?

    Завтра посмотрим.

    ___________________

    Нет, проскочила опять 13мс пинг

    __________________

    Пинг то вообще не ровный, грешу на VmWare. Нормально ли это?

    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time=1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time=3ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time=2ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128
    Reply from 10.1.1.9: bytes=32 time<1ms TTL=128

    • Изменено miv63 5 июля 2017 г. 17:13
    5 июля 2017 г. 17:11
  • Вечера Вам и серверу.

    Мониторинг сетевой активности, смотреть где пики и копаться уже в них. Что-то забивает вам канал, может кто-то "Войну и Мир" ежедневно печатает, кто знает. Со стороны вари смотреть тоже самое. Проверить , что сетевуха vmxnet3, а не Интел тысячный. Ну и схд не надо исключать, поскольку сетевая проблема таких заморозков может тоже быть связана с хранилищем.

    5 июля 2017 г. 17:12
  • Да вот сейчас один из серверов всё нормально, иногда 250 прыгнет и всё. А второй прям колбасит, 10-25-50-1-1-1-1-1-1-60-40-20-11-1-1-1 и т.д.

    На нём вообще сейчас активных пользователей нет. Висит два сеанса, но там всё чисто. Сетевой активности нету - 0.5-2мбита

    Сетевуха vmxnet. Ни один из других серверов на этих гипервизорах подобным родом себя не ведёт, ни Win серера, ни *nix сервера.

    СХД тоже прям не знаю куда смотреть, т.к. там ещё очень много чего и опять же нету нигде ничего подобного, тормозов не замечено ни в одном другом сервисе.

    А не может подобного быть из-за видео-памяти? На вмваре всего по 4мб выделено на каждый. По дефолту так сказать.

  • Из-за видео памяти нет, не может. Ищите, так сказать, и обрящете. Может обновления виноваты свежие, может производительности не хватает все-таки серверу, вдруг увеличилась нагрузка клиентская. Попробуйте поменять у тестовых клиентов RDP настройки подключения, оптимизировать их. Может, здесь проблема.

    Есть ферма RDS из двух серверов.

    А тайный смысл тогда в чем? Любой сервер все равно SPOF. может, есть возможность еще один в ферму добавить сервер еще один для проверки, будет ли лучше если клиенты располовинят их.

    11 июля 2017 г. 5:34