none
Резкая сильная нагрузка на IIS, сумашедшее количество логов. RRS feed

  • Вопрос

  • Доброго времени суток.

    Стоит Exchange 2016 в DAG, 2 сервера. Проблема в том, что работало все более 100 дней без единой проблемы, но резко недавно (в 20 числах февраля) примерно с 9:00 начинается сильная нагрузка на IIS, логи стали писаться аж в раз 5 больше, так же логи mapi очень сильно начали рости, ранее на 5 минут приерно 10МБ лога было, сейчас в 1 минуту около 50 МБ, а то и больше. Всего 4500 ящиков пользователей.

    Что делал, смотрел все Event логи, все чисто и красиво, healthreport показывает что тоже все в порядке, ничего сверхъестественного не вижу, кроме того, что сильно возросло количество запросов от пользователей, IIS процесс сильно начал грузить систему. Изменений на сервер не вносилось после его настройки (мигрировали с 2013). Перезагружал 2 сервера, второй сервер держит копии баз, первый активный, 1 день было нормально потом опять началось. активировал половину баз на втором сервере, но первый сервер нагружен все равно сильно.

    Куда можно копнуть, что показать для помощи? голову сломал не пойму что происходит.

    2 марта 2019 г. 0:04

Ответы

  • Проблему нашли... В связи с тем что нагрузка начиналась только в 9:30 и в среду в 13:00 как по щелчку и при перезагрузки ИИС на сл день все начиналось заново, то я подумывал, что все таки виновата какая то программа, потому как AD и Exchange без ошибок. В логах ничего не видно и не один отдел в организации не признавался в изменении настроек своих сервисов.

    Я прошел таким путем, переключил пользователей на протокол RPC, проблема та же, до переключения некоторые пользователи висели на RPC и проблемы не было, полез в логи RPC и что же я увидел!!! (На MAPI этого не видно) а увидел я то, что по какой то причине процесс AVP.exe лезет в Exchange и что то пытается сделать, логи забиты ошибками, сразу звоню в отдел безопасности и спрашиваю когда у них стоит сканирование компов... и что же я услышал?? а то что в 9:30 каждый день и в 13:00 в среду!!!!!!!! как я был зол!!!! Короче, коллеги, Kaspersky Endpoint Security на компах был виноват!!!! я все больше ненавижу этот антивирус!! 



    • Помечено в качестве ответа Simba10 21 марта 2019 г. 23:07
    • Изменено Simba10 21 марта 2019 г. 23:09
    21 марта 2019 г. 23:06

Все ответы

  • Добрый день.

    1. Что именно от IIS грузит ресурсы, помимо логов? Процесс w3wp.exe? Так же нужно выяснить, какой именно App Pool ответственный за эти проблемы.
    2. Общие статьи по диагностике IIS:
    https://support.microsoft.com/en-ca/help/919791/how-to-use-the-debug-diagnostics-tool-to-troubleshoot-high-cpu-usage-b
    https://docs.microsoft.com/en-us/iis/troubleshoot/performance-issues/troubleshooting-high-cpu-in-an-iis-7x-application-pool
    3. Как реализована публикация External сервисов? Нужно исключить атаки извне а-ля брутфорсы и т.д.
    Т.е. выяснить, что именно за запросы и откуда они. Иногда проблемы вызывает неисправное Active Sync устройство, но не так массивно конечно.
    2 марта 2019 г. 7:01
  • Добрый день.

    1. Что именно от IIS грузит ресурсы, помимо логов? Процесс w3wp.exe? Так же нужно выяснить, какой именно App Pool ответственный за эти проблемы.
    2. Общие статьи по диагностике IIS:
    https://support.microsoft.com/en-ca/help/919791/how-to-use-the-debug-diagnostics-tool-to-troubleshoot-high-cpu-usage-b
    https://docs.microsoft.com/en-us/iis/troubleshoot/performance-issues/troubleshooting-high-cpu-in-an-iis-7x-application-pool
    3. Как реализована публикация External сервисов? Нужно исключить атаки извне а-ля брутфорсы и т.д.
    Т.е. выяснить, что именно за запросы и откуда они. Иногда проблемы вызывает неисправное Active Sync устройство, но не так массивно конечно.

    1) Грузит пул MSExchangeMapiFrontEndAppPool, как я понимаю он отвечает за коннекты пользователей к своим папкам MAPI, внутрь если зайти видно IP Адреса. Так же в логах ИИС бывает много статусов 401, а потом разу 200 пройти. Тоже не понятно по какой причине. в Виртуально директории стоит авторизациия по NTLM,Negotiate И Kerberos, может остоит оставить чисто Kerberos?

    2) Статьи внушительные))) попробую разобраться с ними.

    3) Публикация реализована через reverseProxy отдела безопасности только MAPI, POP3 и IMAP не пробрасываются на внешку, да и внутри сети не используется. Только сегодня перенастроил ведение логов на серверах, что бы показывало только не успешные авторизации, в понедельник точно удастоверюсь по поводу брутфорса, но у нас был 1 раз брутфорс, там было как то не так, в понедельник будет ясно точней.

    В логах MapiHTTP бывает в подрят много записей от некоторых пользователей, и штук 10-20 в подряд, это что может значить? (кусочек строки)



    • Изменено Simba10 2 марта 2019 г. 9:14
    2 марта 2019 г. 8:05
  • 1)
    По 401 ошибкам - с сетевой связностью от таких клиентов все в порядке?
    Случайно не стоит между клиентами и Exchange какая-то из DLP систем, подменяющих https трафик (searchinform и т.д.)?
    Точно в логах System/Application нет данных о том, что App Pool падают постоянно?
    2 марта 2019 г. 9:12
  • 1)
    По 401 ошибкам - с сетевой связностью от таких клиентов все в порядке?
    Случайно не стоит между клиентами и Exchange какая-то из DLP систем, подменяющих https трафик (searchinform и т.д.)?
    Точно в логах System/Application нет данных о том, что App Pool падают постоянно?

    Насчет проблем с сетью, есть ли она там или нет, ответить однозначно не могу, потому что не все клиенты находятся в локальной среде где нет никакого вмешательства, много кто сидит через vipnet координаторы. А если взять стоит ли что нибудь между, то да, это ReverseProxy (Mcaffee если не ошибаюсь), он стоит между всеми пользователями и Exchange. т.е. я так понимаю, что 401 ошибка может свидетельствовать проблемы в сети либо проблемы с Reverse? но вообще, это сильно может грузить IIS? По идее от этого никуда не денешься, бывают сети вообще огромные.  

    В System/Application смотрел, ничего подозрительного не видел, ошибок не было, только информационные сообщения.

    2 марта 2019 г. 9:33
  • Смотрим с безопасниками нагрузку, утром выросла неимоверно, брутфорс не наблюдается. Так же из за постоянных запросов от пользователей Много обращений авторизации со стороны серверов Exchnage на домен котроллеры, должна быть постоянная нагрузка?, а то я вижу стабильную нагрузку от Exchange. Отсортировали на прокси самых явных нарушителей по запросам и заблокировали их, вроде нагрузка немного упала. w3wp.exe кушает около 30 процентов процессора.

    Вопрос такой, как я помню билет керберос дается на время сессии, но почему запросы постоянно сыпяться, на авторизацию? что я еще не улавливаю.

    А так же вопрос, если оутлук не в режиме кэширования, сильно ли возрастает нагрузка на сервер? может какая то пачка пользователей не использует кэширование и из за этого возрастают запросы?

    Еще замечено то, что проблемы по большей части у тех, у кого 2 ящика, основной и дополнительный, хотя может совпадение. (Это кого мы заблокировали)


    • Изменено Simba10 4 марта 2019 г. 4:23
    4 марта 2019 г. 1:48
  • 1. Переведите нагрузку либо полностью на второй сервер в DAG, либо разбалансируйте её. Проанализируйте как в этом случае будет возникать проблема.

    2. Убедитесь, что у вас нет проблем в AD - тщательно изучите логи + диагностика DC.

    3. А что собственно пишется в логи IIS, за счёт чего они стали так расти? Попробуйте проанализировать логи до и после.

    4. Что используете для балансировки клиентских подключений? 

    4 марта 2019 г. 5:47
  • 1. Переведите нагрузку либо полностью на второй сервер в DAG, либо разбалансируйте её. Проанализируйте как в этом случае будет возникать проблема.

    2. Убедитесь, что у вас нет проблем в AD - тщательно изучите логи + диагностика DC.

    3. А что собственно пишется в логи IIS, за счёт чего они стали так расти? Попробуйте проанализировать логи до и после.

    4. Что используете для балансировки клиентских подключений? 

    1) Половину баз сделал на одном сервере, вторую половину на втором.

    2) Перепроверил, проблем нет, DCDIAG так же показывает что все хорошо, репликации бегают. Пока что ничего криминального не увидел.

    3) В логах просто пишется много информации по поводу подключений, т.е. спам от пользователя идет и он все это пишеть в ЛОГ, много запросов.. при этом IIS пишет лог и сам Exchnage в mapihttp и в httpproxy папки, там тоже показывают запросы в пользовательские папки и т.д. и видимо так много попыток соединений что аж это все растет неимоверно.

    4) По сути используются только возможности reverseProxy, он, я надеюсь работает умней чем round robin в dns, думаю смысл тот же, ну а так работает в принципе нормально.

    Пока что полет нормальный после блокировкии пользователей логи пишутся как раньше, посмотрим на этой неделе как будет, если каждый раз будут разные ip адреса, то придется думать насчет авторизации, что проблема в ней... только опять же где копать, в логах DC все норм.


    • Изменено Simba10 4 марта 2019 г. 6:05
    4 марта 2019 г. 6:03
  • Короче утром продолжилось, теперь нагрузка пала на второй сервер. Все базы в состоянии Healthy, HealthReport ничего не показывает.

    Процессор постоянно скачет от 40 до 100 процентов за сек 5, т.е. рисует как бы волну , нагрузка от w3wp.exe как и раньше. Причем смотрели искали в чем проблема и к 11 часам все прошло и опять нормально работало, что за мистика.

    Может на время включить подключение RPC вместо MAPI?

    Так же, как влияет настройки прокси в IE на подключение к оутлук? хотя в исключениях стоят адреса почты. 

    Вот еще на контроллере домена нагрузка на lsas.exe, в частности на KDC, постоянно с Exchange серверов, даже конгда на них все в порядке.


    • Изменено Simba10 5 марта 2019 г. 5:48
    5 марта 2019 г. 1:58
  • Заметил что скачкообразность нагрузки на процессор симметрична с обращениями к одной из баз данных, как на нее нагрузка возрастает до 7 мб в сек, то и процессор тоже вырастает, как падает, то и на процессор падает.. как посмотреть кто в данный момент обращается к базе данных? Может и совпадение, но можно хотя бы вычислить пользователей, которые постоянно нагружают базу, может из-за них проблема. Сделал IISreset, клиенты отвалились, нагрузка на процессор стала стабильной, процесс стал забирать до 20 процентов процессора.... такое ощущение что какой то клиент отваливается в этот момент, либо после переконнекта начинает относительно нормально работать, так же закономерно то, что нагрузка начинается ровно в 9:30.

    Куда можно капнуть? 

    • Изменено Simba10 6 марта 2019 г. 4:52
    6 марта 2019 г. 2:38
  • Если я бы столкнулся с такой картиной, как у вас, то я бы, прежде всего проанализировал журнал IIS: кто из пользователей сколько раз обращался к серверу - в обычный период и в период большой нагрузки.

    Средство для анализа, хорошее и удобное, я вам не подскажу, потому как последний раз имел дело с такими средствами ещё во времена NT4/IIS 4.0 (был такой Site Server Express у MS). Но такие средства наверняка есть и разные: для тех, кто занимается вебом, они нужны. В крайнем случае, несложно написать скрипт на PS, который разбирает файл лога и экспортирует его в CSV - а CSV потом можно загрузить в Excel и проанализировать.

    Из того, что вы пишете, у вас там должен быть резкий всплеск активности одного из пользователей, который нетрудно будет увидеть.

    Если эта активность связана с записью в БД, может помочь стандартный (из папки Scripts в Exchange) скрипт Troubleshoot-DatabaseSpace.ps1 (описание как его использовать см. сам скрипт и https://blogs.technet.microsoft.com/exchange/2011/01/18/exchange-2010-sp1-the-troubleshooters/). Но если имеет место быть чтение (например, начальная загрузка кэшированного п/я в ost), то он не поможет.


    Слава России!

    6 марта 2019 г. 4:57
  • Средство для анализа - https://www.iis.net/downloads/community/2010/04/log-parser-22
    6 марта 2019 г. 5:26
  • Да анализировали, удобней конечно анализировать через reverseProxy который стоит между пользователями и сервером, что увидели:

    Рабочий день у всех начинается с 9:00, т.е. по статистике (используем ПРТГ) в 9 немного нагрузка подрастает по сравнению с ночью, как и должно быть и проблем нет, с 9:30 начинается спам запросами, не от одного пользователя, а как то массово, кто то больше, кто то меньше, как будто что то срабатывает!!  это вообще не понятно, причем блокировали всех в подряд не помогает. НО! после рестарта IIS на серверах, запросы приходят в норму, так же видимо загрузка на базу данных это следствие нежели причина. Нагрузка на процессоры падает со 90-100 процентов до 50-60 на одном сервере и 30-50 на другом (смотря сколько пользователей куда подключены) , может все таки что то с IIS, хотя мы вообще с ним ничего не делали, началось резко. Я думал попробовать переключить на старый протокол RPC, может баг в MAPI? Такое ощущение что проблема не от пользователей. Весь день все работает норм, начинается по новой в 9:30,  даже в выходные! Искал скрипты в Щедулере, в это время ничего не запускается.



    • Изменено Simba10 12 марта 2019 г. 3:40
    7 марта 2019 г. 0:42
  • Проблему нашли... В связи с тем что нагрузка начиналась только в 9:30 и в среду в 13:00 как по щелчку и при перезагрузки ИИС на сл день все начиналось заново, то я подумывал, что все таки виновата какая то программа, потому как AD и Exchange без ошибок. В логах ничего не видно и не один отдел в организации не признавался в изменении настроек своих сервисов.

    Я прошел таким путем, переключил пользователей на протокол RPC, проблема та же, до переключения некоторые пользователи висели на RPC и проблемы не было, полез в логи RPC и что же я увидел!!! (На MAPI этого не видно) а увидел я то, что по какой то причине процесс AVP.exe лезет в Exchange и что то пытается сделать, логи забиты ошибками, сразу звоню в отдел безопасности и спрашиваю когда у них стоит сканирование компов... и что же я услышал?? а то что в 9:30 каждый день и в 13:00 в среду!!!!!!!! как я был зол!!!! Короче, коллеги, Kaspersky Endpoint Security на компах был виноват!!!! я все больше ненавижу этот антивирус!! 



    • Помечено в качестве ответа Simba10 21 марта 2019 г. 23:07
    • Изменено Simba10 21 марта 2019 г. 23:09
    21 марта 2019 г. 23:06