Для начала представлюсь. Меня зовут Илья Винштейн, я синоптик из Кургана. Занимаюсь метеорологией 19 лет. Администрирую свой региональный проект «Погода 45» и «Синоптика». Давал несколько лекций для научно-просветительского проекта «Курилка Гутенберга».
Как создаётся прогноз в XXI веке?
Рассказ о прогнозе погоды следует начать с того, как этот самый прогноз составляется в XXI веке. Главным источником всей прогностической информации являются глобальные численные модели атмосферы. Это программы, которые воспроизводят всю атмосферу Земли, начиная от почвы и заканчивая верхними слоями стратосферы. Главной пищей для моделей являются спутниковые данные во всех видимых и невидимых спектральных диапазонах, данные с кораблей, самолётов и аэрологических зондов. Данные наземных станций сейчас уже не имеют столь сильного влияния на качество прогноза, хотя и продолжают использоваться. Если исключить из моделей слой метеостанций, то качество упадёт на 7%, а если исключить спутниковые данные, то на 35-40%. В мире насчитывается 11 глобальных моделей и ещё десяток региональных.
Первые успешные эксперименты по численному прогнозу были проведены в 50-е годы XX века, когда появились первые компьютеры. Сложность моделей атмосферы прямым образом связана с теми вычислительными и интеллектуальными ресурсами, которыми обладает государство. По этой причине разработка и поддержание таких моделей является невероятно дорогим удовольствием. Не стоит забывать и про людей. За каждой моделью могут стоять сотни разработчиков, которые принимали участие в её создании в разные годы. Модели создаются в коллаборации университетов или даже стран. Классическим примером здесь является модель Европейского центра среднесрочных прогнозов (ECMWF).
ECMWF был создан в 1975 году в знак признания необходимости объединения научных и технических ресурсов метеорологических служб и институтов Европы для подготовки прогнозов погоды на среднесрочные сроки (примерно до двух недель). В Центре работает около 350 сотрудников, в основном назначенных из разных стран-участниц и сотрудничающих государств.
На протяжении почти 50 лет учёные развивали и совершенствовали свою модель, которая сейчас является самой лучшей в мире. Год за годом, шаг за шагом они внедряли обновления и допиливали свою модель до идеального состояния. Отмечу, что модель ECMWF в среднем обновляется раз в год. Последнее было в июне 2023 года. О нём я расскажу позже.
Качество прогнозов стабильно росло на протяжении десятков лет. Например, в 1986 году модель ECMWF прогнозировала поле давления на 3-е суток с точностью 90%. Сейчас этот показатель 98-99%. В 2000-м году на 7-м суток поле давления прогнозировалось с точностью 60%. За 20 лет показатель вырос до 80%! В 2005 году на 10-ть суток точность прогноза была 40%, а сейчас 50%. В научной среде этот прогресс даже имеет своё название – тихая революция. Достижения в области численного прогнозирования погоды представляют собой тихую революцию, поскольку они стали результатом постоянного накопления научных знаний и технологических достижений на протяжении многих лет.
Модель ECMWF занимает первое место в мире по качеству прогнозов. В 2022 году поле атмосферного давления (MSLP) на 5 суток она прогнозировала с точностью 90.5%. На втором месте находится британская модель UKMO. Разрыв между этими двумя моделями настолько существенный, что если бы модель ECMWF прекратила обновляться, то UKMO догнала бы её только через 6 лет. Идём дальше. Американская модель GFS отстаёт от ECMWF на 10 лет. Китайская модель на 17 лет, а российская ПЛАВ на 19 лет.
Сейчас мировые прогностические центры буквально выгрызают эти десятые доли процента, пытаясь приблизиться к уровню ECMWF. На многих графиках видно, что в последние годы качество прогнозов на средние сроки существенно замедлилось. Особенно это касается 7-10 суток. Высказываются мнения, что гидродинамические модели достигли своего пика развития. Здесь можно привести аналогию из теории относительности. Материальные объекты не могут достичь скорости света. Чем быстрее разгоняется объект, тем больше он затрачивает энергии для разгона. Со временем энергия преобразуется в массу самого объекта, тем самым необходимо затратить еще больше энергии на разгон. Каждый дополнительный м/сек даётся с большим трудом.
Здесь же можно вспомнить принцип Паретто, согласно которому 80% усилий дают 20% результата, а 20% усилий дают 80% результата. В начале нулевых качество прогнозов росло очень быстро, особенно после внедрения спутниковых данных. За период с 2000 по 2005 гг. прогноз на 10 суток стал точнее на 10%. С 2015 г. по настоящее время прогресс был лишь 5%.
Улучшение качества моделей требует колоссальных инвестиций в разработку, исследования и модернизацию оборудования. И страны Евросоюза готовы вкладывать в это огромные деньги. В 2017 году государства-члены центра приняли предложение итальянского правительства перенести центр обработки данных ECMWF в Болонью, Италия. Здесь же оказался новый суперкомпьютер Atos, купленный в 2020 году за 80 млн евро, что на тот момент можно сопоставить с годовым бюджетом Смоленска или Кургана. Он имеет 1 040 384 вычислительных ядра, а его производительность оценивается в 30 петафлопс. К слову, пиковая производительность самого мощного суперкомпьютера в России «Червоненкис» от Яндекса 29.4 петафлопс. Это технологическое обновление позволило ECMWF в июне 2023 года выбиться в лидеры ансамблевого прогнозирования, которое требует огромных вычислительных ресурсов.
Ансамблевое прогнозирование. Улучшаем качество без нейросетей
Один прогон (запуск) компьютерной модели – это в чистом виде детерминированный прогноз по принципу «как есть». Главной проблемой детерминированных прогнозов – являются ошибки в начальных данных, которые приводят к эффекту бабочки. Мельчайшие начальные возмущения приводят к огромным ошибкам в среднесрочной перспективе. Чтобы решить эту проблему учёные разработали ансамблевые прогнозы. Прогностический ансамбль, как правило, состоит из невозмущенного (контрольного) прогноза и возмущенных прогнозов, которые называются членами ансамбля. Иногда в качестве членов ансамбля также берутся прогнозы нескольких различных моделей (мультимодельный подход). Представьте себе обычный детерминированный прогноз. В этот прогноз с помощью генератора псевдослучайных чисел вносится искусственная ошибка. Каждый ансамбль состоит из 30-50 или 100 членов. Чем больше членов, тем выше качество. Разброс в ансамбле растет со временем, при этом среднее по полученным прогнозам при достаточно большом количестве членов ансамбля и хорошо подобранном возмущении может оказаться точнее, чем результат детерминированного прогноза. На этом и основан полезный эффект от использования прогностических ансамблей. Кроме того, наличие нескольких прогнозов с определенным разбросом на один и тот же срок дает возможность оценить вероятность тех или иных явлений погоды (к примеру, определенных значений осадков или температуры на заданном уровне), т.е. получить вероятностный прогноз. Например, если из 50 членов 40 выдают осадки, значит, вероятность осадков примерно 80%.
Усредние всех членов существенно снижает уровень шума. Поэтому средний прогноз начинает превосходить по качеству обычный детерминированный уже после 5-х суток. Разберём это на примере основной американской модели GFS. Её ансамбль называется GEFS (Global Ensemble Forecast System) и состоит из контрольного невозмущённого детерминированного члена и 30 членов с возмущениями в начальных данных. Из приведённых ниже данных видно, что на 1-4 сутки качество прогнозов GFS и GEFS находится на одном уровне. Уже с 5-х суток ансамбль постепенно начинает доминировать над GFS. В 2022 году модель GFS прогнозировала на 10 суток высоту изобарической поверхности 500hPa с точностью 46%, а её ансамбль GEFS показывал точность 60%. На 16-е сутки разница между GFS и GEFS достигала 14-15%. Если же сравнивать GEFS и EPS (ECMWF), то европейский ансамбль обходит американский на 5-7%, что очень существенно.
Детерминированная модель ECMWF прогнозирует поле 500 hPa на 10-е сутки с точностью 48%, а её ансамбль EPS выдаёт на 20% больше. Данные за осень 2021 года.
Ансамблевые прогнозы имеют существенные недостатки, которые затрудняют их использование и внедрение.
Во-первых, они слишком прожорливые. Ансамбль должен обновляться каждые 6 часов и рассчитывать параллельно 30-50 или 100 членов. Каждый член – это отдельный прогноз. Чем больше членов, тем выше качество. Только после покупки нового суперкомпьютера в ECMWF внедрили своё самое крупное ансамблевое обновление. Горизонтальное разрешение ансамблевых прогнозов средней дальности (ENS) увеличилось с 18 до 9 км, что соответствует текущему разрешению прогнозов высокого разрешения (HRES). Существенные изменения также были внесены в прогнозы с расширенным диапазоном: теперь они выполняются ежедневно вместо двух раз в неделю, число членов ансамбля было увеличено с 51 до 101, и они выполняются с горизонтальным разрешением 36 км для всего диапазона прогноза, с 0 по 46 день. Ни один прогностический центр в мире не может себе такое позволить.
Во-вторых, есть большие проблемы с «отрисовкой» данных для массового потребителя. Ансамблевый прогноз визуально похож на веник или метёлку, что отпугивает обывателей. Усреднение данных сглаживает прогноз, что имеет практическую значимость для поля температуры, но абсолютно бесполезно для осадков. Поле осадков на 6-15 сутки размывается настолько сильно, что вычленить полезный сигнал из этого шума бывает крайне проблематично. Поэтому ансамблевые прогнозы плохо распространены на рядовых погодных сервисах. На ум только приходит прогноз на 14 дней от сайта «Foreca». Сам же сайт работает на базе модели ECMWF и публикует прогнозы со своей постобработкой. Все же остальные прогнозы на популярных сайта – детерминированные. Отсюда и их низкое качество на 7-15 сутки.
В-третьих, ансамбли плохо прогнозируют кратковременные потепления и похолодания. Речь идёт о событиях, которые охватывают 1-3 суток. За пределами 7-ти суток ансамбль сглаживается настолько сильно, что кратковременные и локальные явления просто размываются.
Нейросети. Первые шаги
Появление ансамблевых прогнозов – это второй этап развития гидродинамических прогнозов, который отчасти позволил решить проблему низкого качества прогнозов на 7-15 сутки. Другой этап – это постобработка сырых прогнозов. Ещё один способ улучшения «сырых» прогнозов. Повысить качество можно с помощью статистики или нейросетей. В России первая методика прогноза погоды на основе статистической интерпретации гидродинамических моделей появилась ещё в середине нулевых годов в Гидрометцентре России. Схему назвали РЭП (расчёт элементов погоды). Для успешной работы системы статистической интерпретации (статистического постпроцессинга) необходимо создание соответствующей базы данных архива фактических значений прогнозируемых метеорологических элементов в пунктах прогноза, а также архивов полей объективного анализа и прогноза за определённый период лет. Прогностическая технология РЭП программно реализует полностью адаптивный алгоpитм самообучающийся по исходной дате на текущий сезон, на дату прогноза по заблаговременности. На входе используются данные моделей ECMWF, UKMO и GFS. Эта технология сейчас применяется на сайте Гидрометцентра России в автоматизированном прогнозе на 7-м суток для городов России. Схема РЭП заметно превосходит по качеству обычные гидродинамические прогнозы и прогнозы других популярных сервисов.
Существует и другая схема статистической обработки, которая существенно превосходит РЭП. В 2014 году руководитель отдела гидродинамических краткосрочных прогнозов Гидрометцентра России и заслуженный метеоролог Алексей Багров вместе со своей командой разработал простую, но принципиально новую статистическую схему обработки сырых прогностических данных. Она была опубликована в журнале «Метеорология и гидрология» в статье под названием «Комплексный прогноз приземных метеорологических величин».
Суть методики проста, но в этом её превосходство. Комплексный прогноз получен путём статистической обработки результатов включенных моделей. При этом для температуры воздуха, ветра и точки росы привлекается архив прогнозов за предшествующие 20 дней по соответствующим моделям и фактические данные на станции, а для осадков аналогичный архив за один год. Расчёт ведется отдельно для каждой станции и для каждой заблаговременности прогноза. Если ещё проще, то Багров предлагает выполнять статистическую корректировку прогнозов лучших моделей на основе фактических данных местной метеостанции. Детально методика описана в самой статье. Здесь я остановлюсь на некоторых основных моментах. Расчёт максимальной и минимальной температуры выполняется с учетом погрешности за последние 5 или 3 суток. Например, за последние 5 суток наши модели занижали температуру в среднем на 2 градуса, поэтому нам надо включить эту погрешность в последний прогноз и стабилизировать прогноз до наиболее вероятного значения. Таким образом, прогноз сам себя автоматически корректирует, опираясь на предыдущие отклонения в сторону завышения или занижения. 4 года прогноз находился в стадии тестирования. В сентябре 2018 года результаты тестов были опубликованы в журнале «Russian Meteorology and Hydrology».
Позже схема была улучшена с помощью нейросетей, а один из авторов методики Филипп Быков защитил диссертацию на тему «Постпроцессинг численных прогнозов приземных метеорологических параметров на основе нейросетевых методов». В научной работе очень подробно расписан принцип работы комплексного прогноза. На данный момент этот прогноз является самым лучшим в России, оставляя позади всех конкурентов.
Конечно, следует упомянуть про технологию распознавания зон выпадения осадков от Яндекса. В 2019 году разработчики выступили на 25-й конференции по обнаружению знаний и добыче данных, которая проходила в США. После был опубликован доклад «Прогнозирование осадков по спутниковым изображениям». Специалистам Яндекса удалось объединить данные радаров, спутниковые снимки и гидродинамические расчёты компьютерной модели GFS. На основе этих данных была разработана нейросетевая модель на архитектуре UNet, способная распознавать зоны выпадения осадков по геостационарным спутниковым снимкам. В качестве физической компоненты использовались поля американской модели GFS: интенсивность конвективных осадков, рабочая функция облаков, облачная вода, осаждаемая вода и конвективная потенциальная энергия на разных уровнях.
Выбор модели меня удивил, ведь GFS на самом деле крайне посредственная модель. Многие тесты показывают, что модель любит завышать количество осадков, а порой и выдавать ложные осадки. Куда лучше себя показывает немецкая модель ICON, которая обладает более высоким разрешением и имеет самую низкую ошибку прогнозирования осадков на коротких дистанциях. Думаю, что выбор пал на GFS по той простой причине, что модель является бесплатной, свободно распространяемой и рассчитывает массу параметров атмосферы. Её часто используют в исследовательских целях.
От себя добавлю, что Яндекс действительно очень неплохо распознаёт фактические зоны выпадения осадков. Проблемы начинаются, когда он пытается прогнозировать их перемещение. Если фронтальные осадки можно просто сдвинуть по воздушному потоку, то с конвективными осадками всё намного сложнее. Грозовые ячейки (тучи) способны очень быстро зарождаться и очень быстро деградировать. Тучи обычно определяются по температуре верхней границы облачности. Чем выше туча, тем ниже температура. Когда туча вырастает до 10-12 км, то нейросеть Яндекса фиксирует, что в заданной точке возникла туча, а, значит, под ней может идти дождь. Поэтому нейросеть отрисовывает зону выпадения осадков, которая в точности совпадает с размерами этой тучи по верхней границе облачности. Раз туча возникла, значит, её надо сдвинуть по воздушному потоку в пределах 2-х часов. Здесь-то и начинаются проблемы. Грозовые ячейки – это сложные физические объекты. Туча за 2 часа может увеличиться в десятки раз, а вместе с ней увеличиться и зона выпадения осадков. Поэтому недостаточно просто сдвинуть зону осадков по потоку. Необходимо спрогнозировать эволюцию этой грозовой тучи, а это самая сложная задача. Я неоднократно замечал, как Яндекс сдвигал такие тучи на 2 часа вперёд, хотя по спутнику они уже начинали деградировать. Нейросеть Яндекса не понимает, что это не просто плоское пятно осадков, а объёмный физический объект со своей структурой и жизненным циклом. Поэтому когда я слежу за грозовой активностью, то вынужден комбинировать данные Яндекса и спутника.
Что же касается температуры, то здесь Яндекс не демонстрирует ничего сверхъестественного. Независимые оценки (см. диссертацию Быкова) показывают, что Яндекс существенно уступает РЭП и Комплексному прогнозу. Оценки Гидрометцентра за май-июль 2022 года демонстрируют, что Яндекс в дневном и ночном прогнозе температуры на 24 часа занимает третье место после РЭП и Комплексного прогноза. Сравнительная оценка производилась для 53-х городов России.
«Чёрный ящик» прогнозирует погоду
Из приведённого выше обзора видно, что машинное обучение преимущественно использовалось для постобработки сырых данных. Никто не пытался использовать нейросети для создания полноценных моделей прогнозирования погоды. Первые тесты на сетках с низким разрешением показали, что создание таких систем не является невыполнимой задачей. В 2023 году нейросетевые модели стали возникать в открытом доступе одна за другой. На конец ноября их насчитывается уже 4 штуки: FourCastNetv2-small от Nvidia, Graphcast от Google, Pangu-Weather от Huawei и AIFS от ECMWF. Далее их краткое описание:
FourCastNetv2-small: следующая итерация системы глубокого обучения FourCastNet, разработанная компанией Nvidia и ее сотрудниками. В этой модели используются сферические нейронные операторы Фурье для учета пространственных зависимостей. Данная модель представляет собой уменьшенную версию, которая может поместиться в один накопитель Nvidia A100 40 ГБ для проведения вычислений. Она была обучена с помощью ERA5 для минимизации среднеквадратичной ошибки прогноза и работает при 0,25°.
Graphcast: система на основе глубокого обучения, разработанная Google Deepmind. В ней используется архитектура графовой нейронной сети со структурой кодер-процессор-декодер с многосеточным представлением. Модель была обучена на реанализе ERA5 с разрешением 0,25° и отлажена на прогнозе ECMWF HRES с целью минимизации среднеквадратичной ошибки прогноза.
Pangu-Weather: система на основе глубокого обучения, разработанная компанией Huawei. Она использует архитектуру 3D-трансформера для учета пространственных зависимостей и состоит из нескольких моделей, позволяющих делать прогнозы на различных временных интервалах (например, 24 часа, 6 часов). Она была обучена с помощью ERA5 для минимизации среднеквадратичной ошибки прогноза для каждой модели и работает при 0,25°.
AIFS: система на основе глубокого обучения, разработанная в ECMWF. Используются графовые нейронные сети. Обучение происходило на основе реанализа ERA5. AIFS имеет 13 уровней давления, работает с разрешением около 1 градуса и позволяет прогнозировать ветер, температуру, влажность и геопотенциал. На поверхности AIFS делает прогнозы для температуры на 2 м, ветра на 10 м, приземного давления и т.д. AIFS была обучена минимизировать среднюю квадратичную ошибку.
Отчётливо видно, что у всех моделей есть одно общее свойство – они все обучались на реанализе ERA5. Реанализы – это цифровые архивы погодной информации. Они позволяют изучать погоду даже в тех местах, где очень редкая сеть метеостанций. В какой-то степени можно сказать, что реанализ – это прогон гидродинамической модели нулевой заблаговременности, а т.к. модель ECMWF является лучшей в мире, то и их реанализ является эталонным. По этой причине ERA5 и использовался для обучения нейросетевых моделей.
Актуальные тесты за лето показали, что качество FourCastNet и Pangu-Weather сопоставимо с гидродинамическим прогнозов IFS от ECMWF. GraphCast и AIFS сумели существенно превзойти лучшую модель в мире. Классическая детерминированная версия ECMWF прогнозирует температуру на уровне 850 hPa (1500 метров) на 10 суток с показателем 36-37%. Машинное обучение повышает точность до 45%! Рост качества происходит на всех сроках заблаговременности. Барическое поле на 8-10 суток новая нейросетевая модель прогнозирует на 5-8% точнее, чем обычная версия ECMWF.
На графике видно, что AIFS и GraphCast идут ноздря в ноздрю. Нейросетевая модель AIFS появилась позже, чем модель от Google. Сами же разработчики AIFS пишут, что изучали все остальные модели и остановились на той же самой архитектуре, которую выбрал Google. Подозреваю, что в ECMWF поняли, что их гидродинамическая модель больше не будет самой лучшей в мире и решили оперативно разработать свою собственную, чтобы не отставать от Google.
Но всё-таки у Google научная статья вышла раньше. В ней разработчики пишут, что «GraphCast обладает более высокими навыками прогнозирования погоды, чем HRES (ECMWF), при оценке 10-дневных прогнозов с горизонтальным разрешением 0,25° по широте/долготе и на 13 вертикальных уровнях. GraphCast имеет более высокие оценки мастерства на всех временных интервалах, причем улучшение мастерства составляет примерно 7%-14%. GraphCast превзошел HRES по 90,3% из 1380 целей, причем значительно (p ≤ 0,05, номинальный объем выборки n ∈{729, 730}) превзошел HRES по 89,9% целей. При исключении уровня 50 гПа GraphCast значительно превосходит HRES по 96,9% из оставшихся 1280 целей. При исключении уровней 50 и 100 гПа GraphCast значительно превосходит HRES по 99,7% из 1180 оставшихся целей. При оценке по регионам мы обнаружили, что предыдущие результаты в целом сохраняются по всему земному шару. Мы также сравнили производительность GraphCast с лучшей конкурирующей ML-моделью погоды Pangu-Weather и обнаружили, что GraphCast превзошел ее на 99,2% из 252 представленных задач».