Если несколько ядер хорошо, то логично предположить, что много ядер должно быть лучше. Но когда дело доходит до высокопроизводительных вычислений, это не всегда так, несмотря на рейтинг TOP-500, состоящий из 64-ядерных процессоров Epyc.

Высокопроизводительные вычисления

По мнению руководителей Atos и подразделения Lenovo HPC, клиентов более интересуют пропускная способность памяти, быстрый ввод-вывод и высокие тактовые частоты, чем количество ядер, однако AMD и Intel продолжают наращивать их число с каждым последующим поколением процессоров. У Intel и AMD, а также Ampere Computing есть на то весомая причина — большая доля прибыли приходится на продажу чипов гиперскейлерам и облачным провайдерам, для которых больше ядер означает больше клиентов на узел. Экономическая схема довольно простая, и ядра ЦП играют в ней главную роль. AMD Genoa Epyc 9004 может похвастаться 96 ядрами, а его будущие чипы Bergamo увеличат количество ядер до 128. Процессоры Intel Sapphire Rapids Xeon SP имеют максимум 60 ядер ЦП.

Но всё меняется, когда речь идет об основных рабочих нагрузках HPC. Более того, погоня за большим числом ядер создает пару проблем, особенно актуальных для пользователей высокопроизводительных вычислений. Наиболее важной из них является пропускная способность.

Разбалансировка

Скотт Тиз, вице-президент Lenovo по высокопроизводительным вычислениям и искусственному интеллекту:

«Многих наших пользователей высокопроизводительных вычислений не заботит количество ядер. Их волнует более высокая пропускная способность серверной памяти».

Это весьма логично, ведь большее количество ядер также означает, что доступная полоса пропускания памяти будет распределяться всё «тоньше». И хотя и AMD, и Intel выигрывают от более быстрой памяти DDR5 в последнем поколении, увеличивая пропускную способность примерно на 50 % по сравнению с DDR4, но это не сильно меняет ситуацию, когда производители микросхем также увеличивают количество ядер с таким же отрывом.

Чтобы найти решение, Intel и AMD использовали очень разные подходы.

Начнем с Intel, которая, возможно, разработала более интересное решение, чем AMD, поместив 64 Гб/с стекированной памяти HBM2e рядом со своими кристаллами ЦП Sapphire Rapids Xeon Max. Это обеспечило пропускную способность памяти более 1 Тб/с, что более чем в три раза выше, чем у процессоров Xeon SP с обычными каналами памяти DDR5. На его 56-ядерной части процессора серии Max это составляет около 18 Гб/с пропускной способности на ядро​​. Для сравнения: топовая модель AMD может иметь на 40 ядер больше, но пропускная способность на каждое ядро ​​составляет всего 4,8 Гб/с.

«Это довольно существенное увеличение пропускной способности, — считает Жан-Пьер Панциера, главный технический директор HPC в Atos, The Next Platform of Xeon Max. — Для приложений, которые чувствительны к полосе пропускания, это может принести много улучшений, например для вычислений рабочих нагрузок гидродинамики при прогнозировании погоды».

Но есть одна загвоздка: 64 Гб — это не столь большое количество памяти для нормальной работы — от 1,14 Гб до 2 Гб на ядро ​​в зависимости от того, какой процессор Xeon SP используется. Вы можете расширить его с помощью DDR5, но тогда вам придётся полагаться на прошивку чипа или интеграцию независимых поставщиков программного обеспечения для обработки перемещения данных, хотя пропускная способность увеличится примерно на треть.

Однако для некоторых рабочих нагрузок этого может быть более чем достаточно, отмечает Тиз: «Я думаю, может оказаться, что многие проблемы, по которым люди используют GPU вместо CPU, можно устранить, если на ЦП есть HBM».

AMD же придерживается проверенного подхода, добавляя больше каналов памяти за счёт места на плате и более высоких задержек. Genoa теперь может похвастаться 12 каналами памяти в стеке, что в сочетании с более высокой скоростью передачи памяти DDR5 обеспечивает пропускную способность до 460 Гб/с — в два раза большую, чем у «миланских» EPYC 7003.

Хотя такое решение далеко от Intel Max с точки зрения чистой пропускной способности, это имеет большое значение, особенно для процессоров AMD с меньшим количеством ядер. Поскольку AMD использует обычную старую память DDR5, они не полагаются на программные привязки для многоуровневого распределения памяти, как в случае с Intel Xeon Max. По словам Тиза, когда дело доходит до балансировки ядер и пропускной способности памяти, у Intel есть «явное преимущество».

«Я хотел бы, чтобы HBM более широко продвигался в отрасли, — говорит Тиз. — Это важно для рабочих нагрузок HPC и ИИ, а также некоторых отраслевых лидеров».

X-фактор AMD

Трудно говорить о процессорах Max Series, не проводя параллелей с моделями AMD X-серии.

Технология впервые была использована на Milan-X во время виртуального мероприятия AMD Accelerated Data Center в конце ноября. Используя метод под названием 3D V-Cache — в честь усовершенствованной технологии, используемой для наложения дополнительной SRAM поверх чипов Core Complex Dies (CCD), AMD смогла добавить дополнительные 64 Мб кеш-памяти L3 на каждый кристалл, что в общей сложности составляет по 96 Мб каждый. На топовом чипе показатель достигал значения 768 Мб кеш-памяти L3.

AMD заявила, что, кешируя большую часть рабочей нагрузки в L3, может значительно увеличить пропускную способность при рабочих нагрузках с интенсивным использованием полосы пропускания — 66,4 % при тестировании Synopsys VCS. Тем не менее, ни Тиз, ни Панциера пока не думают о выпуске 3D V-Cache из-за соотношения цены и производительности.

«То, что мы видели до сих пор во всех приложениях и бенчмаркингах — и здесь я говорю только о высокопроизводительных вычислениях, — это то, что увеличение производительности не соответствует увеличению цены, — говорит Панциера. — Кеш — это нечто важное, но не для высокопроизводительных вычислений».

Для Тиза HBM является более гибким средством. «Есть много рабочих нагрузок, таких как EDA для рабочих нагрузок типа CFD, и было бы здорово, если бы они могли поместиться в кеш. Но если они его превышают, всё равно придется обращаться к основной памяти, а это немного замедлит работу, — сказал Тиз. – У HBM больше преимуществ в отношении скорости доступа».

AMD еще не поделилась подробностями о процессоре Genoa-X, но мы можем предположить, что он будет обладать большей кеш-памятью, чем предыдущий Milan-X.

Добавьте частоты, пожалуйста!

По словам Панциеры, статус-кво последних десяти-пятнадцати лет таков, что базовые частоты ЦП застряли в диапазоне от 2 до 3 ГГц. Причина проста: чем больше ядер вы помещаете в чип, тем меньше энергии у вас остаётся для управления тактовой частотой. В итоге решение этой задачи было отложено в долгий ящик.

Процессоры Intel Xeon SP 4-го поколения, анонсированные в январе этого года, не являются исключением. Только несколько чипов могут работать лучше, чем базовая частота 3 ГГц, но и они также не разгоняются достаточно высоко: большинство из них работают на частоте менее 4,1 ГГц в режиме Turbo, когда многие ядра простаивают. Это, безусловно, прогресс, но форсированные тактовые частоты трудно предсказать, поскольку они диктуются сложными алгоритмами, которые учитывают температуру, бюджет мощности и загрузку каждого ядра.

До недавнего времени это было верно и для AMD, однако с запуском архитектуры AMD Zen 4, переходом на более эффективный 5-нм TSMC и более высокий общий TDP Genoa добилась большего успеха. У производителя микросхем есть несколько продуктов с разными идентификационными кодами, которые способны работать на частоте более 4 ГГц. В результате значительно повысилась эффективность системы охлаждения процессора.

Как нам уже известно, Zen 4 способен работать на ещё более высоких тактовых частотах. Это та же архитектура, которая используется в процессорах AMD Ryzen, ориентированных на потребителя. 16-ядерный чипсет 7950X имеет базовую тактовую частоту 4,5 ГГц, которая способна повышаться до 5,7 ГГц при потреблении около 230 Вт, хотя и не на всех ядрах.

«Мы будто зациклились на ядрах, — сказал Тиз, который предпочел бы значительно более высокие тактовые частоты на компонентах, ориентированных на высокопроизводительные вычисления. – Мало кому нужны 96-ядерные или 128-ядерные процессоры. Было бы гораздо лучше иметь 8-ядерную или 16-ядерную систему с частотой 4 и более ГГц».

Следующий в очереди – APUS

Графические процессоры стали доминирующим фактором повышения производительности, по крайней мере для ускоренных рабочих нагрузок, в последние годы.

«Роль ЦП в использовании сервера или его проектировании несколько изменилась по сравнению с тем, от чего зависит большая часть производительности. Теперь это будто дорожный полицейский», — считает Тиз.

Неудивительно, что производители микросхем пытаются найти оптимальное, объединяя процессор с графическим процессором. Идея не новая: до сих пор она использовалась только в тонких и лёгких ноутбуках.

AMD недавно предложила новый ускоренный процессор (APU) Instinct MI300, который будет рациональнее использовать чипсет производителя и методы 3D-пакинга. MI300A оснащен девятью 5-нм и четырьмя 6-нм чипсетами, каждый из которых будет снабжен HBM, по крайней мере, если судить по рендерингу AMD.

Гибрид CPU-GPU от Intel Falcon Shores, анонсированный в феврале прошлого года, пойдет по тому же пути. Сочетание ядер ЦП X86 и графических ядер Xe лежит в основе будущих графических процессоров Ponte Vecchio и Rialto Bridge. Подробностей о Falcon Shores пока почти нет, но одно уже точно известно — Falcon Shores, как и серия AMD MI300, будет включать ядра ЦП и ядра графического процессора с общим пулом памяти с «экстремальной пропускной способностью», которая может быть стекированной памятью HBM3 или что-то в этом роде. XPU (так Intel предпочитает называть свой продукт) будет производиться с использованием технологии изготовления микросхем эпохи ангстрема.

Суперчип Nvidia Grace-Hopper больше похож на AMD MI300 или Intel Falcon Shores, чем кажется на первый взгляд. Ещеболее важно то, что конструкция, включающая процессорный кристалл Grace с 512 Гб памяти LPDDR5X и графический процессор Hopper с 80 Гб HBM, соединенные между собой высокоскоростными портами NVLink, скорее всего, опередит на рынке как AMD, так и Intel.

Однако этот переход создаст проблемы для производителей компонентов по нескольким направлениям, в частности из-за термонагрузки. Сегодня процессоры потребляют более 400 Вт, а графические процессоры — 600 Вт.

«Я ожидаю, что мощность некоторых из этих APU превысит киловатт», — говорит Тиз.

В этом случае жидкостное охлаждение станет обязательным требованием.

Еще одна проблема — поддержка программного обеспечения. В то время как Intel и Nvidia имеют долгую историю разработки программного обеспечения для поддержки своих чипов, этого нельзя сказать об AMD.

«Нам нравится внешний вид и архитектура MI300, но экосистема программного обеспечения по-прежнему остается проблемой», — сказал Тиз.

Панциера выразил аналогичную обеспокоенность по поводу готовности программного обеспечения, разработанного для процессоров Arm, таких как Grace от Nvidia:

«Вы можете столкнуться с ситуацией, когда у вас может быть 70 % приложений, которые запущены и работают на этой платформе, но 30 %, которых вам не хватает, заставят вернуться к X86».

Есть уверенность, что гибриды CPU-GPU устранят некоторые существующие узкие места в высокопроизводительных вычислениях, но, вероятно, не все из них. Также неизвестно, будут ли они полезны при обучении ИИ и рабочих нагрузках при анализе данных.