Nvidia представила архитектуру Ampere и графический процессор A100

Вчера, 14 мая 2020 года, глава компании Nvidia представил новый промышленный процессор A100 построенный на перспективной 7ми нанометровой архитектуре компании – Ampere.
A100 – это самый мощный в истории графический процессор, с площадью кристалла 826мм2, состоящий из 54 миллиардов транзисторов и включающий в себя 6912 CUDA ядер, 432 тензорных ядра, несущий на своей подложке 6 модулей с памятью HBM2(с разрядностью шины 6144бит) и способный обеспечить производительность до 19,5Тфлопс для FP32 задач с одинарной точностью вычислений и 9,5Тфлопс для FP64 задача в вычислениях с двойной точностью после плавающей запятой. Для сравнения, у предшественника A100 – GPU Tesla V100 данные значения составляют 15,7 и 7,8Тфлопс соответственно при на 40% меньшем количестве CUDA ядер. Кажется, прирост не столь велик какой мог бы быть при переходе с 12 нанометрового на 7ми нанометровый техпроцесс. Если посмотреть на прогресс в увеличении числа транзисторов и плотности их компоновки на единицу площади, становится действительно неясным столь незначительное увеличение производительности.

Секрет кроется в подходе Nvidia к расстановке приоритетов. При создании A100 на первое место ставился не прирост «голой» производительности, а скорость машинного обучения, увеличение которой со слов руководителя «зелёных» произошло в 20ти кратном размере. Это «на бумаге», когда дело доходит до практики, реальный прирост скорости обучения перед V100 падает с 20ти до 7ми кратного превосходства, что тоже реально круто, но не так, как в теории.

В видео презентации Ampere на примере обработки изображений(11я минута видео) показан живой прирост производительности.

Подытожить премьеру графического процессора A100 стоит информацией о том, что Nvidia уже предлагает на его основе новую промышленную платформу — NVIDIA DGX-A100(ту самую, которую Дженсен Хуанг «испёк» в духовке), состоящую из 8ми таких GPU стоимостью 200 000 долларов США. Платформа поддерживает новейший стандарт передачи данных PCI-Express 4.0 и оснащена интерфейсом(разъёмами) NVLink для объединения нескольких устройств в единую структуру. Также нельзя не отметить компановку платформы DGX-A100 двумя 64х ядерными/128ми поточными центральными процессорами AMD EPYC 7742. Ранее их место занимали CPU от Intel, но на сегодняшний день из-за технологично отставания изделия «синих» не могут обеспечить необходимую производительности и поддержку шины PCI-E 4.0.
Что касается архитектуры Ampere, то она станет основой всего следующего поколения видеокарт Nvidia не только в промышленном сегменте, но и в игровом и дизайнерском в том числе. «Зелёные» обещают внушительный прирост производительности и в дорогой линейке RTX и в бюджетной GTX, по планам компании также «переезжающей» на 7нм.
О том, на что способны RTX видеоускорители с GPU Ampere наглядно показывает видео игры с шариком которая, «по силам» на сегодняшний день только Nvidia Quadro RTX 8000 с 48 гигабайтами видеопамяти.