Сколько транзисторов в самом мощном процессоре

В прошлом году компания Cerebras System представила самый большой в мире процессор. Его размеры составили 220 x 220 мм, площадь — 46 225 мм². Процессор включает 1,2 трлн транзисторов. Чип получил название WSE (Wafer Scale Engine). Представители компании разработали и компьютер CS-1, основой которого стал гигантский процессор. Систему официально представили 18 ноября 2019 года.

Сейчас Cerebras System рассказала о новом процессоре, количество транзисторов в котором увеличится более чем в 2 раза — с 1,2 трлн до 2,6 трлн. Резкое увеличение количества элементов в чипе стало возможным благодаря переходу на 7-нм техпроцесс. Кратно выросло и число ядер — их теперь 850 000.

Размеры первого процессора огромны — 22 x 22 см, что сопоставимо с размерами небольшого ноутбука. Он в 55.9 раз больше самого крупного GPU-чипа, Nvidia A100. Ну а CS-1 назван производителем «самым быстрым компьютером для работы с искусственным интеллектом и обучения нейросетей». Охлаждение — жидкостное с внутренним контуром и двумя насосами. Дополнительно установлены четыре крупных кулера, обеспечивающие скорость воздушного потока в 0,95 м 3 /с.

Процессор первого поколения включал 400 000 вычислительных ядер. Его оснастили 18 ГБ памяти формата SRAM, а пропускная способность при этом достигла 9 петабайт в секунду. Система потребляла 18 кВт энергии, которую подавали 12 блоков питания. Масса компьютера с установленным WSE — 254 килограмма. Для включения системы в единую сетевую инфраструктуру использовались 12 портов 100 Gigabit Ethernet (100GBase-SR4).

Wafer Scale Engine в сборе с системой питания и охлаждения
Генеральный директор и соучредитель Cerebras Systems Эндрю Фельдман на презентации новинки рассказывал, что CS-1 в три раза производительней кластеров TPU от Google. Вычислительные решения от поискового гиганта по энергетическим характеристикам оказались хуже разработки компании, потребляя более 100 кВт электроэнергии.

В 2019 году первые экземпляры CS-1 были переданы заказчикам. Среди них — Аргоннская национальная лаборатория министерства энергетики США, Суперкомпьютерный центр Питтсбурга и Ливерморская национальная лаборатория.

На конференции Hot Chips 2020 компания Cerebras System объявила, что перейдет с 16-нм техпроцесса на 7-нм. Производителем процессора останется тайваньская Taiwan Semiconductor Manufacturing Company (TSMC). Представитель разработчика заявил, что в лаборатории тестируется несколько образцов WSE нового поколения.

Ожидается, что Cerebras System увеличит объем доступной памяти чипа и усилит межкомпонентные соединения микросхем для повышения пропускной способности. Скорее всего, компания продолжит предоставлять в аренду вычислительные мощности для обучения нейросетей корпоративных клиентов. Кто станет клиентом, выяснится в ближайшем будущем, но можно быть уверенным в том, что желающих будет много.

В техноиндустрии количество транзисторов и плотность транзисторов часто используют для демонстрации технического достижения и некой вехи в развитии. После выхода нового процессора или системы на чипе многие производители начинают хвастать сложностью своей схемы, измеряя количество транзисторов в ней. Недавний пример: когда компания Apple выпустила iPhone 11 с A13 Bionic внутри, она похвалялась тем, что процессор содержит 8,5 млрд транзисторов. В 2006 Intel сходным образом хвасталась Montecito, первым процессором с миллиардом транзисторов.

По большей части это постоянно увеличивающееся количество транзисторов является следствием закона Мура и мотивацией к дальнейшей миниатюризации. Индустрия переходит на новые техпроцессы, и количество транзисторов на единицу площади продолжает расти. Поэтому количество транзисторов часто считается показателем здоровья закона Мура, хотя это на самом деле и не совсем корректно. Закон Мура в оригинальном виде – это наблюдение, согласно которому количество транзисторов экономически оптимального дизайна (т.е. с минимальной стоимостью одного транзистора) удваивается каждые два года. С точки зрения потребителя, закон Мура – это на самом деле обещание того, что завтрашние процессоры будут лучше и ценнее сегодняшних.

В реальности плотность транзисторов значительно колеблется в зависимости от типа чипа, и особенно от способа компоновки самого чипа. Что ещё хуже, не существует стандартного способа подсчёта транзисторов, из-за чего для одной и той же схемы эти цифры могут отличаться на 33-37%. В итоге количество транзисторов и плотность транзисторов – это лишь приблизительные метрики, и если замкнуться только на них, можно потерять из виду общую картину.

На компоновку продукта влияет его предназначение

Плотность транзисторов тесно связана с предназначением и стилем разработки продукта. Будет, по меньшей мере, некорректно сравнивать такие сильно отличающиеся друг от друга компоновки, как ASIC с фиксированным быстродействием (к примеру, Broadcom Tomahawk 4 25.6Tb/s или Cisco Silicon One 10.8Tb/s) и высокоскоростной процессор для дата-центров (к примеру, Intel Cascade Lake или Google TPU3).

От ASIC требуется поддержка определенной пропускной способности, а увеличение частоты не приносит ему пользы. К примеру, чип Cisco Silicon One предназначен для высокоскоростных сетей, использующих 400Gbps Ethernet, и от увеличения частоты на 10% он ничего не выиграет. 400Gbps – это стандарт IEEE, а следующая ступень скоростей – уже 800Gbps. В итоге большинство команд разработки ASIC оптимизируют чипы по минимуму стоимости, автоматизации инструментов разработки, уменьшению количества специальных схем и плотности транзисторов.

И наоборот, чем быстрее серверный чип, тем больше он стоит, и поэтому он всегда будет получать преимущество от увеличения частоты. К примеру, Xeon 8268 и 8260 – 24-ядерные процессоры, и отличаются в основном базовой частотой (2,9 ГГц и 2,4 ГГц), в результате чего их стоимость отличается на $1600. Поэтому команда разработки серверов будет стремиться к оптимизации по частоте. Высокоскоростные процессоры обычно используют больше специальных схем и более крупные транзисторы. В современных схемах на базе FinFET это даёт увеличение количества транзисторов с 2, 3 плавниками, и даже больше. И наоборот, низкоскоростная логика, типа параллельных GPU или ASIC чаще использует более плотную компоновку транзисторов всего с одним плавником, принося в жертву тактовую частоту для увеличения плотности. Транзисторы с низкой утечкой также обычно имеют больший размер.

Дело не в том, сколько там транзисторов, а в том, как вы их используете

Подводя итоги, Становится видно, что количество транзисторов и плотность транзисторов – метрики весьма проблемные. На них сильно влияет общая компоновка чипа и объёмы критически важных блоков – вычислительной логики, SRAM, I/O. SRAM наиболее плотная из всех трёх, поэтому небольшое изменение размера кэша сильно изменит количество транзисторов, при этом практически не повлияв на быстродействие и ценность. Более того, не все макетные транзисторы созданы равными. Активные транзисторы – это фундаментальные строительные блоки таких ценных компонентов, как CPU и GPU. С другой стороны, фиктивные транзисторы и развязывающие конденсаторы больше похожи на лишний груз. Надеюсь, что большинство компаний не будут объединять активные и макетные транзисторы, но важно отличать два этих типа при сравнении схем.

Несмотря на все проблемы с количеством транзисторов, эта метрика потенциально полезна в очень редких случаях. Почти всегда процессор с 100 млрд транзисторов будет сложнее и ценнее процессора с 100 млн транзисторов. Вероятно, анализ всё ещё остаётся верным для двукратной разницы в количестве транзисторов – особенно для чипов, обрабатывающих задачи параллельно, типа GPU, или для двух очень похожих процессоров (к примеру, двух SoC для смартфонов или двух серверных процессоров). Но сложно поверить, что небольшое различие в количестве транзисторов обязательно приведёт к наличию разницы в ценности. На самом деле отличным примером могут служить Radeon VII и RX 5700 от AMD. У Radeon VII на 28% больше транзисторов, однако быстродействие у него почти такое же, в частности из-за того, что в линейке RX 5700 используется более современная архитектура. Кроме того, RX 5700 оказывается гораздо дешевле, поскольку использует GDDR6 вместо HBM2. Реальная ценность для потребителей заключается не в количестве транзисторов, а в том, как они используются. Небольшие различия в количестве транзисторов не имеют значения по сравнению с хорошей архитектурой, выбором функций и другими факторами.

Многие из этих критических утверждений верны и для плотности транзисторов, и для техпроцессов. Если небольшое увеличение в количестве транзисторов не обязательно влияет на пользовательскую ценность, то вряд ли на это повлияет соответствующее небольшое увеличение в плотности. С другой стороны, такие факторы, как эффективность транзисторов, динамическое питание, энергопотребление в простое, инструменты разработки, доступность подложек и передовые свойства могут придать большую ценность. Плотность – всего лишь один из множества аспектов процесса, и если зацикливаться на нём, то можно за деревьями не заметить леса.

Наверняка вы подумали, что это какой-то очередной кликбейт. Что это за самый большой процессор в мире? Похоже сейчас нам будут рассказывать о процессоре, который на 5 процентов больше других, и то если рассматривать этот процессор только с определенной стороны. И да, просмотры и прочтения мы хотим собрать, но…

Сегодня мы расскажем вам о процессоре компании Церебро под названием Cerebras CS-1. И он действительно огромный!

Например, GPU, который считался самым большим раньше — это процессор Nvidia V100, а вот новый процессор Церебро. Он почти в 57 раз больше! Площадь самого чипа — 462 квадратных сантиметра — это почти столько же сколько площадь всей Nvidia 3090, вместе с системой охлаждения и разъемами.

А что вы скажете на то, что этот монстр способен симулировать некоторые физические модели быстрее самих законов физики? Заинтриговали? Что ж, тогда присаживайтесь, наливайте чаек. Сегодня будет разбор по-настоящему огромного однокристального процессора!

Итак, что же это за монстр такой и зачем он нужен? Давайте сразу ответим на второй вопрос — этот процессор создан для машинного обучения и искусственного интеллекта. Кроме того, он сильно расширит возможности для различного сложного моделирования и сможет заглядывать в будущее. Вообще, искусственный интеллект — это невероятно интересная и актуальная тема, а ее главные ограничения — это слабые вычислительные мощности. А если хотите узнать о реальных проектах с использованием искусственного интеллекта — у Илона Маска есть такой в запасе — Open AI.

Если вы думали, что закон Мура со своим увеличением количества транзисторов в процессоре каждые 1,5 года — это быстро, то посмотрите на потребности в области ИИ, ведь спрос на эти вычисления удваивается каждые 3,5 месяца!

Классический подход — это напихать кучу процессоров в серверные стойки, к каждому подвести систему охлаждения и питания, при этом каждый отдельный процессор еще надо связать друг с другом, а это, кстати, неизбежно вызывает задержки.

Скажем так — если вы возьмете двигатель от Ferrari и запихнете ее в старые Жигули, то машина конечно поедет быстрее, но как Ferrari все равно не поедет. Поэтому тут нужен принципиально иной подход, ведь для того, чтобы получить настоящий гиперкар надо взять хорошие тормоза, подвеску, рассчитать аэродинамику: с компьютерами точно также.

Компания Церебро это и сделала — они решили разработать свою систему с нуля, то есть вообще все — от архитектуры самих процессоров, до системы охлаждения и питания.

Это огромная машина, потребляющая 20 килоВатт, и занимающая треть стандартной серверной стойки, то есть можно размещать по три таких компьютера в одной стойке! А сам чип, по своей сути и предназначению, напоминает серверные GPU от NVIDIA, так что давайте их и сравним. Возьмем Nvidia Tesla V100.

Цифр много, приготовьтесь! Кроме размеров самого кристалла, процессор Церебро обладает четырьмя сотнями тысяч ядер, что в 78 раз больше, чем число ядер на NVIDIA Tesla V100! Количество транзисторов взрывает мозг — 1,2 триллиона, против 21 миллиарда у NVIDIA.

А сколько там памяти? 18 гигабайт l2 cache memory прямо на чипе! Это в три тысячи раз больше, чем у V100. Кстати у 3090 от той же NVIDIA, памяти на чипе тоже 6 мегабайт, прямо как у V100. Ну а про ширину полосы пропускания даже говорить страшно — у V100 это 300 Гигабит в секунду, а у Церебро — 100 ПЕТАбит в секунду. То есть разница в 33 тысячи раз!

А чтобы достичь схожей вычислительной мощности они заявляют, что нужна тысяча карт NVIDIA V100, что суммарно будет потреблять в 50 раз больше мощности и занимать в 40 раз больше места — это очень значительная экономия электроэнергии и свободного пространства.

Это конечно прекрасно — цифры поражают. Но как удалось их достичь?

Суть в размере. Чип — большой, нет, даже огромный. Именно это позволяет разместить столько всего на одном кристалле. И главное, что связь между элементами мгновенная, потому что не нужно заниматься сбором данных с разных чипов.

Однако, размер — это одновременно и главный недостаток Церебро.

Давайте по-порядку. Первое и главное — нагрев. Разработчики этого монстра прекрасно понимали, что они создают и какая система охлаждения нужна, поэтому она, как и сам процессор, были разработаны с нуля. Она представляет из себя комбинацию жидкостного охлаждения, которое направляется к охлаждаемым медным блокам! Охлаждающая жидкость, проходя через мощный насос, попадает в радиатор, где с помощью вентилятора происходит ее охлаждение, а горячий воздух уже выдувается наружу четырьмя дополнительными вентиляторами.

При потреблении 20 кВт, которые подаются через двенадцать разъемов питания, четыре уходит только на питание вентиляторов и насосов для системы охлаждения. Но в результате они достигли того, что чип работает при вдвое меньших температурах, чем стандартные GPU, что в конце концов повышает надежность всей системы.

Ну и конечно отдельно хочется сказать, что инженеры создали систему так, что она позволяет быстро менять почти любой компонент, что очень круто, так как в случае поломки — это уменьшает время возможного простоя.

Сам же чип собирает TSMC по, вы не поверите, 16 нанометровому техпроцессу. И тут вы можете справедливо возмутится. Как же так? Все уже делают чипы на 5 нм, какой смысл делать на древних 16 нм?

Тут то и скрывается вторая проблема. При производстве классических чипов неизбежно бывает брак, который приводит к тому, что несколько чипов оказываются негодными и выкидываются или используются для других задач, и чем мельче техпроцесс, тем выше процент брака. Но когда у тебя вся кремниевая подложка — это один чип, то любая ошибка в производстве приводит к тому, что всю пластину можно выкидывать. А при условии, что одна пластина может изготавливаться несколько месяцев и стоит около миллиона долларов, что ж….

Суть в том, что ребята решили, как бы подстраховаться. Ведь 16 нм техпроцессу уже почти семь лет: детали и тонкости при его производстве отлично изучены. Так сказать — уменьшают риски! Но стоит сказать, что уже ведется разработка и тестирование такого чипа на 7 нм, но его выход конечно будет зависеть от спроса на первое поколение! И там цифры просто огромные, только посмотрите на таблицу.

И тут вы можете справедливо заметить, что мы пока что ни слова не сказали о результатах, которых можно достичь с помощью этого монстра. Тут сложно, так как информация, в основном, закрытая, однако какие-то детали все равно просачиваются в медийное пространство.

Национальная лаборатория энергетических технологий Министерства энергетики США заявила, что CS-1 — первая система, которая смоделировала работу более миллиона топливных ячеек быстрее, чем в режиме реального времени.

Это означает, что когда CS-1 используется для моделирования, например, электростанции на основе данных о ее текущем состоянии, она может сказать, что произойдет в будущем быстрее, чем законы физики дадут такой же результат. Вы поняли? С помощью этого ПК можно заглянуть в будущее с высокой точностью, и если нужно подкорректировать и изменить его. И еще, например, в симуляции с 500 миллионами переменных Cerebras CS-1 уже обогнал суперкомпьютер Joule, занимающий 69-е место в рейтинге самых мощных суперкомпьютеров мира. Так что похоже со спросом проблем не ожидается.

Церебро планируется использовать для прогнозирования погоды или температуры внутри ядерного реактора или, например, проектирования крыльев самолета. Несомненно, лаборатории и различные исследовательские центры по всему миру найдут для Церебро области применения. Как вы понимаете, компьютер будет дорогим, но точная цена неизвестна.

Из открытых источников мы нашли только что в 2020 году в суперкомпьютерном центре Питтсбурга было куплено 2 компьютера Cerebras CS-1 за 5 миллионов долларов. Но система делается только под заказ и под каждого конкретного клиента, так что цена может варьироваться.

Выводы

Это явно уникальная система. И такого раньше никто не делал! Большинство производителей считают, что гораздо выгоднее и эффективнее наштамповать кучу маленьких процессоров, так как вероятность брака или поломки сильно падает и каждая ошибка сильно дешевле. Разработчики Церебро же решили пойти рискованным путем и, судя по тому, что процессор Cerebras CS-2 уже тестируют, их путь успешен.

И если все что они заявили — сбудется, то нас ждет абсолютно новая эра серверных вычислений, невероятные возможности для создания компьютерных моделей, новые мощности искусственного интеллекта. Нет сомнений, что и гиганты рынка, такие как Nvidia, Intel, Google, посмотрев на удачный опыт Церебро займутся разработкой своих огромных однокристальных систем. А вы только представьте, что будет если совместить это с квантовыми вычислениями, о которых мы недавно делали разбор? Ух!

Будем следить за развитием технологий, и продолжим дальше делать для вас такие интересные обзорные материалы про самые современные достижения!

PS. Кстати, лайк если поняли пасхалку в Церебро — ведь решетка радиатора выполнена в форме специальной сетки, которая используется в компьютерном моделировании для расчетов. Отсылка к предназначению Церебро!

Известный техноблогер Роман «Der8auer» Хартунг (Roman Hartung) решил воочию убедиться и показать всем, что между 14-нм транзисторами в процессорах Intel и 7-нм транзисторами TSMC в процессорах AMD не такая большая разница, как нам хотят внушить маркетологи. Здравый смысл говорит, что числа «14» и «7» отличаются в два раза, но на практике для техпроцессов всё обстоит по-другому.

Высекание образцов из процессоров для изучения под сканирующим электронным микроскопом (Der8auer)

В качестве подопытных Der8auer выбрал лучшее, что сегодня есть у компаний Intel и AMD из массовых продуктов для ПК. Образцы с транзисторами он извлёк из 14-нм процессора Intel Core i9-10900K (техпроцесс 14+++) и 7-нм процессора AMD Ryzen 9 3950X производства тайваньской компании TSMC. В качестве образцов для изучения были выбраны участки процессоров с кеш-памятью второго уровня. Транзисторы в блоках логики имеют разброс по размерам затворов и рёбер, тогда как в составе ячеек памяти они более-менее одинаковые и представляют собой регулярную (повторяющуюся) последовательность удобную для сравнения.

Сравнение шага затворов и вертикальных рёбер транзисторов в процессорах Intel и AMD (Der8auer)

Изучение каждого из образцов процессоров под сканирующим электронным микроскопом показало, что 14-нм транзисторы Intel характеризуются шириной затвора 24 нм, а 7-нм транзисторы AMD/TSMC имеют затворы шириной 22 нм (высоты затворов также примерно одинаковые). Ни о 14, ни, тем более, о 7 нм речь, как видим, не идёт. В оправдание современных маркетологов скажем, что это расхождение началось после техпроцесса с нормами 90 нм и ускорилось после перехода от транзисторов с планарными затворами к вертикальным.

Тем не менее, 7-нм техпроцесс TSMC оказался немного лучше 14-нм техпроцесса Intel с возможностью размещения на одном квадратном миллиметре 90 млн транзисторов. В случае 10-нм техпроцесса Intel эта компания немного вырывается вперёд, поскольку обещает на каждый квадратный миллиметр размещать 100,8 млн транзисторов. Но это сравнение тоже имеет свои нюансы.

Так, три года назад для 10-нм техпроцесса Intel предложила не просто считать транзисторы из того или иного блока на процессоре, а выбирать их целенаправленно и использовать весовые коэффициенты. Для метрики Intel берутся транзисторы из элементарной логики. Во-первых, это транзисторы из двухвходовых элементов NAND (не путать с памятью NAND-флеш), которым присваивается весовой коэффициент 0,6. Во-вторых, используются транзисторы из триггеров с минимум 25 затворами, которым придаётся коэффициент 0,4. Из этих данных выводится плотность размещения транзисторов, которая, например, как в сравнении Der8auer, будет отличаться от реальной для транзисторов в кеш-памяти.

И снова кому-то придётся брать образцы процессоров, препарировать их и буквально вручную считать реальное число транзисторов. И так будет до тех пор, пока в индустрии не придут к согласию по поводу новой метрики, и если туда не сунут свой нос маркетологи.

Современные процессоры Ryzen Threadripper и EPYC опираются на дизайн чиплетов, при этом AMD весьма успешно доработала микроархитектуру, в результате она вновь стала реальным конкурентом Intel. Мы уже несколько раз подробно описывали данный дизайн. В том числе предоставляли снимки кристаллов CCD и IOD новых процессоров Ryzen. Сложность чипов хорошо видна на снимках, миллиарды транзисторов располагаются на площади несколько сотен квадратных миллиметров.

Наш форумчанин OC_Burner уже много раз публиковал подобные снимки, теперь ему достался инженерный образец процессора EPYC, который был помещен под микроскоп. Сначала были получены снимки в ближней инфракрасной области, поскольку кристаллы довольно хорошо видны при данной длине волны. Ранее мы уже знакомили читателей со снимками CCD и IOD новых процессоров Ryzen. Теперь настало время IOD процессора EPYC. Знакомьтесь:

Чипы с ядрами CPU и кэшем под названием CCD не изменились. CCD Matisse (Ryzen) и Rome (EPYC) имеют площадь кристалла 74 мм² и содержат 3,9 млрд. транзисторов. Но вот кристаллы IOD отличаются. На IOD процессора Ryzen содержится 2,09 млрд. транзисторов на площади 125 мм². Кристаллы IOD процессора EYPC и скоро Ryzen Threadripper составляют по площади 416 мм² и содержат 8,34 млрд. транзисторов - в несколько раз больше.

Сравнение техпроцесса, площади и числа транзисторов

Размер кристалла	Транзисторы
Zen (Zeppelin)	212 мм²	4,8 млрд.
Zen+ (Zeppelin)	212 мм²	4,8 млрд.
CCD (Matisse & Rome)	74 мм²	3,9 млрд.
IOD (Matisse)	125 мм²	2,09 млрд.
IOD (Rome)	416 мм²	8,34 млрд.
Matisse insgesamt: 2x CCD + IOD	199 мм²	5,99 млрд.
Rome insgesamt: 8x CCD + IOD	1.008 мм²	39,54 млрд.

Но перейдем к дополнительным деталям, в которых весьма интересно разобраться:

Пользователь Twitter @Locuza детально расписал структуру IOD, которая похожа на состав IOD процессоров Ryzen. На иллюстрации выше показан IOD клиентских процессоров Zen 2, который наложен на снимок IOD современных EPYC. И бирюзовая структура копируется несколько раз - она показана темно-синим.

Центральная область IOD состоит из SRAM, по большей части, и не все структуры можно распознать. Но на периферии все проще. Здесь можно видеть восемь каналов памяти DDR4, окрашенные фиолетовым. Желтым выделены контроллеры PCI Express 4.0, обеспечивающие 128 + 4 линии PCI Express. Бирюзовые области соответствуют GMI (Global Memory Interconnect). Каждый из данных компонентов связывается с одним CCD процессора EPYC. У процессоров Zen AMD называет данный интерконнект Infinity Fabric (IF).

С 8,34 млрд. транзисторов IOD процессоров EPYC имеет примерно столько же транзисторов, сколько кристалл XCC современных CPU Intel - например, Intel Xeon 8280 на основе Cascade Lake-SP. Кроме того, в корпусировке присутствует восемь CCD с вычислительными ядрами. Дизайн чиплетов позволил AMD создавать столь сложные структуры, масштабируя чипы от простых настольных CPU до мощных серверных.

Не все транзисторы созданы равными

Ещё одна проблема использования подсчёта количество транзисторов или плотность транзисторов в качестве метрики состоит в том, что эти цифры неоднозначны и могут ввести в заблуждение. Обычно мы представляем себе транзисторы в виде физической реализации логических блоков и схем. При вычислениях этим можно обозначить всё что угодно – от ядра процессора или модуля работы с плавающей запятой до инвертера. Для хранения это может быть кэш, регистровый файл, ассоциативное запоминающее устройство (content-addressable-memory, CAM) или битовая ячейка SRAM. Для аналоговых компонентов или I/O это может быть PLL, или передатчик/приёмник, расположенные вне чипа. Транзисторы, физические реализующие эти блоки, называют активными транзисторами (в отличие от схематических транзисторов). Однако в реальности не все транзисторы созданы равными, и современные процессоры производятся со множеством неактивных транзисторов. Транзисторы, формирующиеся в процессе изготовления называют макетными. Макетные транзисторы – это описанные выше активные транзисторы, но также среди них есть и фиктивные транзисторы, а также транзисторы, используемые в качестве развязывающих конденсаторов.

Фиктивные транзисторы вставляют в схему для повышения эффективности производственного процесса. К примеру, определённые шаги отжига и травления в процессе производства лучше работают на относительно однородной поверхности, и если вставить дополнительные транзисторы в пустые места, это увеличит однородность. Для многих аналоговых схем такие транзисторы нужны для достижения желаемой эффективности. Ещё пример – эффективность современных FinFET зависит от нагрузки на транзисторы, являющейся функцией транзисторов, находящихся поблизости. Для достижения нужной эффективности иногда приходится разместить несколько транзисторов поблизости, чтобы получить нужную нагрузку.

Хотя фиктивные транзисторы повсеместно применяются, их используют не так уж много. А вот развязывающие конденсаторы на основе MOSFET используются повсеместно. В целом логика современного чипа никогда не достигает 100% пространственной эффективности. При всех чудесах современных средств разработки всё равно останутся пустые места между отдельными логическими ячейками (к примеру, между вентилями NAND), между функциональными модулями (кэш L1D), и даже между целыми блоками (например, ядрами CPU). Пустое пространство возникает вследствие того, что инструменты разработки пытаются удовлетворить правилам, гарантирующим эффективное производство и частоту, использовать доступные ресурсы (например, маршрутные слои) и собрать электромеханическую головоломку из логических клеток, функциональных модулей и блоков. Пустое пространство может занять до 10-25% чипа. Для увеличения выхода годных изделий кристаллы должны быть относительно однородными, и пустое пространство не может оставаться реально пустым. Многие схемы заполняют эти места развязывающими конденсаторами, чтобы улучшить обеспечение питанием. Кроме того, в некоторых схемах развязывающие конденсаторы располагают внутри стандартных библиотек ячеек. Транзисторы в роли развязывающих конденсаторов – основной источник неактивных макетных транзисторов, однако точные данные по их количеству сложно найти.

Наши друзья из TechInsights провели технический анализ процессора на уровне схемы, в который входил и подсчёт макетных транзисторов на небольшом участке кристалла. Они поделились своими открытиями для небольшого списка SoC на 7 нм. Данные основаны на небольшом количестве избранных мест с каждого из SoC, обычно с GPU, где плотность транзисторов должна быть наибольшей. Они обнаружили, что в изученных ими местах порядка 70-80% транзисторов были активными, а оставшиеся 20-30% — развязывающими конденсаторами или фиктивными. Однако эти цифры основаны на небольшом количестве выборок, поскольку подобный анализ требует большого количества денег и времени. Чтобы подтвердить эти цифры и развить тему, мы собрали данные по нескольким современным схемам, и обнаружили, что обычно процент активных транзисторов составляет 63-66 от общего количества, а 33-37% транзисторов – развязывающие конденсаторы. Числа у TechInsights получились ниже, вероятно, потому, что они изучали наиболее плотные логические участки SoC, и не учитывали пустое пространство, где могло оказаться больше развязывающих конденсаторов.

Из этих данных совершенно ясно следует, что между количеством активных и макетных транзисторов в чипе часто есть большая разница. К сожалению, многие компании обычно не указывают, число каких транзисторов они учитывают. Данные по процессорам от AMD и Nvidia из Таблицы 2 взяты из технических документаций. На основе неформального обсуждения этого вопроса с двумя этими производителями, мы привели число активных транзисторов в последнем столбце. Судя по всему, число транзисторов, указанное для HiSilicon Kirin 990 5G, может означать макетные транзисторы, что может объяснить несоответствие между этими схемами. Непонятно, реализован ли чип Apple A13 с использованием 8,5 млд активных или макетных транзисторов. В первом случае их достижение по плотности было бы впечатляющим.

Кажется неразумным учитывать эти фиктивные транзисторы и развязывающие конденсаторы наравне с активными транзисторами. Активные транзисторы реализуют функции и особенности, ценимые пользователями – будь то ядра CPU, выборочное отключение питания для улучшения энергопотребления в режиме простоя, ускорители нейросетей или кэш. Однако фиктивные транзисторы и развязывающие конденсаторы – это просто лишние компоненты, не добавляющие прямой ценности, а в некоторых случаях даже проигрывающие более сложным технологиям. К примеру, траншейные конденсаторы от IBM гораздо эффективнее развязывающих конденсаторов, и позволяют создавать плотные чипы eDRAM, уменьшая стоимость системы. Intel FIVR увеличивает эффективность платформы и полагается на MIM-конденсаторы, практически устраняя необходимость в развязывающих конденсаторах, а также, вероятно, уменьшает количество развязывающих конденсаторов, необходимых на кристалле. В обоих случаях уменьшение количества развязывающих конденсаторов приносит пользу. Суть закона Мура состоит в том, чтобы создавать ценность для потребителей, продуктивно используя дополнительные активные транзисторы, а фиктивные транзисторы и развязывающие конденсаторы этой ценности не добавляют.

Плотность и количество транзисторов определяются балансом разработки

Ещё больше влияет на количество транзисторов и плотность транзисторов реальная компоновка чипа. Каждый современный чип состоит из какой-то комбинации логики для вычислений, памяти (обычно SRAM) для хранения и I/O для передачи данных. Однако по плотности три этих компонента значительно разнятся – см. таблицу 1. У Poulson и Tukwila одна платформа, одинаковые цели, связанные с высокой скоростью работы, и высочайший уровень надёжности.

Таблица 1: количество транзисторов и плотность транзисторов основных участков поколений Poulson и Tukwila процессора Itanium

Процессоры состоят из четырёх основных участков: ядра CPU, кэш L3, системный интерфейс и I/O. Судя по раскрытой производителем информации, у Poulson на кристалле есть ещё 18 мм 2 для других функций. Участок ядер CPU содержит ядра и оптимизированные по быстродействию кэши L1 и L2, и основное место там занимает высокоскоростная логика для операций свыше 1,7 ГГц для Tukwila и 2,5 ГГц для Poulson. Крупные кэши L3 (24 Мб для Tukwila и 32 Мб для Poulson) разработаны для максимальной ёмкости и используют самые плотные ячейки 6T SRAM из возможных. В системном регионе находится большой ассортимент функций – матричный переключатель для передачи данных I/O и памяти по кристаллу, QPI и контроллеры памяти, протокол когерентности с использованием справочника и кэши справочника, модули управления питанием. Системный участок обычно не такой плотный, поскольку логика там работает на фиксированной частоте, и во многих из более крупных компонентов высокоскоростные шины, пересекающие кристалл, занимают больше места, чем транзисторы. И, наконец, регион I/O содержит физические интерфейсы для внешних коммуникаций, реализованных через высокоскоростные последовательные связи (QPI links). Связи по-разному передают сигналы, и в сумме у них набирается порядка 600 контактов.

В количественном плане два этих процессора иллюстрируют критически важные тренды, которых придерживаются практически все крупные разработчики чипов. Во-первых, в различных частях чипа плотность транзисторов может отличаться в разы – более, чем в 20 раз, что во много раз больше, чем упоминаемое в законе Мура удвоение плотности, связанное с улучшением процессоров на одно поколение. Естественно, самым плотным участком является регион кэша, состоящий из сверхплотной SRAM – он и содержит большинство транзисторов. Кэш примерно в 3-5 раз плотнее, чем вычислительная логика в ядрах, что опять-таки больше, чем удвоение. Наименее плотная часть – это I/O, поскольку там содержатся деликатные аналоговые схемы типа PLL и DLL, цифровые фильтры, и крупные I/O транзисторы высокого напряжения, которые используются для отправки данных с чипа и получения им данных. Кроме того, многие участки I/O должны занимать достаточно места по краям чипа, чтобы их можно было соединить со всеми контактами, и занимаемая ими площадь определяется количеством контактов, а не плотностью схем.

Данные выше демонстрируют, что плотность транзисторов современных чипов является в основном функцией их предназначения и компоновкой самого чипа. Для экстремального примера представьте себе 32 нм схему, основанную на Poulson, но не имеющую кэша L3 – плотность транзисторов такого чипа равнялась бы примерно 2,57 млн/мм 2 , или менее половины реальной плотности Poulson. И в другую сторону – гипотетический вариант Poulson, содержащий только вычислительную логику и кэш, без системы I/O, имел бы плотность транзисторов порядка 9 млн/мм 2 .

Наконец, SoC от двух смартфонов в 1,35 – 2,29 раз плотнее, чем остальные процессоры на 7 нм. Эта впечатляющая плотность достигнута благодаря разным целям оптимизации. SoC смартфонов делают так, чтобы они были подешевле, а их плотность была повыше. Процессоры AMD стремятся к высокой производительности. Кроме того, компании Apple и HiSilicon крупнее и богаче, они могут позволить себе большие команды разработчиков и большие траты на оптимизацию. Однако возможно также, что количество транзисторов и плотность транзисторов у мобильных SoC отличаются потому, что для них транзисторы считают по-другому. Последний столбец таблицы 2 показывает, как именно производитель подсчитывает количество транзисторов – мы подробнее обсудим это чуть позже.

Читайте также: