Ddr 800 unganged mode что это

A^ Процессоры Phenom оснащены двумя отдельными контроллерами памяти DCT , каждый из которых оперирует 64 бит шиной. Два данных контроллера могут работать единовременно, когда модули памяти установлены в слоты различных каналов памяти. Это называется “unganged mode”.

Вы можете переключить режим работы системы в “ganged mode, 128bit” , когда используются 2 или 4 одинаковых модуля памяти. Для этого войдите в меню BIOS, раскройте меню расширенных настроек, нажатием сочетания клавиш CTRL+ F1, затем проследуйте по пунктам “MB Intelligent Tweaker M.I.T. DRAM Configuration” для установки параметра “DCTs Mode” в режим “Ganged”.

Может быть Вы спросите какие преимущества даёт этот режим? Отвечу: теоретически пропускная способность памяти (а это быстродействие компьютера) увеличивается вдвое, но станет ли Ваш комп вдвое резвей? Исследования и эксперименты, проведенные вскоре после первого появления этого режима (на чипсетах от nVidia для процессоров Athlon) были проведени тесты и эксперименты, которые показали 10-15% рост производительности системы. Нельзя сказать что это ВСЕГО 10-15%, порой процессор, увеличивающий производительность системы на тот же порядок стоит В РАЗЫ больше, чем обыкновенный (который по приемлемой цене) так что организовать GANGED MODE – стоит!

P.S. спроста недодумаешься в меню “интеллектуального разгона зайти”
P.P.S. так что в отличие от сокета АМ2, 939 и 462 (Socket A) на АМ3 и АМ3+ (и FM2, я думаю) недостаточно правильно (парами и по цветам) расположить планки памяти!

Written by Gionatan Danti on 17 June 2010 . Posted in Hardware analysis

User Rating: / 98

What AMD says about the ganged vs unganged question

AMD has some excellent documentations that can be download for free. Let’s examine some extract of the “BIOS and Kernel Developer’s Guide (BKDG) For AMD Family 10h Processors ”. On section 2.8 we can find some considerations on ganged vs unganged mode. If you are interested in checking the doc, I suggest you to especially read these sections:

In short, the documentation indicates that:

In ganged mode, we have a 128 bit wide logical DIMM that map the first 64 bit on physical DDR channel A and the last 64 bit on DDR channel B. So we can state that a single 128 bit operation is effectively split between two memory channel; on the other hand, the DCTs can not operate independently. In other words, the physical address space is interleaved between the two DIMM in 64 bit steps

In unganged mode, each DCT can act independently and has its own 64 bit wide address space. In this mode the processor can be programmed to interleave the single, physical address space on the two normalized address space associated with the two memory channel; however, the finer possible interleaving unit is the cache line size (64 bytes)

AMD officially suggest to enable unganged mode to benefit from increased parallelism

Some CPU models (for example, the 8 and 12 core Magny Cours G34 processors), can only use the unganged mode.

I draw a graph that, hopefully, should help explaining the differences between ganged and unganged modes:

As you can see, in the ganged mode the physical address space is spread between the two memory channel with a 64 bit granularity: this means that two consecutive 64 bit access will read from two different memory channels and, more importantly, that a 128 bit access can utilize both channel.

On the other hand, in the unganged mode a (relatively) large portion of physical address space is bound to a single memory channel. In the graph above this portion is 64 bytes length, but the K10 processors can be programmed to use an even more coarse grained interleaving scheme. However, the normal interleaving unit in unganged mode is 64 byte length (as shown in the graph), as longer unit can cause a tangible performance loss.

From what we see, one should think that neither approach is the ideal one: the usual registers and operands size is 64 bit (8 byte), so it appear that both the ganged and unganged methods will read this 64 bit entity over only a single memory channel, effectively wasting bandwidth. A byte interleaved (or bit interleaved) mode should give as a great performance boost, right? Simply stated: no. The key point to understand here is that processors do not move in and out from memory data chunks of arbitrary length, but use a fixed-sized scheme: they move data from and to main memory only on a cache line base. On Phenom processor the cache line size is 64 byte long, so these processors move data from and to main memory only in 64 bytes chunks. This means that if we try to read a byte at address 0x0, the entire cache line (64 byte) will be fetched by the processor! While this can seems counterproductive, it has its reasons, especially related to space locality and cache design. It is beyond the scope of this article to explain why processors behave in this manner, but in short we can state that this design permit good performance boost (because exploit code and data space locality) and the creation of very dense caches.

As memory operations happens in 64 bytes chunks, it appear that ganged mode will always win: it can spread that 64 bytes operations on the two memory channel, while the unganged mode will only use a single memory channel. The reality, however, is the the unganged mode rarely suffer from this problem, because normally there are many outstanding memory request to be completed, so there are many outstanding cache line to be fetched from or stored to main memory. While the ganged mode will be faster in operating on a single cache line, the unganged mode can theoretically operate on two cache line at a given moment (with some restrictions). This parallelism can be realized because the memory controller incorporate an 8 entry depth memory controller queue (the “MCQ” box in the drawing above), for a total of 8 outstanding cache line requests.

However, simply stating that the unganged mode has the potential to be often on par with the ganged mode is not enough: in this case, we can simply use the ganged mode and forget about the unganged mode. The point is that the unganged mode has potential to be faster that ganged mode. Why? Because we must realize that main memory access don’t happen immediately, as the DRAM chip require many ns to be accessed: after this initial access time the data can be transferred quite quickly, but the initial access steps can be very slow (from a processor standpoint). Starting two memory operations at the same time, the memory controller has the possibility to hide at least partially the latency involved in the setup steps of the second operations. Obviously this is not always true, but it is a possibility indeed and, so, this can be an advantage of unganged vs ganged method. Moreover, using the unganged mode the memory controller can theoretically both write to and read from memory at the same time: this should help memory copy routines and multitasking operating system, where many processes can both read from and write to memory at the same time.

Summarizing the whole point, we can state that:

the ganged mode has the potential to be faster than unganged mode because it use a more fine grained interleave mode

the unganged mode has the potential to be faster than ganged mode because it can start two memory operations at the sime time, effectively hiding at least part of the latency involved in the second operation. Also, this mode permit to both read from and write to memory at the same time, with the intrinsic advantages that this possibility implies.

So, we don’t have a “magic setting” that will always give us the better possible performance. We should run some benchmarks to understand wich applications and scenarios benefits from one method rather than the other.

Как известно, настольные процессоры Intel 11-го поколения обзавелись целым рядом нововведений, одно из которых коснулось и подсистемы памяти: так, модули ОЗУ теперь могут работать как в режиме Gear 1, подразумевающем соблюдение пропорции 1:1 для параметров CPU IMC и DRAM Clock, так и в режиме Gear 2, приводящем к применению соотношения 1/2:1 для указанных выше значений, что в теории может негативным образом сказаться на общем уровне производительности.

Впрочем, на практике дело обстоит несколько иначе: в своём недавнем тесте настольного процессора Intel Core i5-11400F специалисты ресурса TechPowerUp столкнулись с достаточно интересным поведением при активации разных режимов работы подсистемы памяти, достойным отдельного материала. Согласно результатам тестирования в ряде бенчмарков, в задачах рендеринга и кодирования медиафайлов в режиме Gear 2 наблюдался прирост производительности на 1-3 % по сравнению с Gear 1 (DDR4-3733), а в MySQL достиг максимального значения в 6.5 %.

В ходе дальнейшего расследования специалисты пришли к следующему выводу: в режиме Gear 1 процессор потребляет в среднем на 5-10 Вт больше по сравнению с Gear 2, что в условиях лимита по энергопотреблению в конечном итоге приводит к снижению производительности. При снятии ограничений мощности всё становится на свои места, и результаты в режиме Gear 1 при сопоставлении с Gear 2 снова оказываются лучше, как и должно быть.

В данной статье я собрал информацию о некоторых настройках BIOS материнской платы M3A32-MVP Deluxe. А точнее о тех из них, которые интересны при разгоне. Все, что сказано ниже не является абсолютной истиной и было собрано из различных источников, в большинстве своем англоязычных. Поэтому выношу этот материал на обсуждение. Тем более, что сам хотел бы узнать побольше о некоторых опциях. Личное мнение от использования тех или иных настроек я записывал под знаком *. Вот подходящая ветка на оверах, где можно и нужно обсудить данный материал. Осталось добавить, что на данной МП я разгонял Athlon 64 x2 4400+ Brisbane, поэтому, возможно список оп.

Jumper Free Configuration

AI Overclocking [Manual]
Установка значения Manual открывает Вашему взору следующие опции:

FSB Frequency [200-600 MHz]
Значение, которое наряду с множителем задает устанавливает частоту процессора. Например, 200 FSB x 11 = 2.2 Ггц.

PCIE Frequency [100-150 MHz]
Рекомендуется устанавливать не более 115-118 МГц, при этом можно добиться небольшого увеличения производительности в 3D-приложениях. Установка значений превышающие данные может вызвать проблемы в работе южного и северного мостов и, как следствие, проблемы в работе периферии и жестких дисков, но кого этим испугаешь ;)

Processor Frequency Multiplier [x4 — x11,5]
В режиме AI Overclocking Auto BIOS устанавливает заданную по умолчанию частоту CPU. В режиме Manual можно задать множитель из приведенного интервала.

CPU-NB HT Link Speed [200-1000MHz]
Частота HT для Phenom-ов от 200 до 2200МНz

CPU VDDA Voltage [2,5-2,8v]
* Толкового объяснения в русскоязычном интернете не нашел. По поиску нашел на одном из англоязычных форумов объяснение, что этот параметр устанавливает схему регулирования центрального процессора и манипуляциями с ним можно добиться стабильности при разгоне. Проверил, действительно, на комп на пределе разгона (проц Athlon 64 x2 Brisbane 4400+ @ 3300Гц 1,6v) при значении данной опции 2,5v грузился через раз, а при установке ее в 2,8v он у меня прошел SuperPi32M, правда, ОССТ не выдержал. При этом, помогло именно значение 2,8v, с 2,6 и 2,7 была та же картина, что и с 2,5.

NorthBridge Voltage [Manual]
Данная установка открывает следующие опции:

Hyper Transport Voltage [1,2-1,5v]
Выставляет напряжение на шине Hyper Transport.
* При разгоне ставил 1,3v.

Southbridge Voltage [1,2-1,4v]
* При разгоне выставил 1,3v.

Auto Xpress [Auto, Enabled, Disabled]
Про эту опцию можно сказать следующее:
Уже в случае с AMD 790X, впрочем, перечень характеристик пополняется за счет Auto Xpress (автоматическое увеличение рабочей частоты шины PCI Express при установке видеокарт AMD на платы с чипсетом AMD; использование специальных режимов работы с DDR2 памятью), GPU-Plex, Quad PCIE Blocks и CrossFireX. Последняя технология особо интересна тем, что отныне в режиме CrossFire могут быть объединены три или даже четыре графических адаптера AMD. Перечень CrossFireX-совместимых видеокарт на данный момент состоит из решений AMD поколения Radeon HD 3800. При производстве новых чипсетов компании был использован 65 нм техпроцесс. Энергопотребление данных наборов системной логики составляет 10-12 Вт (TDP).
Будучи объединенными вместе, все вышеперечисленные компоненты (процессоры Phenom, чипсеты AMD 7, адаптеры Radeon HD 3800 и технология CrossFireX) составляют новую платформу для "энтузиастов" под названием AMD "Spider".

CPU Tweak [Enabled, Disabled]
В BIOS от Asus так называется TLB-патч для процессоров Phenom.

Memory Configuration

Bank Interleaving [Auto, Disabled]
Включение этого режима позволяет работать с банками по очереди, то есть получать данные из одного в то время, когда другие заняты. Причем выбор значения 2-Way позволяет чередовать пару банков, а 4-Way – четыре банка (они есть у большинства микросхем DIMM-модулей), а это, конечно, выгоднее.
* В тесте памяти Everest с данной опцией Disabled результат снижается на ~2,5% по сравнению с Auto.

Channel Interleaving
* У меня эта опция была в BIOS версии 0801, с которой она и продавалась. После прошивки до последней версии 1102 я ее не обнаружил.

DCT Unganged Mode [Enabled, Disabled]
При установке Disabled чипсет должен работать с памятью частотой до 800МГц. Enabled позволяет включить делитель для памяти 1066МГц. Это можно сделать при установке процессоров Phenom.

Read Delay [0,5-4 memory CLKs]
Это поле определяет задержку от включения DQS ресивера до начала чтения первых данных с клавиатуры, получаемых FIFO.
000b = 0.5 Memory Clocks
001b = 1 Memory Clock
010b = 1.5 Memory Clocks
011b = 2 Memory Clocks
100b = 2.5 Memory Clocks
101b = 3 Memory Clock
110b = 3.5 Memory Clocks
111b = 4 Memory Clocks
Прямая корреляция w/memory's время ожидания. Чем ниже установка, тем ниже время ожидания.
* Со значением 0,5 комп не стартовал, сброс CMOS. С 1 стартует, но пишет что-то вроде ошибки при проверке DRAM. Нормальный запуск при 1,5. В бенчмарке памяти и кэша Everest прирост по сравнению с настройками по умолчанию: по Read — 1,9%; по Copy — 0,5%; по Latency — уменьшение времени доступа на 2,8 ns. По Write изменений нет.

Memory Clock Tristate C3/ALTVID [Enabled, Disabled]
Позволяет частоте памяти DDR быть в трех состояниях (tristated), когда включен дополнительный режим VID. Этот бит не имеет никакого эффекта если установлен бит DisNbClkRamp (Function 3, Offset 88h).

Power Down Enable [Enabled, Disabled]
Если данный режим активирован, то после ввода включения режима Sleep Mode, главному внутреннему тактовому генератору запрещено передавать сигнал на чип устройства. При этом большая часть связанной схемы может отключена от питания для сохранения энергии.
DCQ Bypass Maximu [0x-14x]
Управляющий контроллер обычно позволяет производить за проход другие операции по порядку, чтобы оптимизировать пропускную способность DRAM. Это поле определяет максимальное количество раз, которое самый старый запрос доступа к памяти в очереди контроллера DRAM может быть отложен перед выполнением, и самый старый запрос доступа к памяти будет выполнен вместо другого.
0000b = Никогда не откладывается; самый старый запрос никогда не откладывается.
0001b = самый старый запрос может быть отложен не больше, чем 1 раз.

1111b = самый старый запрос может быть отложен не больше, чем 15 раз.
* оптимальное значение для быстродействия 4. При этом в тесте памяти Everest наибольшая скорость копирования. На чтение, запись и латентность это значение почти не влияет.

DRAM Timing Configuration

Memory Clock Mode [Auto, Limit, Manual]
Установка в Manual открывает следующую опцию:

Memory Clock Value [400, 533, 667, 800]
Позволяет установить делитель для памяти.

2T Mode (Slow Access Mode) [Auto, Enabled, Disabled]
Медленный доступ к памяти. Этот бит управляет использованием режима таймингов 2Т. 2T режим может быть необходим, чтобы выполнить электрические требования некоторых скоростных DIMM и загрузочных конфигураций.
0 (2Т отключен) - DRAM адрес и контрольные сигналы передаются за один цикла MEMCLK.
1 (2Т включен) - один дополнительный MEMCLK обеспечивается для всех адресов DRAM и контрольных сигналов кроме CS, CKE и ODT; то есть, эти сигналы передаются за два цикла MEMCLK, а не за один.
* 1Т — преимущество в скорости работы памяти (чтение, копирование, уменьшение latency). Включить 1Т можно установкой данной опции в Disabled или через Memset из виндовс.

DRAM Timing Mode [Auto, DCT0]
При установке DCT0 позволяет вручную задавать тайминги. Некоторые пункты:
TCWL [5 CLK] опция добавлена с версии BIOS 1002 (время ожидания записи - чем ниже значение, тем быстрее запись).
TRAS [18 CLK] для этой установки начиная с версии BIOS 1002 удалена следующая зависимость: Если tRTP установлен в Auto, тогда значение 2 и зависит от того, каково значение. Любая другая установка tRTP, то TRAS - 18 независимо от того, каково значение.
TRC [26 CLK] с версии BIOS 1002 отменена эта установка, если tRTP не находится в Auto. Если tRTP не находится на Auto, то TRC - 26.
tWTR [3 CLK] с BIOS версии 1002 эта установка отменена, если tRTP не находится в Auto; иначе окончательное значение будет уменьшено на 1.
tRTP [2-4 CLK] В в BIOS версии 0801 при установке чего-нибудь все равно Auto; для TRC и TRAS отменены в версии 0902 значения 2-4 CLK и функционирование TRAS, как установлена.
tRWTTO [4 CLK] Для моей памяти это Auto или то же самое, что и tWR или не будет загружаться.
tWRRD [0 CLK] эти последние три параметра нужны для таймингов от модуля к модулю (Для бенчмарков рекомендуется устанавливать их соответственно на 0,1 и 2)

PLL1 Spread Spectrum [Enabled, Disabled]
PLL2 Spread Spectrum [Enabled, Disabled]
Опция Spread Spectrum позволяет сгладить пики и уменьшить интерференцию, а также уменьшить взаимное электромагнитное влияние различных компонентов системной платы друг на друга за счет изменения их частоты в некоторых пределах. Рекомендуется отключить для стабильности системы.

PCI Express Configuration

GFX Dual Slot Configuration [Enabled]
GFX2 Dual Slot Configuration [Disabled]
Peer-to-Peer among GFX/GFX2 [Disabled]
Данные опции определяют сколько и в каком режиме будет работать видеоадаптеров, размещенных в слотах. С такими значениями — будут задействованы платы, подсоединенные к верхним синему и черному слотам в равном состоянии для получения запросов и команд.

GPP Slots Power Limit, W [25]
Ограничение мощности слотов GPP

Link ASPM [L0s & L1]
ASPM обозначает Active State Power Mangement. Кроме соответствия традиционным требованиям энергосбережения, стандарт PCI Express обладает и эксклюзивными механизмами управления питания — это ASPM, Active State Power Management. ASPM обладает завидной автономностью и способен переводить устройство в оптимальный режим работы без инструкций свыше (со стороны ПО). Это не означает, что устройство, давно не подававшее признаков активности, будет полностью отключено, но переведено в режим пониженного потребления L0s - наверняка. Стандарт PCI Express считает устройство неактивным, если за время, равное 7 мкс, с ним не было никакого обмена данными. Как только возникает потребность в обмене, устройство возвращается в рабочее состояние. У различных устройств может быть абсолютно разное время «засыпания» и «пробуждения», поэтому эти параметры сообщаются Active State Power Management на этапе конфигурирования.

Link Width [Auto, x1Mode, x2, x4, x8, x16]
режим работы слота.

Slot Power Limit, W [175]
максимальная потребляемая мощность, которая может быть подана через слот (0-250).

NB-SB Port Features

NB-SB Link ASPM [Disabled, L1]
NP NB-SB VC1 Traffic Support [Disabled, Enabled]
виртуальный канал 1) помогает с асинхронным режимом управлять потоком данных и голоса по IP.

Hyper Transport Configuration

Isochronous Flow-Control Mode [Disabled, Enabled]
Часть спецификации HTT со времен AGP 8X.В случае если разработчик решает обеспечивать поддержку управления изохронного потока данных, в дополнение к стандартным трем виртуальным каналам, каждый интерфейс ресивера, который поддерживает изохронный поток, получит еще шесть ресиверов управления потоком, буферы и счетчики, и дополнительно установленный трансмиттер управления потоком счетчиков. Попутно ресивер определяет, какой буфер управления потоком данных (изохронный или стандартный) пакет должен использовать, это определяется посредством бита в пакете запроса (Isoc бит). Если Isoc бит задан в запросе, то он будет также определен в ответе, когда он возвратится - снова идентификация буфера, установленного для использования.
Принимающие устройства, которые видят пакеты запроса с установленным Isoc бит, но которые не находятся в изохронном режиме управления потока, не используют выделенные изохронные буферы управления потоком данных для их обработки. В этом случае, используются стандартные шесть буферов управления потоком данных и NOP буфер возвращает модифицированные пакеты на передатчик, все применяются к стандартным счетчикам потока передатчика. Такие устройства сохраняют Isoc бит и в пакете запроса и в его ответе, поскольку они отправляют его следующему устройству; По пути, если есть устройство, которое действительно поддерживает изохронный трафик, оно может использовано.
* Сказал много, а толку нет Проще говоря, лучше эту опцию держать Enabled.

HT Link Tristate [Disabled, CAD/CTL, CAD/CTL/CLK]
Включите вариант с тремя состояниями, чтобы уменьшить потребляемую мощность. По умолчанию нет линий в трех состояниях. Также CAD/CTL или CAD/CTL/CLK линии могут быть в трех состояниях.

UnitID Clumping [Disabled, UnitID 2/3, UnitID B/C, UnitID 2/3&B/C]
Включите для поддержки UnitID clumping, чтобы увеличить число отдельных запросов, поддерживаемых одиночным устройством. Это возможно включит для PCI-Express GFX линии в некоторых конфигурациях. Clumping можно включить, только когда используется более низкий мост номера в пределах каждого ядра PCI-Express GFX.
* Точных указаний нет. Вроде как работает вместе с Isochronous Flow-Control Mode и нужно ставить значение UnitID 2/3&B/C.

2X LCLK Mode
Ничего (опция будет удалена в следующей версии).

В данном материале мы продолжим серию исследований различных особенностей функционирования систем на базе процессоров серии AMD Phenom, посвящённую изучению влияния опций и компонентов данных систем на их быстродействие в реальном ПО. Сегодня «героем дня» станет опция BIOS системных плат под Socket AM2+, управляющая режимом работы встроенного контроллера памяти AMD Phenom, и переключающая его в один из режимов: «Ganged» («спаренный») и «Unganged».

Официальное мнение состоит в том, что классический «спаренный» (ganged) режим обеспечивает максимальную производительность доступа к памяти при работе однопоточных приложений, в то время как unganged режим, по идее, должен обеспечивать более высокую скорость для многопоточных задач. С результатами синтетических тестов в обоих режимах можно ознакомиться, к примеру, вот в этом материале, однако сегодня нас будет интересовать не синтетика, а исключительно реальное, «рабочее» ПО.

Сразу оговоримся, что при всех прочих тестированиях AMD Phenom, нами использовался Ganged-режим — как рекомендуемый по умолчанию всеми BIOS извесных нам системных плат (команда Load BIOS (Optimized) Defaults приводит к установке именно этого режима). Собственно, в том числе желанием проверить «всё ли мы правильно делаем», обусловлено, в том числе, проведение данного тестирования.

Используемый тестовый стенд полностью аналогичен по составу тому, на котором мы уже тестировали Phenom X4 9850, за тем исключением, что в данном случае использовалась обычная DDR2-800 с таймингами 4-4-4-10-22-2T. Впрочем, учитывая то, что Phenom X4 9850 оказался вообще не очень чувствительным к скорости памяти, мы не считаем, что это могло иметь какое-то существенное значение (тем более что Ganged-режим также был перетестирован с DDR2-800). Тестовая методика — стандартная, последней версии.

Профессиональная работа с фотографиями

Здесь наоборот режим Ganged либо играет вничью, либо проигрывает, но значения проигрыша такие же несущественные, как и во всех предыдущих тестах.

Кодирование медиаданных

Ну а в данном случае её просто нет, безо всяких «можно считать».

Игры однозначно голосуют в пользу Unganged-режима, причём три из семи — с достаточно весомыми значениями. Call of Duty — «чемпион статьи» — в этом игровом тесте разница между Ganged и Unganged режимами составила рекордные 6,5% (в пользу Unganged).

Intel Core 2 Extreme QX9770 / Intel X48

На этой платформе мы использовали двухканальную память типа DDR2-800, поскольку, как было отмечено выше, теоретическая ПС этого типа памяти идентична теоретической ПС 400-МГц системной шины. Вследствие этого достигается синхронный режим ее работы (соотношение частот FSB:DRAM = 1:1), оптимальный с точки зрения производительности подсистемы памяти.

Измерения проводились с помощью вспомогательного инструмента RightMark Multi-Threaded Memory Test в нескольких режимах доступа к памяти: однопоточном, двухпоточном со стороны двух ядер общего физического ядра и двух ядер разных физических ядер процессора (напомним, что четырехъядерные процессоры Intel Core 2 представляют собой как бы два двухъядерных процессора, «прикрепленных» к общей системной шине), а также в четырехпоточном со стороны всех четырех ядер процессора. Во всех случаях, размер тестируемого блока памяти составлял 64 МБ (поделенных поровну на количество потоков, например, 32+32 МБ при двухпоточном доступе) и измерялись следующие показатели: пропускная способность памяти на «обычное» чтение данных (Read) и чтение с программной предвыборкой (Read PF), на «обычную» запись данных (Write) и запись в режиме прямого сохранения, минуя все уровни кэш-памяти процессора (Write NT).

Объединенный результат тестирования представлен на диаграмме. В условиях однопоточного доступа реальная ПСП достигает величин порядка 6.7 ГБ/с (обычное чтение) — 7.3 ГБ/с (чтение с программной предвыборкой). Нельзя сказать, что они сильно отличаются от значений, типичных для предыдущих поколений платформ Intel Core 2 (в нашем прошлом исследовании они составляли 6.0 — 6.8 ГБ/с). ПСП при обычной записи данных достигает уровня 2.8 ГБ/с, типичного для платформ Intel, однако наиболее интересный результат показывает измерение ПСП при записи данных методом прямого сохранения, в котором достигается величина порядка 8.3 ГБ/с (65% от теоретической ПСП). Если вспомнить, что величина ПСП при записи данных методом прямого сохранения данных на платформах Intel (начиная с процессоров семейства Pentium 4 и включая процессоры семейства Core 2) ограничена 2/3 теоретической ПС системной шины, данный результат можно считать прямым подтверждением высокой эффективности новой 400-МГц системной шины платформы Intel Core 2 Extreme QX9770 / Intel X48.

Рассмотрим результаты тестов двухпоточного обращения к памяти, представленные двумя вариантами — доступом со стороны двух ядер одного физического ядра («2 потока, общее ядро») и двух ядер разных физических ядер процессора («2 потока, разные ядра»). Легко заметить, что чтение данных двумя ядрами одного и того же физического ядра процессора приводит к достижению меньших величин ПСП на чтение по сравнению с чтением данных двумя ядрами разных физических ядер процессора. Причина этого явления достаточно очевидна: в первом случае два потока теста в равной степени разделяют между собой общий 6-МБ L2-кэш одного из физических ядер процессора, во втором случае каждому из потоков становится доступно по 6 МБ L2-кэша соответствующего физического ядра (т.е. в сумме двум потокам теста оказываются доступны все 12 МБ L2-кэша процессора). Большая кэшируемость данных приводит к большим величинам ПСП, хотя и не связанных напрямую с характеристиками самой подсистемы памяти. Что интересно, обратный эффект наблюдается при записи данных — двухпоточный доступ со стороны разных физических ядер процессора приводит к величине ПСП (2.62 ГБ/с), даже меньшей по сравнению с ПСП на «однопоточную» запись данных (2.78 ГБ/с), и значительно меньшей по сравнению с ПСП, достигаемой при «двухпоточной» записи данных со стороны двух ядер одного и того же физического ядра процессора (3.46 ГБ/с). Возможно, это связано с синхронизацией содержимого L2-кэшей процессора, которая осуществляется с заметно большей эффективностью при утилизации лишь одного обобщенного L2-кэша одного из физических ядер процессора.

Что касается результатов четырехпоточных тестов при одновременном доступе к памяти со стороны всех четырех ядер, разумно ожидать, что соответствующие величины ПСП окажутся «где-то посередине» между величинами ПСП двухпоточного доступа со стороны двух ядер общего физического ядра и разных физических ядер процессора. Как показывают результаты наших тестов, на практике примерно так оно и оказывается. Немного настораживают, однако, максимально достижимые реальные значения ПСП, которые при двух- и четырехпоточном доступе, во-первых, не сильно выигрывают по сравнению с ПСП при однопоточном доступе (максимальный прирост составляет не более 25%), а во-вторых, оказываются по-прежнему далеки от теоретической ПС системной шины и памяти. Лучший результат реальной ПСП, показанный при двухпоточном чтении данных с программной предвыборкой разными физическими ядрами (9.14 ГБ/с) составляет лишь 71% от теоретического значения. Конечно, этот результат превысил рекорд, ранее достигнутый на платформах Intel Core 2 с 266-МГц системной шиной (8.33 ГБ/с), однако он не достигает даже теоретической ПС, присущей 333-МГц системной шине и/или двухканальной памяти типа DDR2-667 (10.67 ГБ/с). Получается, что подсистема памяти платформы Intel Core 2 все же несколько выигрывает от использования «широкой» 400-МГц системной шины, но в весьма незначительной степени.

Конфигурация тестовых стендов

Стенд №1

Стенд №2

Процессор: AMD Phenom X4 9700 (инженерный образец), 2.4 ГГц (200 МГц x12)
Чипсет: AMD 790FX
Материнская плата: MSI K9A2 Platinum, BIOS версии V1.1B3 от 16.11.2007
Память: 2x1 ГБ Corsair XMS2-6400, DDR2-800, тайминги 5-5-5-15-2T
Память: 2x1 ГБ Corsair DOMINATOR XMS2-9136C5D в режиме DDR2-1066, тайминги 5-5-5-15-2T

CAD/CAM пакеты

Здесь наблюдается стабильная тенденция — режим Unganged не выиграл ни одного подтеста в группе. Но проигрыши опять мизерные: самый большой равняется 1,1%. Снова не о чем говорить.

AMD Phenom X4 2.4 ГГц

Напомним, что в новых процессорах AMD претерпели изменения как архитектура ядра (прежде всего, нас сейчас интересует его «узкое место» — шина L1-L2 кэша данных), так и интегрированный контроллер памяти. Начнем с краткого рассмотрения шины L1-L2 кэша данных ядра процессора (ее более полное изучение мы проведем при более детальном знакомстве с архитектурой ядра Phenom). Результат измерения ПС этой шины приведен ниже.

В рамках настоящего исследования еще более примечательным оказывается показатель ПС шины L1-L2 кэша данных процессоров Phenom, выраженный в ГБ/с (т.е. с привязкой к частоте ядра процессора). В нашем случае (частота ядра 2.4 ГГц) он составляет весьма внушительную величину порядка 19.25 ГБ/с, что заметно выше даже по сравнению с теоретической ПС двухканальной памяти DDR2-1066 (примерно 17.6 ГБ/с). Таким образом, мы можем сказать, что шина L1-L2 кэша данных в процессорах AMD Phenom уже перестает быть «узким местом» системы, предоставляя достаточный запас по скорости передачи данных.

Одноканальный режим на сегодняшний день не представляет большого практического интереса, как и одноканальный режим функционирования памяти DDR2 вообще. Так называемый спаренный (ganged) режим представляет собой привычный двухканальный режим функционирования памяти — при этом оба 64-битных контроллера «заселены» одинаковыми модулями памяти (по своему типу, скоростным характеристикам, объему и физической организации), а эффективная ширина шины памяти составляет 128 бит (по 64 бит на каждый контроллер). Более интересным является новый, распаренный режим функционирования интегрированного контроллера памяти, занимающий промежуточное положение между истинно двухканальным (спаренным) и одноканальным режимами. При этом каждый из 64-битных контроллеров могут быть «заселены» памятью одного типа (DDR2 либо DDR3 для будущих моделей процессоров, но не DDR2 и DDR3 одновременно) и скоростной категории (например, DDR2-800), но разного объема и/или физической организации, и функционируют независимо. Разрядность шины памяти при этом составляет 64 бита — на первый взгляд, это мало чем отличается от одноканального режима работы. Это действительно так при обращении одного ядра процессора к одному участку данных в памяти, однако при снятии этих ограничений (т.е. при осуществлении одноядерного либо многоядерного доступа к данным, расположенным в различных областях памяти) возможно одновременное обращение к обоим 64-битным контроллерам памяти, что мы увидим ниже при рассмотрении результатов многопоточных тестов.

Еще одним важным новшеством интегрированного контроллера памяти процессоров семейства AMD Phenom X4 является наличие L3-кэша данных, который относится именно к интегрированному контроллеру памяти и посему является общим для всех четырех независимых ядер процессора, обладающих собственными L1- и L2-кэшами (в нашем случае — объемом 64 и 512 КБ, соответственно).

Перейдем к результатам тестов подсистемы памяти. Поскольку интегрированный контроллер памяти AMD Phenom X4 поддерживает как DDR2-800, так и DDR2-1066, мы провели тесты с участием обоих типов памяти (DDR2-800 и DDR2-1066). Тесты проводились как в спаренном (ganged), так и в распаренном (unganged) режимах работы контроллера, при доступе в память одного ядра процессора (однопоточный тест) и всех четырех ядер (многопоточный тест). Как и в проводимых ранее тестах, размер тестируемого блока памяти составлял 64 МБ (16+16+16+16 МБ при четырехпоточном доступе) и измерялись показатели пропускной способности памяти при «обычном» чтении данных (Read) и чтении с программной предвыборкой (Read PF), а также при «обычной» записи данных (Write) и записи методом прямого сохранения (Write NT).

При однопоточном доступе к памяти типа DDR2-800 новый Phenom X4 в «спаренном» режиме работы контроллера показывает заметно лучший результат при «обычном» чтении данных по сравнению с равночастотным Athlon 64 X2 4800+, участвующем в нашем прошлом исследовании — 6.3 ГБ/с против 3.9 ГБ/с. Наиболее вероятно, так сказывается влияние новой, заметно более эффективной шины памяти L1-L2 кэша ядра процессора. Однако то же самое нельзя сказать о ПСП на чтение данных с программной предвыборкой — она оказывается весьма небольшой сама по себе (демонстрирует небольшой прирост по сравнению с ПСП на «обычное» чтение данных — 7.4 против 6.3 ГБ/с), и даже меньшей по сравнению с ПСП на чтение данных с программной предвыборкой на Athlon 64 X2 (7.6 ГБ/с). Заметно меньшей, по сравнению с Athlon 64 X2, оказывается и ПСП на запись данных методом прямого сохранения (5.0 против 6.9 ГБ/с). Таким образом, в условиях однопоточного доступа новый Phenom X4 в «спаренном» режиме работы контроллера показывает весьма неоднозначную картину. Что касается распаренного режима работы интегрированного контроллера памяти процессора, то наблюдаемое в этом случае величин ПСП на чтение является весьма закономерным, поскольку в данном случае (однопоточный доступ, один блок памяти) такой режим работы контроллера, фактически, аналогичен одноканальному режиму работы, теоретическая ПСП в котором составляет всего 6.4 ГБ/с. Несколько большая величина максимальной реальной ПСП на чтение (6.7 ГБ/с) обуславливается влиянием L3-кэша контроллера памяти процессора.

Заметим, что память типа DDR2-1066 в условиях наших тестов реально функционирует на частоте 480 МГц, т.е. в режиме «DDR2-960» (частота контроллера памяти 2400 МГц, делитель частоты = 5) с теоретической пропускной способностью 7.68 ГБ/с в одноканальном режиме и 15.36 ГБ/с в двухканальном. Первое, что бросается в глаза при рассмотрении результатов однопоточных тестов DDR2-1066 — это величины ПСП на запись данных методом прямого сохранения, которые оказываются практически равными величинам ПСП, достигаемым в этом тесте с памятью типа DDR2-800. Иными словами, они не зависят от частоты памяти и указывают на некое новое ограничение, по-видимому, присутствующее в самом ядре процессора (напомним, что на равночастотном Athlon 64 X2 4800+ достигаются большие значения этого показателя). В то же время, величины ПСП на чтение («спаренный» режим контроллера) закономерно возрастают: с 6.3 до 7.0 ГБ/с при «обычном» чтении и с 7.4 до 8.3 ГБ/с при чтении с программной предвыборкой. Однако следует заметить, что относительный прирост ПСП (примерно на 11% в обоих случаях) оказывается меньшим по сравнению с приростом в частоте памяти (с 400 до 480 МГц, т.е. на 20%). В распаренном режиме работы контроллера вновь наблюдаются величины ПСП, типичные для одноканального режима работы DDR2-1066 (несколько завышенные из-за влияния L3-кэша).

Архиваторы

Разницы, можно считать, нет.

Любительская работа с фотографиями

В целом, результат исследования можно считать ничейным — за некоторыми весьма редкими исключениями, не выявлено однозначного преимущества одного из режимов над другим. Не выявлено также и каких-либо чётко прослеживаемых по классам ПО закономерностей и тенденций (в том числе в классах многопоточных и однопоточных приложений, что могло бы хоть как-то согласовываться с официальным позиционированием ganged и unganged режимов). Финальный минус 0,1% у Ganged-режима по большому счёту ни о чём не свидетельствует т.к. глядя на подробные результаты понимаешь, что результат ещё одного какого-нибудь приложения может превратить этот проигрыш в ничью, а может даже и в победу.

Так что наш вывод будет кратким: с точки зрения производительности реального, «рабочего» десктопного ПО, в подавляющем большинстве случаев абсолютно всё равно, в каком режиме работает контроллер памяти на Phenom. Случаются, конечно, исключения, но они очень редкие, и их характер вряд ли можно спрогнозировать (по крайней мере, на основании данных нашего тестирования).

Что же касается звучавшего в начале статьи вопроса о том «всё ли мы правильно делаем» — то разница в 0,1 балл (или 0,1%), пусть даже и в лучшую сторону, вряд ли может служить поводом для перехода на использование unganged-режима для Phenom в основных тестированиях. Тем более учитывая то, что режим по умолчанию, устанавливаемый системными платами — ganged, а разницу даже в 10 раз большую (1%) мы и так почти никогда не принимаем во внимание, списывая на возможные последствия погрешности измерений или округлений.

Раскрытию скоростного потенциала двухканальной памяти типа DDR2-800 (и более высокоскоростных категорий) мы посвятили уже немало исследований. Интерес к этим исследованиям вызван скоростным потенциалом двухканальной памяти DDR2 как таковой, который по-прежнему остается нераскрытым ввиду наличия «узких мест» системы, представленных другими компонентами подсистемы памяти.

В случае платформ Intel основным препятствием к раскрытию скоростного потенциала памяти выступает системная шина (FSB), общая для всех процессорных ядер (и системных процессоров вообще, если рассматривать многопроцессорные системы) и всегда обладающая меньшей пропускной способностью (ПС) по сравнению с пропускной способностью двухканальной DDR2. В нашем предыдущем исследовании на эту тему участвовали чипсеты Intel 975X и 965G с частотой системной шины 266 МГц, обеспечивающей ПС порядка 8.53 ГБ/с. Надо сказать, в этом исследовании мы уже почти достигли реальные величины пропускной способности памяти (ПСП), приближающиеся к этой отметке. Однако сама по себе эта отметка весьма далека от теоретической ПС DDR2-800 (12.8 ГБ/с), что не позволяло нам говорить о раскрытии скоростного потенциала памяти.

Особый интерес представляют исследования многоядерных платформ AMD с интегрированным контроллером памяти DDR2 (начиная с платформы «AM2»). На этих платформах в принципе возможно полное раскрытие потенциала ПС подсистемы памяти вследствие отсутствия «узкого места» в виде системной шины, общей для всех ядер процессора, теоретическая ПС которой оказывается заведомо ниже теоретической ПС двухканальной DDR2. Тем не менее, наши первые исследования представителей платформы AMD «AM2» — процессоров Athlon 64 X2 и Athlon 64 FX с частотой ядра от 2.0 до 2.8 ГГц показали, что достижимые на практике величины ПСП на этой платформе оказываются значительно ниже своего теоретического предела и напрямую зависят от частоты процессорного ядра и контроллера памяти. Как выяснилось, причиной этого является сравнительно узкая (64-битная двунаправленная) шина L1-L2 кэша ядра процессора, эффективная ПС которой оказывается ниже, чем теоретическая ПСП двухканальной DDR2-800. В связи с этим, далее мы впервые предприняли попытку исследовать «многоядерный» доступ к памяти, в данном случае — со стороны двух потоков, одновременно исполняемых на обоих ядрах процессора. Применение такого варианта доступа в память должно было снять ограничение, связанное с узостью шины L1-L2 кэша ядра процессора, поскольку каждое ядро процессоров Athlon 64 X2 имеет собственные L1- и L2-кэши. Однако наблюдаемое нами увеличение ПСП при переходе от «одноядерного» доступа в память к «двухъядерному» нельзя было назвать значительным — так, в тестах чтения данных с программной предвыборкой прирост составил не более 15%, а абсолютный показатель ПСП не превысил 70% от теоретического значения. Очевидно, на этот раз «узким местом» системы выступил уже сам интегрированный контроллер памяти.

Таким образом, в наших предыдущих исследованиях мы показали, что раскрытию высокого скоростного потенциала двухканальной DDR2-800 (и, в особенности, ее более высокоскоростных вариантов) на платформах Intel препятствует сравнительно «узкая» системная шина, общая для всех ядер процессора, а на платформах AMD «AM2» — несколько устаревшая архитектура ядра процессоров AMD Athlon 64 X2 (не претерпевшая существенных изменений с выхода первых моделей Athlon 64), а также предел эффективности интегрированного контроллера памяти DDR2. В этом отношении, большие надежды можно возлагать на новое поколение платформ Intel и AMD. Первая из них представлена четырехъядерным процессором Intel Core 2 Extreme QX9770 с тактовой частотой 3.2 ГГц, основанном на новом 45-нм ядре Yorkfield и чипсетом Intel X48. Частота системной шины этого процессора и чипсета составляет 400 МГц, и ее ПС в точности соответствует ПСП двухканальной DDR2-800. Вторая из платформ основана на инженерном образце 2.4-ГГц процессора недавно анонсированной линейки четырехъядерных процессоров AMD Phenom X4. В этих процессорах изменения коснулись как архитектуры ядра (в частности и в особенности, его «узкого места» — шины L1-L2 кэша данных), так и интегрированного контроллера памяти.

Компиляция

Режим Ganged позволяет сэкономить 12 секунд на отрезке в полчаса.

Веб-сервер

Наконец-то мы видим более-менее существенные значения — аж до 5%! При этом, что характерно, они говорят отнюдь не в пользу Unganged-режима.

Пакеты трёхмерного моделирования

Легко заметить, что более-менее существенная разница между двумя режимами наблюдается только в интерактивной части теста SPEC для 3ds max, и в этом случае режим Ganged показывает более высокий результат. В целом же по группе мы имеем мизерные 0,4%, о которых даже говорить не стоит, чьё бы преимущество они не олицетворяли.

Научно-математические пакеты

MATLAB в одном из подтестов приблизился к «рекорду» 3ds max, но в целом картина такая же индифферентная, как и во всех предыдущих тестах.

Заключение

Обе из рассмотренных в настоящем исследовании новых платформ Intel и AMD оказались способны, в той или иной степени, приблизиться к раскрытию скоростного потенциала DDR2-800 и ее более высоких скоростных категорий. Использование 400-МГц системной шины на платформе Intel Core 2 Extreme QX9770 / Intel X48 позволило снять привычное ограничение на пропускную способность памяти, поскольку пропускная способность этой шины сравнялась с пропускной способностью двухканальной DDR2-800. Однако нельзя сказать, что это привело к кардинальному увеличению максимальной ПСП, реально достигаемой в тестах — она составила величину порядка 9.14 ГБ/с, т.е. всего 71% от теоретического максимума. Очевидно, что еще меньшее раскрытие скоростного потенциала памяти на этой платформе следует ожидать при использовании более высокоскоростных типов памяти DDR2 и, в особенности, DDR3, поскольку в этом случае 400-МГц системная шина окажется вдобавок ограничителем пропускной способности подсистемы памяти.

Читайте также: