Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Технологии оперативной памяти

Организация подсистемы памяти в ПК

Запоминающие устройства (ЗУ) подсистемы памяти ПК можно выстроить в следующую иерархию (табл. 9.1):

Таблица 9.1. Иерархия подсистемы памяти ПК
№	Тип ЗУ	1985 г.	2000 г.
Время выборки	Типичный объем	Цена / байт	Время выборки	Типичный объем	Цена / байт
	Сверхоперативные ЗУ (регистры)	0,2 5 нс	16/32 бит	$ 3 - 100	0,01 1 нс	32/64/128 бит	$ 0,1 10
	Быстродействующее буферное ЗУ (кэш)	20 100 нс	8Кб - 64Кб	~ $ 10	0,5 - 2 нс	32Кб 1Мб	$ 0,1 - 0,5
	Оперативное (основное) ЗУ	~ 0,5 мс	1Мб - 256Мб	$ 0,02 1	2 нс 20 нс	128Мб - 4Гб	$ 0,01 0,1
	Внешние ЗУ (массовая память)	10 - 100 мс	1Мб - 1Гб	$ 0,002 - 0,04	5 - 20 мс	1Гб - 0,5Тб	$ 0,001 - 0,01

Регистры процессора составляют его контекст и хранят данные, используемые исполняющимися в конкретный момент командами процессора. Обращение к регистрам процессора происходит, как правило, по их мнемоническим обозначениям в командах процессора.

Кэш используется для согласования скорости работы ЦП и основной памяти. В вычислительных системах используют многоуровневый кэш: кэш I уровня (L1), кэш II уровня (L2) и т.д. В настольных системах обычно используется двухуровневый кэш, в серверных - трехуровневый. Кэш хранит команды или данные, которые с большой вероятностью в ближайшее время поступят процессору на обработку. Работа кэш-памяти прозрачна для программного обеспечения, поэтому кэш-память обычно программно недоступна.

Оперативная память хранит, как правило, функционально-законченные программные модули (ядро операционной системы, исполняющиеся программы и их библиотеки, драйверы используемых устройств и т.п.) и их данные, непосредственно участвующие в работе программ, а также используется для сохранения результатов вычислений или иной обработки данных перед пересылкой их во внешнее ЗУ, на устройство вывода данных или коммуникационные интерфейсы.

Каждой ячейке оперативной памяти присвоен уникальный адрес. Организационные методы распределения памяти предоставляют программистам возможность эффективного использования всей компьютерной системы. К таким методам относят сплошную ("плоскую") модель памяти и сегментированную модель памяти. При использовании сплошной модели (flat model) памяти программа оперирует единым непрерывным адресным пространством линейным адресным пространством, в котором ячейки памяти нумеруются последовательно и непрерывно от 0 до 2n-1, где n - разрядность ЦП по адресу. При использовании сегментированной модели (segmented model) для программы память представляется группой независимых адресных блоков, называемых сегментами. Для адресации байта памяти программа должна использовать логический адрес, состоящий из селектора сегмента и смещения. Селектор сегмента выбирает определенный сегмент, а смещение указывает на конкретную ячейку в адресном пространстве выбранного сегмента.

Организационные методы распределения памяти позволяют организовать вычислительную систему, в которой рабочее адресное пространство программы превышает размер фактически имеющейся в системе оперативной памяти, при этом недостаток оперативной памяти заполняется за счет внешней более медленной или более дешевой памяти (винчестер, флэш-память и т.п.) Такую концепцию называют виртуальной памятью. При этом линейное адресное пространство может быть отображено на пространство физических адресов либо непосредственно (линейный адрес есть физический адрес), либо при помощи механизма страничной трансляции. Во втором случае линейное адресное пространство делится на страницы одинакового размера, которые составляют виртуальную память. Страничная трансляция обеспечивает отображение требуемых страниц виртуальной памяти в физическое адресное пространство.

Кроме реализации системы виртуальной памяти внешние ЗУ используются для долговременного хранения программ и данных в виде файлов.

Кэш-память

Кэш-память представляет собой быстродействующее ЗУ, размещенное на одном кристалле с ЦП или внешнее по отношению к ЦП. Кэш служит высокоскоростным буфером между ЦП и относительно медленной основной памятью. Идея кэш-памяти основана на прогнозировании наиболее вероятных обращений ЦП к оперативной памяти. В основу такого подхода положен принцип временной и пространственной локальности программы.

Если ЦП обратился к какому-либо объекту оперативной памяти, с высокой долей вероятности ЦП вскоре снова обратится к этому объекту. Примером этой ситуации может быть код или данные в циклах. Эта концепция описывается принципом временной локальности, в соответствии с которым часто используемые объекты оперативной памяти должны быть "ближе" к ЦП (в кэше).

Для согласования содержимого кэш-памяти и оперативной памяти используют три метода записи:

Сквозная запись (write through) - одновременно с кэш-памятью обновляется оперативная память.
Буферизованная сквозная запись (buffered write through) - информация задерживается в кэш-буфере перед записью в оперативную память и переписывается в оперативную память в те циклы, когда ЦП к ней не обращается.
Обратная запись (write back) - используется бит изменения в поле тега, и строка переписывается в оперативную память только в том случае, если бит изменения равен 1.

Как правило, все методы записи, кроме сквозной, позволяют для увеличения производительности откладывать и группировать операции записи в оперативную память.

В структуре кэш-памяти выделяют два типа блоков данных:

память отображения данных (собственно сами данные, дублированные из оперативной памяти);
память тегов (признаки, указывающие на расположение кэшированных данных в оперативной памяти).

Пространство памяти отображения данных в кэше разбивается на строки - блоки фиксированной длины (например, 32, 64 или 128 байт). Каждая строка кэша может содержать непрерывный выровненный блок байт из оперативной памяти. Какой именно блок оперативной памяти отображен на данную строку кэша, определяется тегом строки и алгоритмом отображения. По алгоритмам отображения оперативной памяти в кэш выделяют три типа кэш-памяти:

полностью ассоциативный кэш;
кэш прямого отображения;
множественный ассоциативный кэш.

Для полностью ассоциативного кэша характерно, что кэш-контроллер может поместить любой блок оперативной памяти в любую строку кэш-памяти (рис. 9.1). В этом случае физический адрес разбивается на две части: смещение в блоке (строке кэша) и номер блока. При помещении блока в кэш номер блока сохраняется в теге соответствующей строки. Когда ЦП обращается к кэшу за необходимым блоком, кэш-промах будет обнаружен только после сравнения тегов всех строк с номером блока.

Одно из основных достоинств данного способа отображения - хорошая утилизация оперативной памяти, т.к. нет ограничений на то, какой блок может быть отображен на ту или иную строку кэш-памяти. К недостаткам следует отнести сложную аппаратную реализацию этого способа, требующую большого количества схемотехники (в основном компараторов), что приводит к увеличению времени доступа к такому кэшу и увеличению его стоимости.

Рис. 9.1. Полностью ассоциативный кэш 8х8 для 10-битного адреса

Альтернативный способ отображения оперативной памяти в кэш - это кэш прямого отображения (или одновходовый ассоциативный кэш). В этом случае адрес памяти (номер блока) однозначно определяет строку кэша, в которую будет помещен данный блок. Физический адрес разбивается на три части: смещение в блоке (строке кэша), номер строки кэша и тег. Тот или иной блок будет всегда помещаться в строго определенную строку кэша, при необходимости заменяя собой хранящийся там другой блок. Когда ЦП обращается к кэшу за необходимым блоком, для определения удачного обращения или кэш-промаха достаточно проверить тег лишь одной строки.

Очевидными преимуществами данного алгоритма являются простота и дешевизна реализации. К недостаткам следует отнести низкую эффективность такого кэша из-за вероятных частых перезагрузок строк. Например, при обращении к каждой 64-й ячейке памяти в системе на рис. 9.2 кэш-контроллер будет вынужден постоянно перегружать одну и ту же строку кэш-памяти, совершенно не задействовав остальные.

Рис. 9.2. Кэш прямого отображения 8х8 для 10-битного адреса

Несмотря на очевидные недостатки, данная технология нашла успешное применение, например, в МП Motorola MC68020, для организации кэша инструкций первого уровня (рис. 9.3). В данном микропроцессоре реализован кэш прямого отображения из 64 строк по 4 байт. Тег строки, кроме 24 бит, задающих адрес кэшированного блока, содержит бит значимости, определяющий действительность строки (если бит значимости 0, данная строка считается недействительной и не вызовет кэш-попадания). Обращения к данным не кэшируются.

Рис. 9.3. Схема организации кэш-памяти в МП Motorola MC68020

Компромиссным вариантом между первыми двумя алгоритмами является множественный ассоциативный кэш или частично-ассоциативный кэш (рис. 9.4). При этом способе организации кэш-памяти строки объединяются в группы, в которые могут входить 2, 4, : строк. В соответствии с количеством строк в таких группах различают 2-входовый, 4-входовый и т.п. ассоциативный кэш. При обращении к памяти физический адрес разбивается на три части: смещение в блоке (строке кэша), номер группы (набора) и тег. Блок памяти, адрес которого соответствует определенной группе, может быть размещен в любой строке этой группы, и в теге строки размещается соответствующее значение. Очевидно, что в рамках выбранной группы соблюдается принцип ассоциативности. С другой стороны, тот или иной блок может попасть только в строго определенную группу, что перекликается с принципом организации кэша прямого отображения. Для того чтобы процессор смог идентифицировать кэш-промах, ему надо будет проверить теги лишь одной группы (2/4/8/: строк).

Рис. 9.4. Двухвходовый ассоциативный кэш 8х8 для 10-битного адреса

Данный алгоритм отображения сочетает достоинства как полностью ассоциативного кэша (хорошая утилизация памяти, высокая скорость), так и кэша прямого доступа (простота и дешевизна), лишь незначительно уступая по этим характеристикам исходным алгоритмам. Именно поэтому множественный ассоциативный кэш наиболее широко распространен (табл. 9.2).

Таблица 9.2. Характеристики подсистемы кэш-памяти у ЦП IA-32
	Intel486	Pentium	Pentium MMX	P6	Pentium 4
L1 кэш команд
Тип	4-вх. ассоц.	2-вх. ассоц.	4-вх. ассоц.	4-вх. ассоц.	8-вх. ассоц.
Размер строки, байт					-
Общий объем, Кбайт	8/16			8/16	12Кmops
L1 кэш данных
Тип	Общий с кэш инструкций	2-вх. ассоц.	4-вх. ассоц.	2/4-вх. ассоц.	4-вх. ассоц.
Размер строки, байт
Общий объем, Кбайт			8/16
L2 кэш
Тип	Внешний	внешний 4-вх. ассоц.	4-вх. ассоц.	8-вх. ассоц.
Размер строки, байт
Общий объем, Кбайт	256/512	128-2048	256/512

Примечания: В Intel-486 используется единый кэш команд и данных первого уровня. В Pentium Pro L1 кэш данных - 8 Кбайт 2-входовый ассоциативный, в остальных моделях P6 - 16 Кбайт 4-входовый ассоциативный. В Pentium 4 вместо L1 кэша команд используется L1 кэш микроопераций (кэш трассы).

Для организации кэш-памяти можно использовать принстонскую архитектуру (смешанный кэш для команд и данных, например, в Intel-486). Это очевидное (и неизбежное для фон-неймановских систем с внешней по отношению к ЦП кэш-памятью) решение не всегда бывает самым эффективным. Разделение кэш-памяти на кэш команд и кэш данных (кэш гарвардской архитектуры) позволяет повысить эффективность работы кэша по следующим соображениям:

Многие современные процессоры имеют конвейерную архитектуру, при которой блоки конвейера работают параллельно. Таким образом, выборка команды и доступ к данным команды осуществляется на разных этапах конвейера, а использование раздельной кэш-памяти позволяет выполнять эти операции параллельно.
Кэш команд может быть реализован только для чтения, следовательно, не требует реализации никаких алгоритмов обратной записи, что делает этот кэш проще, дешевле и быстрее.

Именно поэтому все последние модели IA-32, начиная с Pentium, для организации кэш-памяти первого уровня используют гарвардскую архитектуру.

Критерием эффективной работы кэша можно считать уменьшение среднего времени доступа к памяти по сравнению с системой без кэш-памяти. В таком случае среднее время доступа можно оценить следующим образом:

T_ср = (T_hit x R_hit) + (T_miss x (1 R_hit))

где T_hit - время доступа к кэш-памяти в случае попадания (включает время на идентификацию промаха или попадания), T_miss - время, необходимое на загрузку блока из основной памяти в строку кэша в случае кэш-промаха и последующую доставку запрошенных данных в процессор, R_hit - частота попаданий.

Очевидно, что чем ближе значение R_hit к 1, тем ближе значение T_ср к T_hit. Частота попаданий определяется в основном архитектурой кэш-памяти и ее объемом. Влияние наличия и отсутствия кэш-памяти и ее объема на рост производительности ЦП показано в табл. 9.3.

Таблица 9.3. Размер и эффективность кэш-памяти
Размер кэш-памяти	Частота попаданий, %	Рост производительности, %
Нет кэш-памяти, DRAM с 2 TW	-
16 Кб
32 Кб
64 Кб
128 Кб
Нет кэш-памяти, SRAM без TW	-

Технологии оперативной памяти

Современные технологии оперативной памяти (табл. 9.4) в основном используют два схемотехнических решения для повышения быстродействия DRAM:

включение в микросхемы динамической памяти некоторого количества статической памяти;
синхронная работа памяти и ЦП, т.е. использование внутренней конвейерной архитектуры и чередование адресов.

Таблица 9.4. Современные технологии оперативной памяти
CDRAM (Cache DRAM)	Добавление SRAM (8, 16 Кб)
EDRAM (Enhanced DRAM )
SDRAM (Synchronous DRAM)	3-х ступенчатый конвейер, 2 банка памяти с доступом типа "пинг-понг"
RDRAM (Rambus DRAM)	Функционирует по протоколу расщепления транзакций
EDO (Extended Data Out) DRAM	Добавлен набор регистров-защелок
BEDO DRAM (Burst EDO DRAM)
DDR400SDRAM	Double Data Rate - данные передаются по переднему и заднему фронтам импульса

FPM DRAM

Данная технология широко использовалась в системах на основе Intel-386 и Intel-486. С появлением МП Pentium была вытеснена EDO DRAM. Ее эффективность обусловлена конвейерной организацией МП. Контроллер памяти позволял выставлять на шину адрес только один раз при чтении пакета из 4 байт, при этом сигнал RAS# удерживается на низком уровне. Типичное время доступа при частоте системной шины 66 МГц - 60 нс (35 нс - внутри строки), что соответствует режиму 5-3-3-3 (5 циклов шины на чтение первого байта строки и по 3 цикла шины при чтении последующих байт).

EDO DRAM

По сравнению с FPM DRAM, в микросхемах памяти данной технологии для каждого банка добавлен регистр-защелка, в котором сохраняются выходные данные. Считывание из него производится внешними схемами вплоть до спада следующего импульса CAS#. Время доступа внутри страницы снижается до 25 нс, повышая производительность на 40%, что соответствует режиму чтения 5-2-2-2.

Установка регистра-защелки практически не увеличивает стоимость микросхемы, однако ее применение дает эффект, соизмеримый с установкой внешнего асинхронного кэша.

BEDO DRAM

Данная технология является развитием конвейерной архитектуры. В структуру памяти, кроме регистра-защелки, был внедрен счетчик адреса колонок для пакетного цикла, что позволяет выставлять адрес колонки только в его начале, а в последующих передачах лишь запрашивать очередные данные. В результате удлинения конвейера выходные данные как бы отстают на один сигнал CAS#, зато следующие появляются без тактов ожидания. При этом стартовый адрес следующего пакета пересылается вместе с последним CAS#-сигналом предыдущего. Если чипсет способен генерировать обращения к памяти в режиме смежных циклов, то можно достичь выигрыша в производительности, соответствующего режиму чтения 5-1-1-1.

SDRAM

Особенностью технологии SDRAM (Synchronous DRAM) является синхронная работа микросхем памяти и процессора. Тактовый генератор, задающий скорость работы микропроцессором, также управляет работой SDRAM. При этом уменьшаются временные задержки в процессе циклов ожидания, и ускоряется поиск данных. Эта синхронизация позволяет контроллеру памяти точно знать время готовности данных. Таким образом, скорость доступа увеличивается благодаря тому, что данные доступны во время каждого такта таймера. Технология SDRAM позволяет использовать множественные банки памяти, функционирующие одновременно, дополнительно к адресации целыми блоками. Микросхемы SDRAM имеют программируемые параметры и свои наборы команд. Длина пакетного цикла чтения-записи может программироваться (1, 2, 4, 8, 256 элементов). Цикл может быть прерван специальной командой без утери данных. Конвейерная организация позволяет инициировать следующий цикл чтения до окончания предыдущего.

SDRAM II (DDR)

Synchronous DRAM II, или DDR (Double Data Rate - удвоенная скорость передачи данных), является развитием SDRAM. Технология DDR основана на тех же принципах, что и SDRAM, однако включает некоторые усовершенствования, позволяющие увеличить быстродействие. DDR дает возможность читать данные по нарастающему и спадающему фронтам тактового сигнала, выполняя два доступа за время одного обращения стандартной SDRAM, что фактически увеличивает скорость доступа вдвое по сравнению с SDRAM, используя при этом ту же частоту. Кроме того, DDR использует DLL (Delay-Locked Loop - цикл с фиксированной задержкой) для выдачи сигнала DataStrobe, означающего доступность данных на выходных контактах. Используя один сигнал DataStrobe на каждые 16 выводов, контроллер может осуществлять доступ к данным более точно и синхронизировать входящие данные, которые поступают из разных модулей, находящихся в одном банке.

RDRAM

В основе технологии RDRAM лежит многофункциональный протокол обмена данными между микросхемами, который позволяет передачу данных по упрощенной шине, работающей на высокой частоте. RDRAM представляет собой интегрированную на системном уровне технологию. Ключевыми элементами RDRAM являются:

модули DRAM, базирующиеся на Rambus;
ячейки Rambus ASIC (RACs);
схема соединения чипов, называемая Rambus Channel.

Rambus, впервые использованный в графических рабочих станциях в 1995 году, использует уникальную технологию RSL (Rambus Signal Logic - сигнальная логика Rambus), позволяющую использовать частоты передачи данных до 600MHz на обычных системах и материнских платах. Rambus использует низковольтные сигналы и обеспечивает передачу данных по обоим фронтам сигнала системного таймера. RDRAM использует 8-битовый интерфейс, в то время как EDO RAM и SDRAM используют 4-, 8- и 16-битовый интерфейс. Технологии Rambus запатентованы, поэтому лицензионные отчисления делают производство микросхем памяти этой технологии достаточно дорогим.

Расширением технологии RDRAM является Direct Rambus. Схемотехника Direct Rambus использует те же уровни сигналов (RSL), но более широкую шину (16 бит), более высокие частоты (выше 800MHz) и улучшенный протокол (эффективность выше на 90%). Однобанковый модуль RDRAM обеспечивает скорость передачи 1,6 Гбайт/с, двухбанковый - 3,2 Гбайт/с. Direct Rambus использует два 8-битных канала для передачи 1,6 Гбайт и 3 канала для получения 2,4 Гбайт (рис. 9.5).

Рис. 9.5. Архитектура памяти Direct Rambus

Вопросы

Какая память в ПК является самой быстрой?
Объясните, в чем состоит принцип временной и пространственной локальности программы.
Какие способы существуют для согласования содержимого кэш-памяти и основной памяти?
Перечислите типы кэш-памяти.
Какие схемотехнические решения используются для повышения быстродействия DRAM?
В каких микросхемах динамической памяти используется включение некоторого количества статической памяти?
В каких микросхемах динамической памяти используется внутренняя конвейерная архитектура?
В каких микросхемах динамической памяти используются множественные банки памяти, функционирующие одновременно?
В каких микросхемах динамической памяти передача данных происходит по обоим уровням сигнала системного таймера?

Поиск по сайту: