Все-таки глобализация — великое изобретение человечества. Все основные достижения Intel («тонкие» техпроцессы, процессорные архитектуры от i8086 до i486, Pentium, P6, и NetBurst) до сих пор были сделаны американцами, но оказалось, что израильские разработчики умеют делать процессоры ничуть не хуже своих заокеанских коллег, а во многих отношениях — и гораздо лучше. Срочно переориентированный из сугубо мобильной ниши в «общезначимую», Merom получил еще две инкарнации — «настольный» Conroe[Строго говоря, ядром Conroe будет наделен только двухъядерный процессор с 4 Мбайт кэш-памяти L2. Тот же двухъядерник с урезанной до 2 Мбайт кэш-памятью будет основан на ядре Allendale; построенный на той же архитектуре одноядерник с 1 Мбайт кэш-памяти — на ядре Milville, но, дабы не запутать читателя десятками кодовых имен, для всей этой троицы, а заодно и для ядер Merom и Woodcrest я буду использовать «собирательное» обозначение Conroe] и серверный Woodcrest. Все они будут многоядерными, с одной и той же архитектурой и на первых порах будут изготавливаться по 65-нм техпроцессу.
Обычно Intel трудно обвинить в разговорчивости: техническая информация, касающаяся ее будущей продукции, подается микроскопическими дозами. Однако Merom-Conroe-Woodcrest (или, для краткости, просто Conroe) сейчас так нужен Intel, что порой кажется, будто эти процессоры начнут продаваться уже завтра — столь детально определены их спецификации. Основных изменений в архитектуре P6 по сравнению с Pentium M будет три:
Во-первых, будет сильно переделан главный конвейер. Сохранив некоторые черты конвейера P6 (в частности, Reservation Station), Conroe сможет выполнять не две, а четыре инструкции за такт, причем, в отличие от Pentium 4 (также способного выполнять до четырех инструкций за такт), — в «устоявшемся» режиме и для большего числа x86-инструкций.
Во-вторых, обещают улучшить одно из узких мест P6 — относительно слабый (по сравнению с Pentium 4 и AMD Athlon) блок вычислений с плавающей точкой. К сожалению, информации на сей счет пока маловато, что косвенно свидетельствует о том, что революции здесь не случится.
В-третьих, многоядерные процессоры будут основываться на технологии, общей для всех ядер кэш-памяти второго уровня. Собственно, эта новинка уже «отрабатывается» на новых мобильных процессорах Yonah (Core Duo/Core Solo), но об этом мы подробнее поговорим в другой статье номера, посвященной ноутбукам.
В-четвертых, в ядро введут технологию виртуализации Intel VT, поддержку EM64T и наверняка что-то еще из грядущей LaGrande.
Каждое из трех первых новшеств, взятое по отдельности, способно обеспечить небольшой, но уверенный прирост производительности на мегагерц хотя бы 10—15%; взятые же вместе и дополненные четвертым пунктом, они потенциально могут стать тем самым Vergeltungswaffen["Оружие возмездия" (нем.)], которое нужно Intel для отвоевывания утерянных позиций. Тем более что по многочисленным «утечкам» информации известны и тактовые частоты грядущих семейств. Для Conroe обещают двухъядерные процессоры, работающие на частоте 1,86 ГГц (E6300, $209) и 2,13 ГГц (E6400, $240), с кэш-памятью 2 Мбайт и на частоте 2,40 ГГц (E6600, $316) и 2,67 ГГц (E6700, $530) с кэш-памятью 4 Мбайт. Все они будут использовать быструю 1066-МГц шину QPB, которая сегодня встречается только в самых дорогих процессорах Pentium Extreme Edition. Наверняка будут и «промежуточные» модели, а также удешевленные модификации с меньшим объемом кэш-памяти и меньшей частотой. Серверные Woodcrest получат частоты 1,60 ГГц (Xeon 5110, 230$), 1,86 ГГц (5120, 270$), 2,00 ГГц (5130, 330$), 2,33 ГГц (5140, 470$), 2,66 ГГц (5150, 700$) и 3,00 ГГц (5160, 850$), кэш-память L2 объемом 4 Мбайт и совершенно фантастическую шину на 1333 МГц. Кроме того, в январе ходили слухи о моделях Conroe и на частоты 2,93 и 3,2 ГГц с кэш-памятью 2 Мбайт, а также о некоем Conroe Extreme Edition с частотой 3,33 ГГц, с кэшем L2 в 4 Мбайт, хотя в их появление в третьем квартале этого года верится с трудом. Спору нет, даже «простой» Pentium M, разогнанный до 3,33 ГГц, представляет собой чрезвычайно производительное решение, и что сможет показать на этих частотах улучшенный Conroe с быстрой шиной, даже представить страшно. Но вспомним историю — поначалу (а порой и весьма длительное время) процессоры новых семейств почти всегда не обгоняли, а то и вовсе уступали своим «устаревшим», но хорошо отлаженным родственникам. Сегодня Intel хладнокровно обещает в своих кристаллах обеспечить преимущество над «процессорами конкурента» не менее 30% (а стало быть, еще большее — над своими), но к чему относится это расплывчатое обещание и будет ли оно выполнено, покажет только время.
Быстрее, меньше, холоднее…Intel, с ее многочисленными фабриками и колоссальными доходами, всегда славилась инженерами-технологами. «Тонкие» техпроцессы, новые материалы, усовершенствованные степпинги появлялись у нее и раньше, и быстрее, чем у конкурентов, и корпорация своим преимуществом активно пользовалась. Текущий год не стал исключением — и пока в AMD осторожно заявляют о начале поставок 65-нм процессоров в начале 2007 года, Intel демонстрирует сэмплы изготовленных по 45-нм технологическому процессу модулей SRAM, продает полный спектр 65-нм процессоров и сворачивает «устаревшее» 90-нм производство.
Новый техпроцесс получил вполне привычное название — P1264 (до того использовался 90-нм P1262, а еще раньше — 130-нм P1260), привычные производственные материалы и привычное производственное оборудование — ультрафиолетовые литографические инструменты на основе 193-нм лазеров. Даже в 90-нм P1262 разнообразных технологических новшеств было больше (что уж говорить о принципиально новом P1260) — однако в P1264 удалось обойтись без особых ухищрений, ограничившись лишь небольшими улучшениями и усовершенствованными фазосдвигающими масками. Среди улучшений — переход к использованию в качестве электропроводящего материала силицида никеля (NiSi) и слегка доработанная технология «напряженного кремния», позволяющие снизить (в первом случае — за счет уменьшения электрического сопротивления, а во втором — за счет большего рабочего тока при тех же токах утечки) тепловыделение кристалла. А вот толщину изолирующего оксидного слоя в новом техпроцессе изменять, как это делалось раньше, не стали, сохранив ее на уровне 1,2 нм. Кроме того, в кристалл, ранее насчитывавший семь слоев, добавлен восьмой слой[В свое время AMD за счет этого дополнительного слоя сделала из неудачного, горячего и плохо масштабировавшегося по частоте 130-нм Throughbred-A отличный 130-нм Throughbred-B], позволяющий повысить плотность электрических контактов, скорость распространения электрических сигналов и снизить «межконтактную» емкость. Собрав эти «мелочи» вместе, технологам удалось совершить маленькое чудо: сохранив все преимущества «тонкого» технологического процесса — уменьшить токи утечки кристалла почти вчетверо! И это еще не все: рабочий ток затвора возрос на 10—15%, а электрическая емкость уменьшилась на 20%, что, по словам представителей Intel, обеспечивает почти 30—40-процентный прирост тактовых частот! Заодно всюду, где только можно, внедрили технологию «спящих транзисторов», отключающихся от питания, когда они не используются. Жестокие уроки непрерывно[В продаже успели побывать степпинги C0, D0, E0 и N0, а теперь вот и R0 подоспел…] оптимизировавшегося по тепловыделению сложнейшего ядра Prescott, очевидно, не прошли даром.
Тем не менее, заполучив в свое распоряжение прогрессивный техпроцесс, сильно изменять ядро Pentium 4 Prescott в связи с «похоронами» NetBurst разработчики не стали. Новые ядра (кодовое название CedarMill) «официально» получили кэш-память объемом 2 Мбайт, технологию виртуализации Intel Virtualization Technology (VT-x, aka Vanderpool) и сниженный с 14 до 12 минимальный множитель. Причем (сюрприз, сюрприз!) в степпингах E0 и R0 «старичка» Prescott мы все это уже видели. Даже тактовые частоты, несмотря на явный задел, поднимать не стали: для одноядерных CedarMill верхним пределом сегодня стала частота 3,6 ГГц (понижена с прежних 3,8 ГГц Prescott), а для двухъядерных Presler — 3,55 ГГц (повышена с 3,20 ГГц Smithfield). По сути, почти весь созданный новым технологическим процессом задел для повышения тактовой частоты (а если слова о 40% увеличения быстродействия транзисторов правдивы, то новые Pentium 4 могли бы постепенно достичь 5 ГГц) так и остался неиспользованным (хотя оверклокеры будут счастливы) — Intel улучшила лишь результаты откровенно провального Pentium D 3,20 ГГц. Отчасти это вызвано желанием снизить тепловыделение (в первом приближении оно пропорционально частоте), а отчасти «политическими» мотивами: все-таки NetBurst, при всех своих недостатках, была невероятно прогрессивной архитектурой, и грядущий «суперпроцессор» Conroe мог бы и не догнать «второй Northwood», неожиданно преодолевший технологические проблемы[А вот в Conroe, похоже, из 65-нм выжмут все, что только можно. И похоже, что ценой традиционно немаленького тепловыделения изначально «мобильного» чипа]. Вдобавок, похоже, что увеличенный до 4 Мбайт (2+2) кэш двухъядерников сыграл-таки негативную роль, поскольку снижения TDP для двухъядерных процессоров так и не произошло: оно по-прежнему составляет 130 Вт у старших моделей. Правда, измерения показывают, что новый 955-й Pentium Extreme Edition значительно экономичней прежнего лидера — 840-го (возможно, оценка в 130 Вт для предыдущего поколения была «слегка» оптимистична?), хотя и рассеивает тепла раза в полтора больше, чем сопоставимое по производительности решение конкурента. Так или иначе, на 10—20% тепловыделение новых процессоров снизили — и прекрасно.
Еще один немаловажный момент, связанный с новым технологическим процессом, -заметно возросшая производительность (в смысле — количественные возможности по выпуску процессоров с одной пластины) и пропорционально снизившаяся себестоимость производства. Площадь одноядерного CedarMill (с двухмегабайтным кэшем!) уменьшилась до скромнейших 81 кв. мм, мало того — новые двухъядерники, в отличие от ядра Smithfield, «собираются» из двух независимых ядер CedarMill в одном корпусе. В принципе, Smithfield и так был не более чем объединением двух ядер Prescott, но их приходилось делать в виде единого кристалла. Ну а теперь, похоже, нашелся удобный способ независимой упаковки двух кристаллов в один процессор. Кстати, Presler (это не отдельное ядро, а два CedarMill) станет не единственным процессором, использующий эту технологию: ближе к 2007 году похожим образом Intel собирается выпускать четырехъядерные процессоры, упаковывая по два двухъядерных кристалла. «Двойная упаковка» очень технологична (не нужно одновременно производить два типа кристаллов, меньше влияние возникающих дефектов, больше выход с одной пластины) и, в принципе, позволяет Intel легко перевести в 2006 году большую часть своих процессоров на использование двух ядер. Или, как вариант, сильно снизить цены на свою продукцию, и без того продающуюся недорого. «Продержаться» до выхода Conroe тоже как-то необходимо, а AMD, несмотря на сократившийся разрыв в производительности двухъядерных процессоров, пальму первенства по быстродействию и тепловыделению уступать в ближайшие полгода явно не намерена.
В мобильном секторе все гораздо сложнее. Новые 65-нм процессоры (кодовое название Yonah[Строго говоря, есть несколько разных Yonah. По числу ядер есть Yonah1 и Yonah2; а ближе к 2007 году, возможно, под названием Stealey выйдет и «дешевый» одноядерный Yonah1 с урезанной до 512 Кбайт кэш-памятью L2]) — впервые в мире мобильных CPU — являются двухъядерными, причем построенными на основе прогрессивной технологии, общей для двух ядер кэш-памяти второго уровня. Правда, два ядра — это удвоенное тепловыделение, которое трудно компенсировать даже более тонким технологическим процессом, поэтому при работе ноутбука от батарей процессор незаметно «превращается» в одноядерный, если мощность второго ядра не требуется. Добавили в процессор и поддержку технологии виртуализации Intel VT-x. Правда, кэш-память второго уровня увеличивать по сравнению с предыдущим поколением Dothan не стали — она так и осталась равной 2 Мбайт, что для одноядерных, что для двухъядерных вариантов. Заодно процессоры получили новую систему маркировки, а соответствующая платформа (Centrino третьего поколения) была названа Napa.
Серверные системыДалеко не везде от процессора требуется очень высокая производительность. Особенно если речь идет о производительности в вычислениях с плавающей точкой (FP). Например, Itanium в таких вычислениях несомненный лидер — и где x86, а где Itanium[На то, конечно, есть и другие важные причины, но…]? Зато частенько требуется обеспечить небольшое тепловыделение, причем как для ноутбуков, так и для настольных систем и, что самое парадоксальное, серверов. Парадоксальное — потому что для серверов, в принципе, не слишком важны тишина и сложность системы охлаждения — сервер все равно стоит в отдельном, а зачастую — и в специально кондиционируемом помещении[А завтра, глядишь, и к системе фреонового охлаждения подключать начнут. Вроде той разработки крупной российской компании Kraftway, о которой мы рассказывали в прошлогоднем #46]. Однако усиливающееся влияние кластерных систем диктует свои законы — и сегодня «в моде» блейд-серверы и прочие «тонкие» одно-двухъюнитовые решения, позволяющие установить в одну стойку множество небольших однотипных серверов. Желательно двух-, а еще лучше — четырехпроцессорных. И поскольку это совсем недорого — двухъядерных. Помножьте 130 (если не 180) ватт TDP двухъядерных Xeon на два сокета и 42 сервера в стойке — и представьте себе задачу энергоснабжения и последующего отвода более 12—16 кВт мощности. Особенно если таких стоек — целый зал. Нужно ли после этого удивляться, что располагающая более чем двумястами тысячами серверами Google решила расширить свою базу за счет серверов, построенных на процессорах AMD.
Впрочем, методики решения подобных «небыстрых, зато холодных» задач давным-давно отработаны и сводятся к использованию ноутбучных процессоров в несвойственных им системах. К примеру, новые десктопные системы от Apple используют процессоры Core Duo. С серверными процессорами так же просто поступить невозможно — они требуют специальной инфраструктуры, сертификации, чипсетов и, главное, возможности работать в многопроцессорных конфигурациях. Однако особого труда для Intel подобная адаптация, похоже, не составляет, так что уже в самое ближайшее время мы увидим серверную модификацию Core Duo на ядре Yonah в виде низковольтных семейств процессоров Xeon LV и Xeon ULV (ядро Sossaman). Работая на частотах порядка 1,67—2,0 ГГц, они не будут блистать производительностью и не будут поддерживать 64-битные расширения, — зато будут обладать более чем конкурентоспособными тепловыми пакетами в 31 и 16 Вт соответственно против 60/30 Вт у HE (и EE — модификаций Opteron[У Intel и AMD методики измерения тепловыделения CPU отличаются (Intel указывает типичное тепловыделение, AMD — максимальное), так что прямое сравнение TDP некорректно]). Выходящая в середине нынешнего года серверная ипостась Conroe — ядро Woodcrest — столь же низким тепловыделением похвастать не сможет, так что линейка Sossaman’ов в исполнении Socket 479, похоже, обречена на долгое пребывание на рынке.
В секторе «не-столь-компактных» систем дела обстоят проще: на смену текущему (прямо скажем, не слишком удачному) двухъядерному процессору Intel Xeon «Paxville», должен прийти заметно более производительный и менее горячий 65-нм эквивалент Presler под кодовым названием Dempsey. Обладая вдвое увеличенным кэшем L2, а также более быстрой 1066-МГц системной шиной, Dempsey обещает стать весьма интересным продуктом. Заодно с Paxville Dempsey вытеснит и одноядерный Xeon DP «Irwindale». В секторе MP-процессоров (4-сокетные системы и выше) на смену ядру Potomac (серверный аналог ядра Prescott с 1-Мб L2 и 8-Мб L3) придет сложнейший двухъядерный 65-нм процессор Tulsa с 16 Мбайт общей кэш-памяти L3. В отличие от других своих двухъядерных 65-нм собратьев Tulsa будет выполнен в виде одного кристалла (сказывается общий L3) с громадной площадью 435 кв. мм. 1,33 млрд. транзисторов — это не шутка. Хотя ему далеко до другого «долгостроя» — двухъядерного Itanium 2 «Montecito» (1,72 млрд. транзисторов, 595 кв. мм). Что за проблемы с этим чудом техники, насчитывавшем, помимо двух ядер, поддерживавших своеобразную[Нет, это не Hyper-Threading для Itanium 2, хотя формально технологии и похожи. Temporal Multi-Threading, или Helper Threads, основывается на несколько других принципах] многопоточность (по два потока на ядро), 24 (12x2) мегабайта кэш-памяти L3 и производящимся по 90-нм технологическому процессу, приключились у Intel — неизвестно, но то что они были — несомненно. Montecito изрядно опоздал с выходом на рынок и «слегка» подрастерял свои тактовые частоты и заявленные поначалу «фичи». Впрочем, это все равно очень хороший процессор с впечатляющей производительностью, «смена» которого ожидается не раньше 2007 года
Попутно с процессорами анонсированы и новые чипсеты для DP-систем — Blackford и Greencreeck. В числе новшеств — переход на две независимые процессорные шины (пропускной способности одной шины для многопроцессорных многоядерных систем катастрофически не хватает) и переход к использованию новой оперативной памяти FB-DIMM. Вскоре изменится и сокет — вслед за Pentium 4 процессоры Intel Xeon переберутся с Socket 603/604 на разъем LGA 771.
Заглядывая в будущееВышеперечисленными моделями Intel, конечно, не ограничивается. Горячие головы уже рассказывают о планах уважаемой корпорации едва ли не до 2008 года, и если верить им, то первый четырехъядерный процессор Intel появится уже в конце текущего — начале следующего года и будет представлять собой два кристалла архитектуры Conroe в одной упаковке. Серверная модификация выйдет чуть раньше и получит название Clovertown; настольная — на полгода позже и будет называться Kentsfield. Заодно выйдет и 65-нм четырехъядерная версия Itanium (надеемся, что история с Montecito не повторится) с кодовым названием Tukwilla, хотя в отношении Itanium технологический процесс 90-нм не будет забыт даже тогда — на его основе выпустят «доработанный» Montecito (видимо, такой, каким его обещали изначально) под названием Montvale. Тогда же начнется интересный процесс объединения линеек Xeon и Itanium, поскольку через пару лет и те и другие будут переведены с существующих FSB на новую последовательную шину CSI (Common System Interface), являющуюся своеобразным аналогом шины AMD Hyper-Transport и, как и последняя, обеспечивающую очень широкую совместимость с наборами системной логики. Фактически станет возможным ставить в один и тот же сервер как Xeon, так и Itanium, что, за счет широко используемой инфраструктуры, теоретически должно резко снизить стоимость систем на основе последних.