变革进行时全面解析英特尔新架构
四、乱序引擎和执行单元 熟悉Yonah架构的朋友一眼就会发现Core的乱序引擎与前者有太多“神似”的地方,所以我们说Core的乱序引擎是Yonah的“翻版”也并不为过。它们确实有太多相似的结构,包括寄存器别名表,寄存器分配器以及重序缓冲(ROB)。
Core架构中的乱序引擎只是比Yonah增加了更多的执行单元,这样有利于同时处理更多的指令并更好地挖掘指令之间的并行度
Pentium 4(桌面级,下同)和Yonah架构的最大吞吐量都是每周期3 uops,而Core架构的设计为每周期4 uops。除此之外,Core的保留站(Reservation station)也比Yonah大得多(32vs.24 );不过这个值与Pentium 4直接对比有些困难,因为在Pentium 4中使用的是分布式调度器而不是保留站(Pentium 4共有46个调度项空间,8个用于内存操作指令,剩下38个用于ALU和FPU)。
Core架构在设计上比Pentium 4和Yonah多一个额外的分发端口,所以它可以每周期持续执行三条指令。更重要的是,Core有更平衡的执行单元分配机制—在Pentium 4处理器中,很多操作都集中在一号端口,这样很容易产生严重的冲突,而Core有效避免了这一点。
在Core架构中有三个端口用于执行单元,其中包括3个128bit SSE单元、2个浮点单元和3个64bit整数单元,其中一号端口上(Port 1)的整数单元还可以用于处理128bit移位和循环移位操作。所有端口都可以分发浮点Move指令,FPU和SSE单元在某种程度上可以实现部分硬件电路的共享。这种设计非常高效,Yonah和Pentium 4远不能与之相提并论
除了对整数计算能力的优化之外,Core架构同样也大幅提高了浮点和SSE计算的能力。在Core架构中三个SSE单元并不是完全对等的,但它们之间的差别非常小;而且SSE 单元采用完全流水线化的设计,每个单元都可以在单个周期内执行相应的128bit SSE指令。相比之下Pentium 4中的SSE单元相对不足,它的两个64bit SSE单元需要两个周期才能执行一条128bit SSE指令。
五、缓存和内存系统
基于Core架构的微处理器拥有更多的执行单元,这就要求缓存与内存子系统也要大幅提高性能以适应其它部分的变化。
Core和Yonah的缓存都是写回式(Write back)结构,使用64byte的缓存列大小;而Pentium 4的L1缓存是写通式(Write Through),缓存列大小64byte,L2缓存是写回式。在某种条件下*,Core架构还可以实现在两个核心L1缓存之间直接传输缓存数据。
*注释:英特尔方面只是表示可以在L1缓存之间实现通讯,但到目前为止并没有透露更详细的资料。
Core架构的缓存子系统结构与Yonah几乎完全相同,唯一的区别只是带宽大于后者
内存子系统也引入了新的预取策略来配合共享缓存的设计,以期达到最高的效率—L1缓存中引入了多个预取器,而L2缓存的预取器可以根据当前数据访问的模式和密度在两个处理器之间动态分配带宽资源;与此同时,前端总线接口(FSB)也采用类似的仲裁方式以确保两个核心之间的平衡。
六、Core架构的硬件改进
英特尔在Core架构中的改进只能用“大刀阔斧”来形容,除了上面我们介绍到的各个子系统的局部改进之外,还引入了很多先进的硬件技术来提高处理器的整体表现。
基于Prescott核心的Pentium 4/D处理器的高发热量可以说是用户的切肤之痛,在进入65nm制程之后,情况虽然有所改善但是处理器的发热问题依然十分头痛,这就对处理器的温控系统提出了更高的要求。在Core架构中,英特尔设计了一个片上数字热敏元件来替代原先的温控二级管。有消息称,如果这个小部件发现处理器的实际功耗离最大值(TDP)还有一段距离时,会动态提高处理器的运行频率;如果这种说法成立的话,这项技术很有可能会用到Conroe和Woodcrest中,而对功耗相对敏感的Merom不会采用这项技术。
Core架构中的绝大多数部件都可以实现深度“屏蔽”以获得更好的性能功耗比—它的两个核心可以实现完全独立的管理,许多单元也可以整个进入深度睡眠状态;而且绝大多数情况下,这种屏蔽不会降低性能,晶体管数量和发热量之间的矛盾得到了很好的解决。
Core处理器也包含了新的指令集—SSE4。SSE4指令集原先计划用在Tejas核心(Prescott的后继产品)中,不过随着Tejas计划的取消,Core架构接过了接力棒。但是因为历史的原因,新的SSE4指令集在Core架构中性能提高有限,远没有当初引进SSE2时那么明显,只能算是锦上添花。
七、规格和性能
Core微处理器家族中目前公布的最高频率为3.0GHz(未来预计会有3.33GHz的产品出现)。目前来自英特尔方面的资料声称Merom相对目前的移动处理器约有20%的性能提升,Conroe相对目前的桌面级产品大约会有40%的性能提升,而针对服务器市场的Woodcrest提升幅度最为明显—相对于目前的Dempsey会有80%左右的性能提升。
在性能提高的同时,处理器的发热也得到了很好的控制,其中Merom 35W、Conroe 65W以及Woodcrest 80W;而且英特尔会根据用户需求提供低功耗的版本,如针对刀片服务器市场的低电压版本Woodcrest将牺牲一些频率,将TDP控制在40W左右。
目前得到的这些资料都是相对值,并且在正式发布之前英特尔仍有可能对Core架构作进一步调整和优化。但是从目前已经公布的测试数据来看,新架构的表现非常优秀,各项性能指标都大幅度超过竞争对手的产品。
写在最后
从技术上看,“核心微架构”是近几年来英特尔公布的一个全新的x86架构;相对于以往的产品,英特尔在各方面都进行了大规模的改进,而且相信这个架构将会在一段时间内对整个处理器行业产生深远的影响。
从发布时间上看,英特尔将在今年第三季度初期首先发布面向服务器市场的Woodcrest,然后在第三季度晚些时候推出桌面级的Conroe,最后在第四季度或明年初推出面向移动市场的Merom。
近年来英特尔除了在移动处理器领域保持了绝对的领先地位之外,在桌面级和处理器市场上不断受到竞争对手的强有力挑战;而这次英特尔放出Core架构来重振旗鼓,无疑是想打一场彻彻底底的“翻身仗”,而且竞争对手到目前为止还没有拿出更有效的应对策略。《微型计算机》将一如既往地关注这方面的最新进展。
相关文章
新一代笔记本正在陆续到来,HotHardware抢先拿到了一台微星的泰坦18 Pro,简单测试了其首发配备的AMD锐龙9 9955HX3D,展现了新一代X3D旗舰的威力2025-03-28
游戏装机不花冤枉钱! 锐龙5 9600X性价比完胜酷睿Ultra 7 265K
花更多的钱,是不是真的能换来更好的游戏体验?咱今天就来唠唠这个事儿,看看这钱到底该不该花,接下来我们不妨拿竞品高端定位的酷睿Ultra 7 265K来和锐龙5 9600X进行一个对2025-03-25
AMD锐龙7 9700X板U套装推荐:轻松获得仅次于9800X3D的游戏性能
锐龙7 9700X的首发上市价格为2549元,现在该产品也大幅降价到1999元,性价比非常诱人,今天我们就来看看AMD锐龙7 9700X板U套装推荐2025-03-17
锐龙7 7800X3D实力完胜i9-14900K! 3000元内游戏CPU推荐
在当前3000元以内,最热门的游戏CPU莫过于锐龙7 7800X3D和酷睿i9-14900K,那么这两款产品究竟谁性价比更高呢?下面我们就来看看详细测评2025-03-12
游戏与生产力双高 综合实力最强! 锐龙9 9950X3D处理器首发评测
AMD终于将锐龙 9000系列的王牌产品——锐龙 9 9950X3D拿了出来,在搭载了超大容量的3D缓存之后,这颗处理器可以说是兼顾了游戏以及创作能力,同时也是消费级锐龙 9000处理2025-03-12
64位和32位CPU有什么区别? 电脑32位和62位系统区别介绍
在选购或使用电脑时,我们经常会听到“32位”和“64位”这样的术语,那么,这两个概念到底是什么意思?它们对计算机的性能和兼容性有什么影响?详细请看下文介绍2025-03-07
为什么主流装机玩家都选AMD 锐龙5 9600X? 五大理由告诉你
你可能会奇怪,为什么最近Zen5架构的锐龙9000系列桌面处理器在主流玩家群体中的口碑这么好;为什么在追求性价比搭配,期望用最少花费实现尽可能好游戏体验的玩家群体中,AM2025-02-28
有锐龙7 9700X还考虑什么酷睿i9/Ultra 9处理器? 性能级游戏装机推荐
别看锐龙7 9700X只是一款2000元价位的产品,但是具备了挑战竞品旗舰酷睿i9-14900K和酷睿Ultra 9 285K的强悍实力,具体差距如何?请看下文测评2025-02-27
CPU热节流是指当处理器在运行过程中产生过多的热量,达到一定的温度阈值时,为了防止过热和损坏,CPU会自动降低时钟速度和性能的技术,下面我们就来看看它的利弊2025-02-19
CPU 的 L1、L2 和 L3 Cache 在现代计算机架构中起着关键作用,它们的设计、大小、位置以及读写速度和延迟都有显著的差异,详细请看下文介绍2025-02-19












最新评论