&q``CCOF& SZ1+h TY7d 在介绍本文的主角——高通Snapdragon S4 MSM8960之前,先让我们来回顾一下现有的智能手机/平板电脑ARM架构SoC方案,这些处理器全部基于40nm等级的工艺,由GlobalFoundries、三星、台积电或联电生产。明年各大厂商的制造工艺均将进化为28nm,带来性能以及续航能力的提升。在完全进化至28nm工艺之前市面上主流的SoC方案可以说是五花八门:
p,]Hs{R z=n"cE[KtB xI}]q%V !<((@*zU {B\ar+ 9> !Lk|eGd* Krait处理器是高通第二代Snapdragon的心脏,也是所有Snapdragon S4 SoC的核心,它在Scorpion的基础上作出了不少改进。
j=
]WAjT {hZ_f3o 在架构的前端方面,Krait显然要更“宽”,一个时钟周期可以执行三次fetch与decode操作。每个Decoder都相当于ARM11的single issue能力模块,对比前代Scorpion的2-wide,能力也提高了50%。
HQQc<7c", 5c3)p^]g 后端执行单元方面则是简单的扩张,从Scorpion的三个增加到了七个,可以并行执行4条指令。而在指令执行阶段,Krait终于进入了Cortex-A9阶段,可实现完全乱序执行。
n8iejdA' @e$zEj5 X/2Xr(z"k 8yB Mm^o3vl 流水线方面,Krait的整数流水线由Scorpion的10级略微提高至11级,
对比Cortex-A15的15级流水线,高通的设计含有更多的定制化逻辑模块,同样使得处理器的频率容易提升。
$MB56]W8 gqyQ Zew 此外,Krait对比Scorpion,还支持在A15中才加入的新虚拟化指令集和40bit内存寻址。双核型号的二级缓存也从512KB升至1MB。
一个恰当的类比例子是,ARM Cortex-A8时代的设计就像当年的P54C Pentium,而Krait的完全乱序支持就像P6 Pentium Pro,整体设计则是把SoC带入了Pentium II的时代。 !OPa
`kSh |v[{k>7f 在后端完全乱序执行引擎的加持下,
Krait架构的预期性能将高于Intel 45nm Atom。
2012年面世的部分智能手机可能将拥有超过采用Banias核心Pentium M处理器的初代“迅驰”笔记本的性能。
Ol{)U;,` ?9 :{p 性能期望 \iSaxwU_ FUvZMA$ 通常ARM核心性能是用老旧的DMIPS(Dhrystone Millions of Instructions per Second)来衡量,这个老旧的整数性能测试基本与多数读者同龄但在桌面市场早已被弃之不用。但对于架构相同点颇多的各ARM系核心还是有一些意义的:
w# ,:L) [fxAj] 7W5FHZd' Krait的DMIPS/MHz性能为3.3,比同频的Cortex A9快上约30%。
预计Krait在发布时将拥有超过目前市面上A9架构CPU约20-25%的性能。依高通推出的频率版本不同,新的智能手机领先市场上A9架构CPU机种的性能达30-50%也不奇怪。目前ARM还没有公布Cortex-A15的性能数据,
业界传言在3.5 DMIPS/MHz左右。(译者按:从设计角度来看,高通两代核心的定位差不多是这样,Scorpion在A8与A9之间,Krait在A9与A15之间)
d]0fgwwGC ^r}^- .v/s9'lB daGGgSbh 新的VeNum视频解码单元 %fJ*Ql4M [ -{L@ 在ARM架构SoC中,所有NEON指令都由专用单元去处理。Krait也不例外,高通将这代NEON专用模块命名为VeNum,吞吐容量比之前的Scorpion提高约50%,可同时处理3个NEON指令。
=HQH;c" ;ZFn~!V 高通处理器的NEON数据位宽均为128bit,以上也是为什么采用高通SoC的智能设备解码视频流能力强的原因。 K e~a vd9l1"S 缓存和内存的层次结构 1Xu\Tm\Ux a% Q.8 高通Krait核心具有三级缓存结构,
低级别的两级缓存为每个核心独享,而第三级别缓存为所有核心共享,高通将每个级别缓存按级别从低至高命名为L0、L1和L2.
5ok3q@1_]{ x6.an_W6 每个Krait核心具有8KB L0缓存(4KB指令+4KB数据)。L0缓存可在单周期中直接存取,
高通称L0缓存有85%的高命中率,使得CPU不必经常访问L1缓存以节省能耗。高通采用的缓存层次结构为独家设计,L0缓存中的数据不必在L1中留有副本。
XB50>??NE UqsVqi
h( 每个核心还具有32KB L1缓存(16KB指令+16KB数据),采用4路组相联设计,同样可以在单周期中访问。
++5W_Ooep M})2y+ L2缓存为所有核心共享,双核Krait中L2容量为1MB,相比之下Scorpion中为512KB;四核Krait容量将进一步上升到2MB。Krait的L2缓存为8路组相联设计。
e7{3:y|]d3 Q/1
6D OzA"i y D ( <_1 L0与L1缓存频率与核心相同,电压也一样。而L2缓存为省电采用独立设计方式,拥有自己的运行频率,将根据任务负载实时调整,最大为1.3GHz。
f:KKOLm zq8z#FN 内存控制器部分,尽管上代Scorpion内置双通道LPDDR2内存控制器,但通常情况下内存只能利用到其中一条通道。要利用完整的两条32bit通道,必须在PCB上采用两块32bit DRAM封装的形式。由于高通单通道控制器的效率不低,很多OEM厂商都弃另外一通道不用。
/H: '(W_b; @Vr?)_0 而Krait解除了这一限制,现在OEM常常可以简单把两个32bit DRAM堆叠在一个封装内即可完整利用双32bit内存控制器,预计在性能上对比Scorpion会有不少提升。
8]YFlW9 ]$EKowi 制造工艺与频率、功耗控制 CD +,&id E;@`{ v Krait将是世界
首个采用28nm制程的智能手机/平板电脑CPU,高通目前的制造合作方包括
台积电与
GlobalFoundries两家,而前者将制造首个Krait芯片也是制造主力。因高通考虑采用TSMC的非HKMG工艺会有更小的风险,
Krait前期将采用台积电标准28nm LP工艺制造。在高通白皮书PDF给出的对比图中,Krait核心MSM8960的对比对象为NVIDIA采用40nm LPG混合工艺的Kal-El。高通对于制造工艺的态度是,40nm G晶体管只有在全程高频时才有意义,其余多余情况下纯LP工艺晶体管三个更有优势。
`-hFk88 0N;Pb(%7UU (=j]fnH? F7E# x 和Scorpion一样,Krait每个核心也有自己的独立频率/电压控制机能。高通称这种设计可在多种不同负载率下拥有功耗优势。 j;=+5PY l=Jbuc 首个使用Krait核心的高通SoC为双核1.5GHz的MSM8960,明年该CPU预计将推出制程进一步改进的版本,频率可达1.7-2.0GHz。高通称当Krait与Scorpion核心电压同为1.05V时,Krait的极限频率为1.7GHz,相比之下Scorpion最多只能达到1.55GHz;此时运行相同的某个任务时Krait的功耗为
265mW,Scorpion
432mW。虽然满载时Krait可能会比Scorpion消耗更多的电能,但总体上来说Krait运行任务效率高,进入待机状态时功耗下降速度快,总体看来电源管理方面对比上代Scorpion还是有所提高。
以此推算,智能手机与平板电脑的实际续航即使没有改进,最坏情况也是与之前持平。 HfFP4#C, ^}ngbDn L0与L1缓存频率与核心相同,电压也一样。而L2缓存为省电采用独立设计方式,拥有自己的运行频率,将根据任务负载实时调整,最大为1.3GHz。
N>z_uPy{A g|9'Lk 内存控制器部分,尽管上代Scorpion内置双通道LPDDR2内存控制器,但通常情况下内存只能利用到其中一条通道。要利用完整的两条32bit通道,必须在PCB上采用两块32bit DRAM封装的形式。由于高通单通道控制器的效率不低,很多OEM厂商都弃另外一通道不用。
pfe9n[ 1,p7Sl^h 而Krait解除了这一限制,现在OEM常常可以简单把两个32bit DRAM堆叠在一个封装内即可完整利用双32bit内存控制器,预计在性能上对比Scorpion会有不少提升。
Be68 Fu0 ^.&