分享好友 天南地北首页 网站导航

APU的架构解析

网友发布 2023-08-05 16:16 · 头闻号仪器机械

APU与融合

不同于推土机,Llano APU并没有使用全新的内核架构,甚至不像Brazos APU平台那样至少处理器部分是新的“山猫”(Bobcat)架构,说白了主要就是K10处理器、DX11显卡(以及北桥芯片)的合体,但显然也不是1+1=2那么简单。Llano APU面临的问题不仅仅是要避免1+1<2,还要争取做到1+1>2。

Llano APU的设计目标主要有这么几条:

- CPU、GPU性能综合:同时提供最好的CPU、GPU性能。

- 独立显卡级别的GPU体验:完整的DX11和功能集;拖拽转码和Aero效果等Windows 7体验。

- 独有双显卡技术:配合AMD Radeon独立显卡提供额外性能。

- 下一代视频加速:也就是UVD3引擎,创新的显示和画质功能,更高带宽。

- 行业和开放标准计算API支持:主要是OpenCL、DirectCompute,同时数据传输延迟更低。

- 3D立体:支持HD3D,包括蓝光3D、DisplayPort 1.1(不及独立显卡的DP 1.2)、HDMI 1.4a。

可以看出,六个目标中有五个半是关于GPU的,涉及CPU的只有半个,Llano APU的关注重点也就不言而喻了,也与AMD VISION这样的平台名字相符。

Llano APU芯片采用GlobalFoundries 32nm HKMG工艺制造,又分为两种版本,其一是完整版本,集成14.5亿个晶体管,核心面积228平方毫米,又称为Big Llano或者Llano 1;其二是精简版本,集成7.58亿个晶体管,核心面积暂时不详,又称为Small Llano或者Llano 2。二者都采用了新的micro PGA封装接口Socket FS1,772针无顶盖,引脚间距1.2192毫米,芯片尺寸35×35=1225平方毫米。

从各方面看,首批发布的Llano APU都是采用了第一个完整版本,双核版本也是由四核屏蔽而来的,因此热设计功耗同样较高。不知道何时才能看到原生的双核版本,但是AMD透露说会在近期推出不需要风扇散热的低功耗型号,想来就是了。

和之前的Brazos APU类似,Llano APU也在单独一颗硅片上集成了以下众多模块:x86处理器核心、二级缓存、DDR3内存控制器、图形SIMD阵列(也就是GPU)、显示控制器、UVD解码引擎、PCI-E控制器。从下边这两张图上你就可以看出各个模块的分布位置和相对大小。

Llano APU内集成了如此众多的功能模块,如何确保它们之间的高速互连、以便让整体随时保持在最佳状态、避免任何潜在的瓶颈,这无疑是APU设计过程中最关键的一点,也是获得1+1>2效果的基本前提。AMD在这方面显然是下足了功夫,比如特意设计了全新的Fusion Compute link(Fusion计算连接)来将北桥模块、GPU、IO输入输出串联在一起,允许GPU访问一致性缓存/内存,同时在GPU和北桥之间还搭建了Radeon Memory Bus(Radeon内存总线),让没有独立显存的GPU通过高速带宽去访问系统内存。

说到底,APU并不是简简单单地把CPU、GPU整合到一块硅片上就完事了,不然也不会花费AMD三年多的时间,反复修改设计才最终修成正果。

CPU与Turbo Core

Llano APU中的处理器部分来源于Stars架构,也就是俗称的K10架构,与Phenom Ⅱ/Athlon Ⅱ系列同宗同源,在移动平台上更确切地说相当于此前的Phenom Ⅱ Mobile系列,自带128-bit浮点单元、一级缓存(每核心64KB+64KB)、二级缓存(每核心1MB),但没有三级缓存。

当然一切都不是完全照搬而来的。除了制造工艺从45nm进步到32nm,从而更有效地控制晶体管集成度、核心面积、频率和功耗,支持C6电源状态,还在细节上进行了大量优化,包括更大容量的二级缓存、改进的硬件预取、更大的窗口尺寸、硬件分割器、支持第二代Turbo Core智能超频技术等等,最终将IPC(每时钟周期指令数)提升了6%以上。

这里特别需要着重介绍的就是Turbo Core,官方中文名:“智能超频”。该技术最早出现于六核心的Phenom Ⅱ X6系列上,如今已经进化到第二代,支持从推土机到APU的全系列产品,不过截至2011年基本还没有软件工具能够实时监测Turbo Core的动态频率,只有AIDA64附带的CPUID还凑合。

我们知道,处理器在不同负载下的实际功耗差别很大,而且都距离最大热设计功耗还有一定的空间,另一方面多核心处理器在不同应用环境中活跃的核心数量也有所不同,这都造成了处理器资源无法得到充分利用,形成了浪费。

解决方案就是由功耗监视器实时测量每个处理器核心的功耗,由北桥汇总,然后统一报告给P-State电源状态管理器,再由其根据需要让处理器的各个核心运行在适当的电源状态下,或者降速或者提速,特别是提速的时候能短时间超过原始频率,并且保证始终不超过整体热设计功耗。

AMD Turbo Core的创新之处在于使用了数字式高级电源管理(APM)模块,相比于类似技术中的模拟温度和电流监测方法,能够提供高灵敏度的电源管理,精确度更高,具备完全可重复性。

更关键的是,Turbo Core会自动协调CPU、GPU,让需要更多资源的能够获得更高速度。在GPU闲置的时候,它就会大幅降低其频率,去尽可能高地提升CPU频率。

如果碰到了较为繁重的图形或者视频任务,GPU就会获得更高优先级,CPU退而求其次。

如果GPU执行的是DVD视频播放等轻负载任务,那么留给CPU的加速空间就要在整体热设计功耗中排除掉GPU的那一部分。

极端情况下,如果CPU、GPU都面临繁忙的任务,或者需要携手进行OpenCL APP加速计算,此时CPU、GPU就会同时得到加速,甚至会在短时间内超过热设计功耗限制,然后再根据情况去降低CPU的频率和功耗(GPU不变),保证核心温度不致于过高。这一点倒是和Sandy Bridge上的第二代Turbo Boost有些相似。

内存支持上,Llano APU移动版支持双通道DDR3 SO-DIMM,每通道一条内存条,也就是总共只能插两条内存,容量最大32GB。频率和电压方面标准版DDR3最高1600MHz,电压1.5V,低压版DDR3L最高1333MHz,电压1.35V,带宽最高25.6GB/s。

Llano APU的桌面版则支持双通道DDR3 DIMM,每通道两条内存条,总共可以插入四条内存,容量最大64GB,支持1.35V DDR3-1333、1.5V DDR3-1866,带宽最高29.8GB/s。

由于CPU、GPU“同处一室”,难免会争夺资源(事实上APU对内存带宽的依赖性确实非常强),为此AMD将GPU与内存控制器之间的带宽提高到了上代平台的四倍,且高于内存控制器与内存之间的带宽。

DX11 GPU

这部分是Llano APU的重点。它的开发代号为“Sumo”(相扑),源于第一代DX11家族中Radeon HD 5600/5500系列的Redwood核心,最多400个流处理器、20个纹理单元、2个渲染后端、8个ROP单元,显存位宽128-bit。遗憾的是,独立的GDDR5显存是没有了,而且也不像880G主板那样有板载硬显存,只能去共享系统DDR3内存。

除了继承原有的TeraScale 2统一处理架构,以及完全的DX11、OpenGL 4.1、各种抗锯齿和各向异性过滤(包括形态抗锯齿MLAA)、APP并行计算加速技术之外,Sumo核心还增加了来自Radeon HD 6000系列家族的UVD3视频解码引擎、功率门控(深度电源管理与节能),重新设计了通往北桥的显存接口,制造工艺也同步采用了最新的GlobalFoundries 32nm。

Sumo核心自然还是VLIW5 5D式流处理器架构,单精度浮点计算性能最高480GFlops,整数计算性能最高480Gints,都是每秒钟4800亿次。

作为Fusion APU的竞争对手,Intel Sandy Bridge所集成的HD Graphics 3000/2000虽然比前一代也有了巨大的进步,但是在图形技术、视频技术方面依然落后得很多,尤其是OpenCL并行计算仅有处理器支持,图形核心并不支持,无法协同加速。

Llano APU的处理器、图形核心部分都支持AMD APP加速并行处理技术,尤其是OpenCL标准规范,为此AMD将不断更新APP SDK开发包,提供更好性能和更多功能。按照规划,APP SDK 2.5版将于八月份推出,主要更新有Windows 7/Linux性能优化、多GPU支持(Windows 7)、快速傅立叶变换(根基数5)、UVD3/MPEG2解码、PowerExpress独显集显切换支持、GPU调试器(Windows 7)等等。

值得一提的是,Llano APU正式支持的OpenCL规范版本已更新至1.2。

芯片组与节能

随着芯片集成度的提高,无论桌面还是移动平台的构成都越来越简单,传统的处理器加南北桥双的三片架构已经消失,取而代之的是处理器加互连芯片的双芯片架构。原来由北桥负责的大部分功能都已经转移到处理器内部,包括图形核心,所谓的芯片组也就剩下了一颗充当南桥功能的小芯片。

Llano APU处理器搭配的Hudson系列芯片组同样是单芯片设计,在移动平台上有A70M、A60M两款型号,代号分别为Hudson-M3、Hudson-M2,通过UMI总线(PCI-E 1.0 x4+DP)与处理器互连。和之前用于Brazos APU平台的Hudson-M1 A50M是同门师兄弟。

A70M/A60M芯片组采用65nm工艺制造,605球脚FC BGA封装,芯片尺寸23×23=529平方毫米,典型热设计功耗2.7-4.7W。

两款芯片组均支持六个SATA 6Gbps存储接口并支持RAID 0/1阵列方式,可提供四条PCI-E 2.0 x1连接通道,集成时钟发生器、消费级红外接收器、风扇控制、电压感应、DAC(支持VGA)等等,主要区别则在于USB接口:A70M原生支持四个USB 3.0、十个USB 2.0和两个内部USB 1.1,A60M则没有USB 3.0,而是改成了十四个USB 2.0。

这套平台上还有个可选的替补角色,那就是Vancouver Radeon HD 6000M系列独立显卡,通过PCI-E x16通道与处理器相连。它不但能为笔记本带来独显性能,还支持与Llano APU集成的图形核心组成双显切换、加速系统。

最后再说一下电源管理与节能技术,这方面同样很丰富,包括32nm HKMG新工艺、AMD Turbo Core 2.0动态调速技术、系统管理模式(SMM)、ACIP兼容、多重性能状态(P-states)、多重节能状态(C-states)、S0/S3/S4/S5休眠状态、每个核心功率门控(CC6)、PCI-E核心功率门控、Radeon流处理器核心与UVD3视频引擎功率门控。

功率门控(Power Gating)尤为值得一提。它是AMD 45nm时代非常欠缺的技术,如今终于得到了彻底的支持。相比于时钟门控(Clock Gating),它不仅可以实时调节各个模块的运行频率、电压,还能在不需要的时候彻底关闭,实现部分零功耗。换句话说,Llano APU的每个处理器核心、每个PCI-E控制器、流处理器阵列、UVD3引擎都是可以完全关闭的,Turbo Core技术也是因此更上一层楼。

以上种种,都属于AMD AllDay全天计算技术。按照AMD给出的数据,ⅥSION 2010移动平台的待机时间最长为6个半小时,迎来了APU的ⅥSION 2011则可长达10个小时;同时相比竞争对手,待机续航时间长一个半多小时,满载续航时间也要长一个小时。

免责声明:本平台仅供信息发布交流之途,请谨慎判断信息真伪。如遇虚假诈骗信息,请立即举报

举报
反对 0
打赏 0
更多相关文章

收藏

点赞