高清从这里开始 英特尔最新SSE4指令集详解

所属分类: 硬件教程 / CPU 阅读数: 70
收藏 0 赞 0 分享
  近几年来,AMD和Intel这两大处理器界里面的巨头有着无数次的针锋相对。而每次对碰都会擦出激情的光芒,无论是AMD A64处理器灵光闪现,还是Intel 酷睿的光芒四射,都为原本平淡无奇的CPU市场注入了新鲜血液和活力。不得不承认若没有两家针锋相对的竞争,CPU的发展也不会如此神速,时代的更迭也不会如此日新月异。
  而目前Intel无论是在技术还是在工艺上面,都无可争议的领先于对手。尤其Intel在进入45nm时代之后,更是将酷睿2的优势发挥得淋漓尽致。45nm工艺的Intel酷睿2 处理器家族是基于Intel 45 nm晶体管技术的下一代英特尔酷睿2系列处理器。该技术可谓晶体管领域的新突破,不仅将晶体管密度提升了近两倍,同时还大幅降低了漏电率。而更重要的是Intel最新的45nm系列产品还添加了强大的Intel SSE4指令集,而且还对微体系结构进行了改进,将为您提供出色的性能和能效表现,此外还能兼容现有软件。对于开发人员而言,这就意味着现有软件能够拥有更高的性能和能效表现,以及进一步优化的可能,以充分利用Intel SSE4 和微体系结构增强技术。

高清从这里开始英特尔最新SSE4指令集详解
Intel开创处理器高清新时代
  Intel Intel SSE4 指令包括矢量化编译器和媒体加速器指令。未来的英特尔处理器将支持其余指令,而软件也将能从程序的角度检测出处理器支持哪些Intel® SSE4 指令。那么我们曾多次提到SSE4指令集,相信很多消费者对其还非常陌生,究竟是何方神圣能够为Intel处理器带来如此大的改进呢?下面就让我们来了解一下这款什么的指令集吧!

高清从这里开始英特尔最新SSE4指令集详解
Intel Intel SSE4 指令包括矢量化编译器和媒体加速器指令
  SSE4的英文全称是:Streaming SIMD Extensions 4,是英特尔自从SSE2之后对ISA扩展指令集最大的一次的升级扩展。新指令集增强了从多媒体应用到高性能计算应用领域的性能,同时还利用一些专用电路实现对于特定应用加速。
  从指令数目上看,SSE4指令增加了的指令改进了整数和浮点操作,支持DWORD和QWORD操作,新的单精度FP操作、快速寄存器操作、面向性能优化的内存操作等等,包括了图形、图像、数据装载各方面的革新,因此称其为SSE2以来最大的指令集变动也是不为过的。利用支持SSE4指令集的编译器编译之后,包括图形/图像处理、视频处理、2D/3D创作、多媒体、游戏、内存敏感负载、高性能计算等应用都会受益。
  SSE4指令集将分为两个版本:4.1和4.2,SSE4.1版本随着45nm Penryn发布,而SSE4.2版本将会随着下一代架构Nehalem发布,4.1将包括47条指令,4.2将包括7条指令。
技术领先 强大的SSE4指令集解析
  据Intel指出,在应用SSE4指令集后,Penryn增加了2个不同的32Bit向量整数乘法运算支持,引入了8位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。

  不仅如此,Intel SSE4指令集还进一步增强讯编码效果,例如可同时处理8个4-byte宽度的SAD(Sums of Absolute Differences)运算,常用于新一代高清影像编码如VC.1及H.264等规格中,令视频编码速度进一步提升。因此在播放高清视频的时候,即使在软解的情况下也同样游刃有余。

高清从这里开始英特尔最新SSE4指令集详解(2)
有效地改善编译器效率及提高向量化整数及单精度代码的运算能力
  SSE4 构建于英特尔64 指令集架构 (Intel® 64 Instruction Set Architecture) (ISA),该架构是开发 32 位和 64 位应用最为广泛应用的电脑架构。Intel&reg SSE4 包含 54 条指令,主要分为两类:矢量化编译器和媒体加速器,以及高效加速字符串和文本处理。矢量化编译器和媒体加速器可提供高性能的编译器函数库,如封包(同时使用多个操作数)整数运算和浮点运算,可生成性能优化型代码。此外,它还包括高度优化的媒体相关运算,如绝对差值求和、浮点点积和内存负载等。矢量化编译器和媒体加速器指令可改进音频、视频和图像编辑应用、视频编码器、3D 应用和游戏的性能。高效加速字符串和文本处理包含多个压缩字符串比较指令,允许同时运行多项比较和搜索操作。由此受益的应用包括数据库和数据采掘应用,以及那些利用病毒扫描和编译器等分析、搜索和模式匹配算法的应用。

高清从这里开始英特尔最新SSE4指令集详解(2)
SSE4加入了6条浮点型点积运算指令


  SSE4加入了6条浮点型点积运算指令,支持单精度、双精度浮点运算及浮点产生操作,且IEEE 754指令 (Nearest, -Inf, Inf, and Truncate) 可立即转换其路径模式,大大减少延误,这些改变将对游戏及 3D 内容制作应用有重要意义。此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升。


#p#
统一CPU和GPU?Nehalem时代即将来临
  Nehalem微架构最高支持4颗处理器的Quick Path多路服务器环境,单一芯片最高可拥有2、4及8颗核心,支持经改良的Hyper-Theading技术,令单颗处理器最高可支持16 Threads,而且Nehalem架构中的Havendale亦将会内建绘图核心。新增SSE4.2指令集及ATA指令集令系统性能全面提升,令人期待。此外,新一代Nehalem将会放弃FSB设计,采用全新的Quick Path Interconnect架构,现时已得知服务器版本的Nehalem处理器最高可拥有4组Quick Path Interconnect,并至少可组成四颗处理器的数据可直接互换的4Ways服务器架构。

高清从这里开始英特尔最新SSE4指令集详解(3)
Nehalem搭配了高速三级缓存
  英特尔每次在缓存和指令集上的小小改进都会对处理器的性能产生质的变化。最新的45nm Nehalem产品中将出现第二代SSE4技术,这比目前的45nm处理器更为强大,我们可以将其看成是一种流SIMD扩展:SSE 4.2。据了解,Nehalem将包含一个全新的ATA中心和文字与字符串处理引擎,这意味着该处理器对于文本的处理性能将有很大提升。此外,基于XML文件作为病毒定义的反病毒软件也可能因此而受益。
  对于Nehalem的SSE4.2,Intel的Gelsinger介绍说,这7条指令集的用途各有不同,比如有面向CRC-32和POP Counts等特定应用的,有特别针对XML等的流式指令。Gelsinger称,新指令集可以将256条指令合并在一起执行,从而让XML类工作的性能提高3倍。

高清从这里开始英特尔最新SSE4指令集详解(3)
Nehalem性能相比上一代提升30%
  预计在2009年的第二季末,Intel将会推出内建绘图核心的处理器,核心代号为Havendale,这是一颗针对主流级市场的双核心处理器,采用45nm制程,支持SMT(Simultaneous Multi-Threading),L2 Cache容量最高为4M。虽然同样内建内存控制器及PCI-Express绘图接口,但它却不是原生设计,Havandale把绘图核心、PCI-Express绘图接口及内存控制器制作成一颗芯片,与处理器核心采用MCP(Multi-Chip Package)封装在一起,两者将采用Quick Path Interconnect连接。相信大家更关心的是Intel能否真的将CPU和GPU真正的同一!
新老对决 SSE4指令集绝对值得期待

高清从这里开始英特尔最新SSE4指令集详解(4)

  Intel最新45nm处理器还加入了0.5倍频调节,增加了SSE4指令集,Wolfdale增加了2个不同的32Bit向量整数乘法运算支持,引入了8 位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。

  此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升。

高清从这里开始英特尔最新SSE4指令集详解(4)

高清从这里开始英特尔最新SSE4指令集详解(4)

高清从这里开始英特尔最新SSE4指令集详解(4)
  在SSE4指令集中,共引入了47条新的多媒体运算指令。其中一条“streaming load instruction”流加载指令引起了广泛的注意。该指令为16bit同步加载指令,但加载结果将会存储在高优先级的临时流缓冲中,绕过普通的CPU Cache。这一指令将有利于GPU从CPU中高速共享数据,加速图像处理。

  从Intel 45nm产品的性能以及规格来看都要比上一代的65nm产品有了长足的进步,同时在超频潜力上又有了一个质的飞跃。这让更多的I饭们看到冲击极限的希望。而且由于45nm制程在成本上将会更低,因此在中低端市场的竞争中Intel 45nm制程的新处理器将更具有冲击力。值得期待……


更多精彩内容其他人还在看

内存频率是否真的至关重要?AMD Ryzen内存性能完全对比

内存频率是否真的至关重要?下面为大家带来AMD Ryzen内存性能完全对比,测试项目很广泛,包括20款应用、17款游戏,分辨率最高4K,基本能涵盖绝大多数用户的日常使用场景,详情我们来看看吧
收藏 0 赞 0 分享

1299元AMD Ryzen 5 1400抢先游戏评测:对比酷睿7代i5/奔腾

11日,AMD Ryzen 5处理器将全球发售,首发包括两款六核心Ryzen 5 1600(X)和两款四核Ryzen 5 1500/1400。下面分享了AMD Ryzen 5 1400抢先游戏测评对比7代i5/奔腾,一起来看看
收藏 0 赞 0 分享

AMD Ryzen Pro系列处理器突然现身:四款型号

国外媒体曝光了一组全新的Ryzen系列处理器,它们都在现有的编号上加入了一个“Pro”标识,包括Ryzen 7 Pro 1700、Ryzen 5 Pro 1600、Ryzen 5 Pro 1400和Ryzen 3 Pro 1200
收藏 0 赞 0 分享

AMD Ryzen性能怎么样?AMD Ryzen 1600完美跑分

AMD Ryzen性能怎么样?使用CPU-Z和wPrime 2.0分别对Ryzen 5 1600的单核性能进行测试,结果显示其与Ryzen 7 1700X几乎打成平手,详情我们一起来看看吧
收藏 0 赞 0 分享

AMD入门级Ryzen 3 1200性能参数曝光:3.1GHz/四核处理器

今天,主板厂商华擎在一款B350芯片组主板的支持列表中意外曝光了Ryzen 3 1200的部分性能参数,据页面信息显示,Ryzen 3 1200的基础频率为3.1GHz,拥有2MB缓存,功耗65W
收藏 0 赞 0 分享

AMD的Ryzen处理器第二个鸡血版游戏补丁实测:性能提升10%

现在第二个鸡血版游戏补丁也来了——《全战:战锤》中Rzyen处理器性能提升也有10%。Rzyen 7 1700/1700X/1800X三款处理器在新补丁中性能提升大约10%,1800X虽然还是不能超过Core i7-7700K,但已经达到Core i7-6700K及6900K的水
收藏 0 赞 0 分享

AMD RX 580/570/550规格、跑分、价格如何?看这里就懂了

目前传言RX 580依然是2304颗流处理器,144个纹理单元, 32个光栅单元,不过频率提高到1340MHz,几乎比480多了20%。RX 470公版设定的Boost最高是1206MHz,而这块570加到了1325MHz,跑分提升约5%,详情我们来看看吧
收藏 0 赞 0 分享

AMD Ryzen装机须知:CPU和主板要怎样搭配

今年Ryzen会陆续补齐所有规格的CPU和与它匹配的主板产品,那么,AMD Ryzen CPU和主板怎么搭配呢?对此,本文就为大家介绍AMD Ryzen装机须知,有兴趣的朋友们就来了解下吧
收藏 0 赞 0 分享

AMD Ryzen有核显吗?AMD Ryzen处理器有哪些?

今年,AMD Ryzen锐龙处理器凭借先进架构、低功耗、多核优势,加之还有性价比优势获得了很多网友的认可,那么,AMD Ryzen处理器有哪些?以及AMD Ryzen有核显吗?针对这些问题,本文就为大家进行详细解答
收藏 0 赞 0 分享

还玩啥PC?一图看懂Intel将近四年来的各种收购之路

如今的Intel早已经不是一家围绕PC打转的企业(所以才牙膏?),更多地把目光瞄准了人工智能、无人驾驶、5G、虚拟现实等新领域,而在自身技术突破的同时,收购也成了一条捷径,下边就来看看Intel这将近四年来的各种收购吧,来看看吧
收藏 0 赞 0 分享
查看更多