记忆体晶片突破每秒20亿次存取速度的秘密

MoSys公司最新推出一款序列记忆体Bandwidth Engine IC,利用高效的10G序列介面与创新架构,可实现每秒20亿次以上的记忆体存取速度。这种存取速度是支援100GE和100Gbps汇聚线卡要求的资料速率所必备的。Bandwidth Engine IC的运算逻辑单元(ALU)与记忆体架构中具有一定的智能化,能够加速诸如统计等网路作业,是专门针对高资料速率、预计长达10年的使用寿命以及政府强制要求降低功耗等具有严格限制规范的应用所设计。

Bandwidth Engine有别于传统网路元件的关键在于其具备快速、智能化存取性能,因而能够在资料封包分级应用中发挥良好作用。这使得MoSys必须采用高度协同的设计策略。为了达到这么高的存取速率,Bandwidth Engine IC结合了精确的产品定义、设计严谨的RTL代码、高速且低延迟的串列解串器(SerDes)、MoSys开发的1T-SRAM核心技术,以及创新的布局与封装设计,最终形成一款利用高速序列介面以减轻SoC封装与系统设计挑战的元件。透过在一个Bandwidth Engine IC加入传统记忆体元件,不仅提高了整体系统性能,同时也降低了功耗和成本。

Bandwidth Engine IC采用MoSys公司最初的技术创新成果──1T-SRAM,这是一种可达到接近SRAM速度的嵌入式DRAM记忆体,其关键技术是采用具有小型记忆体库的eDRAM阵列架构,因而以较低延迟减少了位元线上的电容和电阻负载。

另外,1T-SRAM介面隐藏了DRAM刷新和预充周期,记忆体库能以3.9ns的周期实现'有如SRAM一样快的'读写速度。嵌入式记忆体被组织成4个独立的分区,每个分区再被分成64x (32Kb×72)个记忆体库;因而总记忆忆体容量可达到576Mb。每个分区有一个写入埠和两个读取埠,并以循环TDM方式进行取。这种阵列架构单元的组合可在每3.9ns周期时间内实现高达12次线上作业。因此,在10G作业模式下,每1ns就能发出三条指令。

Bandwidth Engine的核心记忆体阵列架构增加了效率高达90%的创新型低延迟介面,因而可执行于1到16条相容于CEI-11或XFI的差分序列链路上。另外并针对高存取速率的元件最佳化Gigachip介面(GCI),这可透过采用具有72位元净负荷与8位元CRC校验的80位元封包加以实现。相较于典型的网路串列解串器应用,GCI序列介面是专为晶片到晶片通讯而设计的,其中包含有一个自动错误恢复机制,以确保符合企业与电信市场所要求的资料传输可靠性。

MoSys选用了平均同步介面以尽可能减少与传统串列解串器有关的延迟。数据资料透过控制模组形成管线,然后以位元串流的形式馈送给4个1T-SRAM分区。而在发送端,随着每一可用分区依次每1ns读取一个,最多可以读出2个数据字元,并返回GCI介面,再传送资料至主机。

Bandwidth Engine的另一个创新特性是每一分区有一个晶片上ALU,可以透过内部'读取-修改-写入'的指令作业控制资料。利用ALU能够卸载主处理器的工作量,并释放出介面资源以用于其它作业,从而实现更高的性能以及提升能效。由于ALU与每个分区具关联性,因而在作业于10G介面速率时,每1ns就能发出一条指令。为了确保进行ALU作业后的资料完整性,必须针对72位元字符的ECC特征位元进行检查,并在必要时进行校正以及重新计算。

在晶片方面,MoSys选择了台积电(TSMC)作为制造代工厂。该元件采用台积电基于位元线下电容技术的嵌入式DRAM制程,如图1所示。透过整合台积电稳定的制程技术与MoSys自有的创新晶片设计,MoSys开发出成功的元件。


连接至位元线的感测放大器利用台积电相容逻辑元件制程中所有可用的金属层。总共使用了三阶段的多工感测放大器,第一级位元线在金属层1中达20微米,用于将记忆体单元连接到第一级感测放大器。第二级检测放大器多工两个第一级感测放大器的输出,用金属层4的750微米位元线连接第二级感测放大器。最后,8个第二级输出使用金属层6的750微米位元线来多工第三级检测放大器。

Bandwidth Engine的布局也考虑到了主要设计目标──高取速率与低延迟。传统的SerDes元件将I/O置于晶片边缘,而Bandwidth Engine改变了传统做法,将I/O、Gigachip介面和时脉电路都放在晶片中央。这样做有两大好处:可减少2-3ns的延迟且较均衡。将GCI介面和SerDes通道置于晶片中央还能降低接收器/收发器(Rx/Tx)的串扰,以及使未来新一代的Bandwidth Engine具有相同的接脚输出。但这种设计方法面对的挑战是在记忆体、核心与晶片SerDes之间要保持足够的杂讯隔离程度。

图2即显示这种晶片布局。同样在SerDes模组的中央位置可看到两个电感。这两个电感用于组成锁相环(PLL)中压控振荡器(VCO)所使用的两个LC振荡器中。必须用两个PLL才足以涵盖晶片所使用的6-10GHz频率范围。LC振荡器则用于实现低抖动PLL。

该晶片所采用的封装方式也与晶片协同设计。在封装上使用了8个金属层,以便让设计者可弹性地微调封装导线的串联电感。封装电感设计用于补偿寄生焊盘电容,因而能够实现更加清晰的眼图,从而改善回传损耗,并降低数据误码率。

在进行测试时,由于测试仪器必须连接到Bandwidth Engine上的16个通道,这可能会来较高的测试成本。为了降低测试成本,在该晶片上整合了一个专门设计用于测试的处理器。该处理器可在晶片的制造过程中进行重新编程,因此当测试期间发现较低位元时,产品工程师就能针对测试演算法进行修改,从而确保达到可支援10年使用寿命目标的企业级与电信级品质与可靠性。未来还可望减少甚至消除这部份程式的下载烧录时间。

总之,这是一款架构、设计、布局、制程、测试与制造团队之间合作实现的成果,可让Bandwidth Engine达到企业用户所需每秒20亿次存取的资料率和10年的使用寿命。一项包括Bandwidth Engine设计在内的专利在一年半以前已提出申请,目前正在专利申请受理阶段。MoSys已经从多家一线网路合作伙伴中赢得了多项设计订单。由于该设计本身具有可扩展性,MoSys认为未来将为其进一步改善,使其可符合400GE的应用中。预计下一代产品能够再提升50%的性能。

 

Tags:晶片  存取速度  

相关文章

 

友情链接:过流保护器 三菱plc 监控摄像头安装 动力监控系统

PCB抄板服务 服务流程 BOM单制作 SMT加工服务 样机全套克隆

Copyright 2005-2011 广州pcb抄板公司. Some Rights Reserved.
专业提供专注于PCB抄板设计,样机制作等反向研究服务!