你的位置:首頁 > 測試測量 > 正文

英特爾面向 CPU、GPU 和 IPU發(fā)布了重大技術(shù)架構(gòu)的改變和創(chuàng)新

發(fā)布時間:2021-08-22 責任編輯:lina

【導讀】在 2021 年英特爾架構(gòu)日上,英特爾公司高級副總裁兼加速計算系統(tǒng)和圖形事業(yè)部總經(jīng)理 Raja Koduri 攜手多位英特爾架構(gòu)師,全面介紹了兩種全新 x86 內(nèi)核架構(gòu)的詳情;英特爾首個性能混合架構(gòu),代號“Alder Lake”,以及智能的英特爾® 硬件線程調(diào)度器;專為數(shù)據(jù)中心設(shè)計的下一代英特爾® 至強® 可擴展處理器 Sapphire Rapids;基礎(chǔ)設(shè)施處理器(IPU);即將推出的顯卡架構(gòu),包括 Xe HPG 微架構(gòu)和 Xe HPC 微架構(gòu),以及 Alchemist SoC, Ponte Vecchio SoC。
 
英特爾驅(qū)動數(shù)據(jù)中心、邊緣和客戶端邁入下一個計算時代,直面未來工作負載和計算挑戰(zhàn)
 
2021 年 8 月 19 日——在 2021 年英特爾架構(gòu)日上,英特爾公司高級副總裁兼加速計算系統(tǒng)和圖形事業(yè)部總經(jīng)理 Raja Koduri 攜手多位英特爾架構(gòu)師,全面介紹了兩種全新 x86 內(nèi)核架構(gòu)的詳情;英特爾首個性能混合架構(gòu),代號“Alder Lake”,以及智能的英特爾® 硬件線程調(diào)度器;專為數(shù)據(jù)中心設(shè)計的下一代英特爾® 至強® 可擴展處理器 Sapphire Rapids;基礎(chǔ)設(shè)施處理器(IPU);即將推出的顯卡架構(gòu),包括 Xe HPG 微架構(gòu)和 Xe HPC 微架構(gòu),以及 Alchemist SoC, Ponte Vecchio SoC。
 
這些新架構(gòu)將為即將推出的高性能產(chǎn)品注入動力,并為英特爾的下一個創(chuàng)新時代奠定基礎(chǔ),以滿足世界對高計算能力日益增長的需求。
 
Raja Koduri 強調(diào)了架構(gòu)提升對于滿足這一需求的重要性:“架構(gòu)是硬件和軟件的‘煉金術(shù)’。它將特定計算引擎所需的先進的晶體管結(jié)合在一起,通過領(lǐng)先的封裝技術(shù)將它們連接,集成高帶寬和低功耗緩存,并在封裝中為混合計算集群配備高容量、高帶寬內(nèi)存和低時延、可擴展互連,同時確保所有軟件無縫加速。隨著桌面到數(shù)據(jù)中心的工作負載變得前所未有的密集、復雜、且多樣,今年公布的這些新突破也展示了架構(gòu)將如何滿足對于更高計算性能的迫切需求。”
 
x86 內(nèi)核
 
能效核
 
全新的英特爾能效核微架構(gòu),曾用代號“Gracemont”,旨在面對當今多任務(wù)場景,提高吞吐量效率并提供可擴展多線程性能。此高能效 x86 微架構(gòu)在有限的硅片空間實現(xiàn)多核任務(wù)負載,并具備寬泛的頻率范圍。該架構(gòu)致力通過低電壓能效核降低整體功率消耗,為更高頻率運行提供功率熱空間。這也讓能效核提升性能,以滿足更多動態(tài)任務(wù)負載。
 
能效核可以利用各種技術(shù)進步,在不耗費處理器功率的情況下對工作負載進行優(yōu)先級排序,并通過每周期指令數(shù)(IPC)改進功能直接提高性能,這些功能包括:
 
 ●擁有 5000 個條目的分支目標緩存區(qū),實現(xiàn)更準確的分支預(yù)測
 ●64KB 指令緩存,在不耗費內(nèi)存子系統(tǒng)功率的情況下保存可用指令
 ●英特爾的首款按需指令長度解碼器,可生成預(yù)解碼信息
 ●英特爾的簇亂序執(zhí)行解碼器,可在保持能效的同時,每周期解碼多達 6 條指令
 ●后端寬度(Wide Back End)具備 5 組寬度分配(Five-wide allocation)和 8 組寬度引退、256 個亂序窗口入口和 17 個執(zhí)行端口
 ●支持英特爾® 控制流強制技術(shù)和英特爾® 虛擬化技術(shù)重定向保護等功能
 ●實現(xiàn)了 AVX 指令集以及支持整數(shù)人工智能操作的新擴展
 
相比英特爾最多產(chǎn)的 CPU 內(nèi)核 Skylake,在單線程性能下,能效核能夠在相同功耗下實現(xiàn) 40% 的性能提升,或在功耗不到 40% 的情況下提供同等性能 1。與運行四個線程的兩個 Skylake 內(nèi)核相比,四個能效核所提供的吞吐量性能,能夠在功耗更低的情況下同時帶來 80% 的性能提升,而在提供相同吞吐量性能時,功耗減少 80%。1
 
性能核
 
英特爾全新性能核微架構(gòu),曾用代號“Golden Cove”,旨在提高速度,突破低時延和單線程應(yīng)用程序性能的限制。工作負載的代碼體積正在不斷增長,需要更強的執(zhí)行能力。數(shù)據(jù)集也隨著數(shù)據(jù)帶寬的需求提升而大幅增加。英特爾全新性能核微架構(gòu)帶來了顯著增速同時更好地支持代碼體積較大的應(yīng)用程序。
 
性能核擁有更寬、更深、更智能的架構(gòu):
 
 ●更寬:解碼器由 4 個增至 6 個,6µop 緩存增至 8µop,分配由 5 路增至 6 路,執(zhí)行端口由 10 個增至 12 個
 ●更深:更大的物理寄存器文件(physical register files),擁有 512 條目的重排序緩沖區(qū)
 ●更智能:提高了分支預(yù)測準確度,降低了有效的一級時延,優(yōu)化了二級的全寫入預(yù)測帶寬
 
性能核是英特爾有史以來構(gòu)建的性能最高的 CPU 內(nèi)核,并通過以下功能突破了低時延和單線程應(yīng)用程序性能的極限:
 
 ●相比目前的第 11 代英特爾® 酷睿™ 處理器架構(gòu)(Cypress Cove),在通用性能的 ISO 頻率下,針對大范圍的工作負載實現(xiàn)了平均約 19% 的改進 1
 ●呈現(xiàn)出更高的并行性和執(zhí)行并行性的增加
 ●搭載英特爾® 高級矩形擴展(AMX),內(nèi)置下一代 AI 加速提升技術(shù), ●用于學習推理和訓練。AMX 包括專用硬件和新指令集架構(gòu),以明顯提高矩陣乘法運算
 ●減少時延,對大型數(shù)據(jù)和代碼體積較大的應(yīng)用程序提供更好的支持
 
客戶端
 
Alder Lake 客戶端 SoC
 
代號為“Alder Lake”的英特爾下一代客戶端架構(gòu)是英特爾的首款性能混合架構(gòu),它首次集成了兩種內(nèi)核類型:性能核和能效核,以帶來跨越所有工作負載類型的顯著性能提升。Alder Lake 基于 Intel 7 制程工藝打造而成,支持最新內(nèi)存和最快 I/O。
 
Alder Lake 將提供驚人的性能,支持從超便攜式筆記本,到發(fā)燒級,到商用臺式機的所有客戶端設(shè)備,它采用了單一、高度可擴展的 SoC 架構(gòu),提供三類產(chǎn)品設(shè)計形態(tài):
 
 ●高性能、雙芯片、插座式的臺式機處理器 ,具有領(lǐng)先性能和能效。支持高規(guī)格的內(nèi)存和 I/O
 ●高性能筆記本處理器,采用 BGA 封裝,并加入圖像單元,更大的 Xe 顯卡和 Thunderbolt 4 連接
 ●輕薄、低功耗的筆記本處理器,采用高密度的封裝,配置優(yōu)化的 I/O 和電能傳輸
 
構(gòu)建如此高度可擴展架構(gòu)的挑戰(zhàn),我們需要在不影響功率的情況下滿足計算和 I/O 代理對帶寬超乎尋常的需求。為了解決這一挑戰(zhàn),我們設(shè)計了三種獨立的內(nèi)部總線,每一種都采用基于需求的實時啟發(fā)式后處理方式。
 
 ●計算內(nèi)部總線可支持高達 1000GBps——即每個內(nèi)核或每集群 100GBps,通過最后一級緩存將內(nèi)核和顯卡連接到內(nèi)存
     具有高動態(tài)頻率范圍,并且能夠動態(tài)選擇數(shù)據(jù)路徑,根據(jù)實際總線結(jié)構(gòu)  負載而進行時延和帶寬優(yōu)化
     根據(jù)利用率動態(tài)調(diào)整最后一級緩存策略——也就是“包含”或“不包含”
 ●I/O 內(nèi)部總線支持可高達 64 GBps,連接不同類型的 I/O 和內(nèi)部設(shè)備,能在不干擾設(shè)備正常運行的情況下無縫改變速度,選擇內(nèi)部總線速度來匹配所需的數(shù)據(jù)傳輸量
 ●內(nèi)存結(jié)構(gòu)可提供高達 204 GBps 的數(shù)據(jù),并動態(tài)擴展其總線寬度和速度,以支持高帶寬、低時延或低功耗的多個操作點
 
英特爾硬件線程調(diào)度器
 
為使性能核和能效核與操作系統(tǒng)無縫協(xié)作,英特爾開發(fā)了一種改進的調(diào)度技術(shù),稱之為“英特爾硬件線程調(diào)度器”。硬件線程調(diào)度器直接內(nèi)置于硬件中,可提供對內(nèi)核狀態(tài)和線程指令混合比的低級遙測,讓操作系統(tǒng)能夠在恰當?shù)臅r間將合適的線程放置在合適的內(nèi)核上。硬件線程調(diào)度器具有動態(tài)性和自適應(yīng)性——它會根據(jù)實時的計算需求調(diào)整調(diào)度決策——而非一種簡單的、基于規(guī)則的靜態(tài)方法。
 
傳統(tǒng)意義上,操作系統(tǒng)會根據(jù)有限的可用數(shù)據(jù)做出決策,如前臺和后臺任務(wù)。硬件線程調(diào)度器可通過以下方式增加新維度:
 
 ●使用硬件遙測工具將需要更高性能的線程引導到當時適合的性能核上
 ●更精細地監(jiān)控指令組合、每內(nèi)核當前狀態(tài)以及相關(guān)的微架構(gòu)遙測,從而幫助操作系統(tǒng)做出更智能的調(diào)度決策
 ●通過與微軟合作,優(yōu)化英特爾硬件線程調(diào)度器在 Windows11 上的極佳性能
 ●擴展 PowerThrottling API,使得開發(fā)人員能夠為其線程明確指定服務(wù)質(zhì)量屬性
 ●應(yīng)用全新 EcoQoS 分類,該分類可讓調(diào)度程序獲悉線程是否更傾向于能效(此類線程會被調(diào)度到能效核)
 
Xe HPG 微架構(gòu)和 Alchemist SoC
 
Xe HPG 是一款全新的獨立顯卡微架構(gòu),專為游戲和創(chuàng)作工作負載提供發(fā)燒級的高性能。Xe HPG 微架構(gòu)為 Alchemist 系列 SoC 提供動力,首批相關(guān)產(chǎn)品將于 2022 年第一季度上市,并采用新的品牌名——英特爾銳炫™(Intel®Arc™)。 Xe HPG 微架構(gòu)采用全新的 Xe 內(nèi)核,是一款聚焦計算、可編程且可擴展的元件。
 
客戶端顯卡路線圖包括 Alchemist(此前稱之為 DG2)、Battlemage、Celestial 和 Druid SoC。在演講中,英特爾展示了微架構(gòu)細節(jié),并分享了在試產(chǎn)階段的 Alchemist SoC 上運行的演示視頻,包括真實游戲展示,虛幻引擎 5 測試良好,全新的基于神經(jīng)網(wǎng)絡(luò)的超取樣技術(shù) Xe SS 等。
 
基于 Xe HPG 微架構(gòu)的 Alchemist SoC 能夠提供出色的可擴展性和計算效率,并擁有以下關(guān)鍵架構(gòu)特征:
 
 ●多達 8 個具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設(shè)計
 ●全新 Xe 內(nèi)核,擁有 16 個矢量引擎和 16 個矩陣引擎(被稱為 XMX,即 Xe Matrix eXtension)、高速緩存和共享內(nèi)部顯存
支持 DirectX Raytracing(DXR)和 Vulkan Ray Tracing 的新光線追蹤單元
 ●通過架構(gòu)、邏輯設(shè)計、電路設(shè)計、制程工藝技術(shù)和軟件優(yōu)化,相比 Xe LP 微架構(gòu)實現(xiàn) 5 倍的頻率提升和 1.5 倍的每瓦性能提升 1
 ●使用臺積電的 N6 制程節(jié)點上進行制造
 
 
英特爾顯卡設(shè)計的核心是軟件優(yōu)先:
 
 ●我們正與開發(fā)人員密切合作進行 Xe 微架構(gòu)的設(shè)計,力求與行業(yè)標準保持一致
 ●通過在一個統(tǒng)一的代碼庫中涵蓋集成和獨立顯卡產(chǎn)品的驅(qū)動設(shè)計,英特爾的第一款高性能游戲顯卡將性能和質(zhì)量放在首位
 ●英特爾已完成了內(nèi)核顯卡驅(qū)動程序組件的重新架構(gòu),特別是內(nèi)存管理器和編譯器,從而使計算密集型游戲的吞吐量提高了 15% (至多 80%),游戲加載時間縮短了 25%
 
 
Xe SS
 
Xe SS 利用 Alchemist 的內(nèi)置 XMX AI 加速,帶來了一種可實現(xiàn)高性能和高保真視覺的全新升頻技術(shù)。其使用深度學習來合成非常接近原生高分辨率渲染質(zhì)量的圖像。憑借 Xe SS,那些只能在低畫質(zhì)設(shè)置或低分辨率下玩的游戲也能在更高畫質(zhì)設(shè)置和分辨率下順利運行。
 
 ●Xe SS 的工作原理是通過從相鄰像素,以及對前一幀進行運動補償,來重建子像素細節(jié)
 ●重構(gòu)由經(jīng)過訓練的神經(jīng)網(wǎng)絡(luò)執(zhí)行,可提供高性能和高畫質(zhì),同時性能提升高達兩倍 1
 ●Xe SS 憑借 DP4a 指令,在包括集成顯卡在內(nèi)的各種硬件上提供基于 AI 的超級采樣
 ●多家早期的游戲開發(fā)商已開始使用 Xe SS, 本月將向獨立軟件供應(yīng)商(ISV)提供 XMX 初始版本的 SDK,DP4a 版本將于今年晚些時候推出
 
數(shù)據(jù)中心
 
下一代英特爾至強可擴展處理器(代號為“Sapphire Rapids”)
 
Sapphire Rapids 代表了業(yè)界在數(shù)據(jù)中心平臺上的一大進步。該處理器可在不斷變化且要求日益增高的數(shù)據(jù)中心使用中提供可觀的計算性能,并對工作負載進行優(yōu)化,以在云、微服務(wù)和 AI 等彈性計算模型上提供高性能。
 
Sapphire Rapids 的核心是一個分區(qū)塊、模塊化的 SoC 架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù),在保持單晶片 CPU 接口優(yōu)勢的同時,具有顯著的可擴展性。Sapphire Rapids 提供了一個單一、平衡的統(tǒng)一內(nèi)存訪問架構(gòu),每個線程均可完全訪問緩存、內(nèi)存和 I/O 等所有單元上的全部資源,由此實現(xiàn)整個 SoC 具有一致的低時延和高橫向帶寬。
 
Sapphire Rapids 基于 Intel 7 制程工藝技術(shù),采用英特爾全新的性能核微架構(gòu),該架構(gòu)旨在提高速度,突破低時延和單線程應(yīng)用性能的極限。
 
Sapphire Rapids 提供業(yè)界廣泛的數(shù)據(jù)中心相關(guān)加速器,包括新的指令集架構(gòu)和集成 IP,以在各種客戶工作負載和使用中提升性能。新的內(nèi)置加速器引擎包括:
 
 ●英特爾® 加速器接口架構(gòu)指令集(AIA)——支持對加速器和設(shè)備的有效調(diào)度、同步和信號傳遞
 ●英特爾® 高級矩陣擴展(AMX)——Sapphire Rapids 中引入的新加速引擎,可為深度學習算法核心的 Tensor 處理提供大幅加速。其可以在每個周期內(nèi)進行 2000 次 INT8 運算和 1000 次 BFP16 運算,實現(xiàn)計算能力的大幅提升。使用早期的 Sapphire Rapids 芯片,與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾 AMX 指令集擴展優(yōu)化的內(nèi)部矩陣乘法微基準測試的運行速度提高了 7 倍以上,為 AI 工作負載中的訓練和推理上提供了顯著的性能提升
 ●英特爾® 數(shù)據(jù)流加速器(DSA)——旨在卸載最常見的數(shù)據(jù)移動任務(wù),這些任務(wù)會導致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾 DSA 改進了對這些開銷任務(wù)的處理,以提供更高的整體工作負載性能,并可以在 CPU、內(nèi)存和緩存以及所有附加的內(nèi)存、存儲和網(wǎng)絡(luò)設(shè)備之間移動數(shù)據(jù)
 
這些架構(gòu)上的改進使 Sapphire Rapids 能夠為云、數(shù)據(jù)中心、網(wǎng)絡(luò)和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。該處理器旨在通過先進的內(nèi)存和下一代 I/O,包括 PCIe 5.0、CXL 1.1、DDR5 和 HBM 技術(shù),來推動行業(yè)技術(shù)轉(zhuǎn)型。
 
基礎(chǔ)設(shè)施處理器(IPU)
 
IPU 是一種可編程的網(wǎng)絡(luò)設(shè)備,旨在使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開銷,并充分釋放性能價值。
 
英特爾基于 IPU 的架構(gòu)有以下主要優(yōu)勢:
 
 ●基礎(chǔ)設(shè)施功能和客戶工作負載的強分離使客戶能夠完全控制 CPU
 ●云運營商可以將基礎(chǔ)設(shè)施任務(wù)卸載到 IPU 上,更大化實現(xiàn) CPU 利用率和收益
 ●IPU 可以管理存儲流量,減少時延,同時通過無磁盤服務(wù)器架構(gòu)有效利用存儲容量。借助 IPU,客戶可以通過一個安全、可編程、穩(wěn)定的解決方案更好地利用資源,使其能夠平衡處理與存儲
 
英特爾認識到“單一產(chǎn)品無法滿足所有需求”,因此對其 IPU 架構(gòu)進行了更深入的研究,并推出了以下 IPU 家族的新成員——均為應(yīng)對多樣化數(shù)據(jù)中心的復雜性而設(shè)計。
 
Mount Evans 是英特爾的首個 ASIC IPU。Mount Evans 是與一家一流云服務(wù)提供商共同設(shè)計和開發(fā)的,它融合了多代 FPGA SmartNIC 的經(jīng)驗。
 
 ●超大規(guī)模就緒,提供高性能網(wǎng)絡(luò)和存儲虛擬化卸載,同時保持高度控制
 ●提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎,支持防火墻和虛擬路由等用例
 ●使用硬件加速的 NVMe 存儲接口,該接口擴展自英特爾傲騰技術(shù),以模擬 NVMe 設(shè)備
 ●采用英特爾® 高性能 Quick Assist 技術(shù),部署高級加密和壓縮加速
可使用現(xiàn)有普遍部署的 DPDK、SPDK 等軟件環(huán)境進行編程,并且可以采用英特爾 Barefoot Switch 部門開創(chuàng)的 P4 編程語言來配置管線
 
Oak Springs Canyon是一個 IPU 參考平臺,基于英特爾® 至強 D 處理器(Intel® Xeon-D)和擁有業(yè)界領(lǐng)先的功率、效率、性能的英特爾® Agilex™ FPGA 構(gòu)建:
 
 ●卸載 Open Virtual Switch(OVS)等網(wǎng)絡(luò)虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能,并提供硬化的加密模塊,提供更安全、高速的 2x 100Gb 以太網(wǎng)網(wǎng)絡(luò)接口
 ●讓英特爾的合作伙伴和客戶能夠使用英特爾® 開放式 FPGA 開發(fā)堆棧(英特爾® OFS)定制其解決方案,這是一款可擴展、開源軟件和硬件基礎(chǔ)設(shè)施
 ●使用現(xiàn)有普遍部署的軟件環(huán)境進行編程,包括已在 x86 上優(yōu)化的 DPDK 和 SPDK
 
 
英特爾 N6000 加速開發(fā)平臺,代號為“Arrow Creek”,是專為搭載至強服務(wù)器設(shè)計的 SmartNIC。其特性包括:
 
 ●在功耗、效率和性能方面處于行業(yè)領(lǐng)先地位的英特爾 Agilex FPGA。用于高性能的 100GB 網(wǎng)絡(luò)加速的英特爾以太網(wǎng) 800 系列控制器
 ●支持多種基礎(chǔ)設(shè)施工作負載,使通信服務(wù)提供商(CoSP)能夠提供靈活的加速工作負載,如 Juniper Contrail、OVS 和 SRv6,它以英特爾 PAC-N3000 的成功為基礎(chǔ),該產(chǎn)品已在部分業(yè)界一流的 CoSP 中部署。
 
 
Xe HPC 和 Ponte Vecchio
 
Ponte Vecchio 基于 Xe HPC 微架構(gòu),提供業(yè)界領(lǐng)先的每秒浮點運算次數(shù)(FLOPs)和計算密度,以加速 AI、HPC 和高級分析工作負載。英特爾公布了 Xe HPC 微架構(gòu)的 IP 模塊信息;包括每個 Xe 核的 8 個矢量和矩陣引擎(稱為 XMX Xe Matrix eXtensions);切片和堆棧信息;以及包括計算、基礎(chǔ)和 Xe Link 單元的處理節(jié)點的單元信息。在架構(gòu)日上,英特爾表示,早期的 Ponte Vecchio 芯片展示了領(lǐng)先的性能,在流行的 AI 基準測試中創(chuàng)造了推理和訓練吞吐量的行業(yè)記錄。1 英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量,高于5 TBps 的內(nèi)存結(jié)構(gòu)帶寬,以及高于 2 TBps 的連接帶寬。同時,英特爾分享了一段演示視頻,展示了ResNet推理性能超過 43,000 張圖像/秒和超過每秒 3400 張圖像/秒的 ResNet 訓練,并且這兩項性能都有望實現(xiàn)行業(yè)領(lǐng)先。1
 
Ponte Vecchio 由多個復雜的設(shè)計組成,這些設(shè)計以單元形式呈現(xiàn),然后通過嵌入式多芯片互連橋接(EMIB)單元進行組裝,實現(xiàn)單元之間的低功耗、高速連接。這些設(shè)計均被集成于 Foveros 封裝中,為提高功率和互連密度形成有源芯片的 3D 堆疊。高速 MDFI 互連允許 1 到 2 個堆棧的擴展。
 
計算單元是一個密集的多個 Xe 內(nèi)核,是 Ponte Vecchio 的核心。
 
 ●一塊單元有 8 個 Xe 內(nèi)核,總共有 4MB 一級緩存,是提供高效計算的關(guān)鍵
 ●基于臺積電先進的 N5 制程工藝技術(shù)
 ●英特爾已通過設(shè)計基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法,為測試和驗證該節(jié)點的單元鋪平了道路
 ●該單元具有極其緊湊的 36 微米凸點間距,可與 Foveros 進行 3D 堆疊
 
基礎(chǔ)單元是 Ponte Vecchio 的連接組織。它是基于 Intel 7 制程工藝的大型芯片,針對 Foveros 技術(shù)進行了優(yōu)化。
 
 ●基礎(chǔ)單元是所有復雜的 I/O 和高帶寬組件與 SoC 基礎(chǔ)設(shè)施——PCIe Gen5、HBM2e 內(nèi)存、連接不同單元 MDFI 鏈路和 EMIB 橋接
 ●采用高 2D 互連的超高帶寬 3D 連接時延很低,使其成為一臺無限連接的機器
 ●英特爾技術(shù)開發(fā)團隊致力于滿足帶寬、凸點間距和信號完整性方面的要求
 
Xe 鏈路單元提供了 GPU 之間的連接,支持每單元 8 個鏈路。
 
 ●對 HPC 和 AI 計算的擴展至關(guān)重要
 ●旨在實現(xiàn)支持高達 90G 的更高速 SerDes
 ●該單元已被添加到“極光”(Aurora)百億億次級超級計算機的擴展解決方案中
 
Ponte Vecchio 已走下生產(chǎn)線進行上電驗證,并已開始向客戶提供限量樣品。Ponte Vecchio 預(yù)計將于 2022 年面向 HPC 和 AI 市場發(fā)布。
 
oneAPI
 
oneAPI 提供了一個開放、規(guī)范、跨架構(gòu)和跨廠商的統(tǒng)一軟件棧,讓開發(fā)者能夠擺脫專有語言和編程模型的束縛。目前,NVIDIA GPU、AMD GPU 和 Arm CPU 均有 Data Parallel C++(DPC++)和 oneAPI 庫。oneAPI 正在被獨立軟件提供商、操作系統(tǒng)供應(yīng)商、終端用戶和學術(shù)界廣泛采用。行業(yè)領(lǐng)導者正在協(xié)助發(fā)展該規(guī)范,以支持更多的用例和架構(gòu)。同時,英特爾還提供了商業(yè)產(chǎn)品,包括基本的 oneAPI 基礎(chǔ)工具包,它在規(guī)范語言和庫之外增加了編譯器、分析器、調(diào)試器和移植工具。
 
oneAPI 提供跨架構(gòu)的兼容性,提高了開發(fā)人員的生產(chǎn)力和創(chuàng)新能力:
 
 ●英特爾的 oneAPI 工具包擁有超過 20 萬次單獨安裝
 ●市場上部署的 300 多個應(yīng)用程序采用了 oneAPI 的統(tǒng)一編程模型
 ●超過 80 個 HPC 和 AI 應(yīng)用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構(gòu)上運行
 ●5 月份發(fā)布的 1 版臨時規(guī)范為深度學習工作負載和高級光線追蹤庫添加了新的圖形接口,預(yù)計將在年底完成
 
 
免責聲明:本文為轉(zhuǎn)載文章,轉(zhuǎn)載此文目的在于傳遞更多信息,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請電話或者郵箱聯(lián)系小編進行侵刪。
 
 
推薦閱讀:
開關(guān)電源的LLC 拓撲
如何理解FIT和MTBF
利用SiC FET降低電磁干擾和開關(guān)損耗
解惑:耦合在電路中的作用?為什么需要耦合?
2021第六屆深圳大灣區(qū)國際新能源汽車技術(shù)展覽會將于12月8日開幕
特別推薦
技術(shù)文章更多>>
技術(shù)白皮書下載更多>>
熱門搜索
?

關(guān)閉

?

關(guān)閉