資訊
`
2025/7/15 13:51
數(shù)據(jù)中心“流量風(fēng)暴”來(lái)襲?揭秘RoCEv2的隱形守護(hù)者:PFC
0
0

想象一下,在AI訓(xùn)練、高性能計(jì)算、分布式存儲(chǔ)的“心臟”——數(shù)據(jù)中心網(wǎng)絡(luò)里,RoCEv2(RDMA over Converged Ethernet v2)正以驚人的速度傳輸著海量數(shù)據(jù)。它繞過(guò)了操作系統(tǒng)內(nèi)核,讓應(yīng)用直通網(wǎng)卡,速度飆升!但高速也伴隨著風(fēng)險(xiǎn):網(wǎng)絡(luò)一旦擁塞,數(shù)據(jù)包丟失,整個(gè)高性能應(yīng)用就可能“翻車”。這時(shí),一個(gè)低調(diào)卻至關(guān)重要的守護(hù)者站了出來(lái):PFCPriority-based Flow Control,基于優(yōu)先級(jí)的流量控制)。它就像網(wǎng)絡(luò)流量的“精密剎車系統(tǒng)”,確保關(guān)鍵數(shù)據(jù)永不丟失。今天,就讓我們一起揭開(kāi)PFC的神秘面紗!

什么是PFC

PFC是一種以Ethernet為基礎(chǔ)的流控機(jī)制,它允許以優(yōu)先級(jí)(Priority)為單位,控制特定優(yōu)先級(jí)類別的網(wǎng)絡(luò)流量。簡(jiǎn)單來(lái)說(shuō),當(dāng)某個(gè)優(yōu)先級(jí)的流量出現(xiàn)擁堵或包溢出時(shí),PFC可以暫停對(duì)應(yīng)優(yōu)先級(jí)的流量,避免數(shù)據(jù)丟失,確保關(guān)鍵數(shù)據(jù)的穩(wěn)定傳輸。

PFC如何工作?一場(chǎng)精妙的“反壓”對(duì)話

PFC的交互本質(zhì)是接收方(Rx)向發(fā)送方(Tx)發(fā)送“暫停(Pause)” 或“恢復(fù)(Resume)” 指令。讓我們分解這個(gè)過(guò)程:

1. 場(chǎng)景:接收端交換機(jī)端口(或網(wǎng)卡)的特定優(yōu)先級(jí)隊(duì)列的緩沖區(qū)即將被填滿(達(dá)到預(yù)設(shè)閾值)。

2. 發(fā)出警報(bào)(Pause):

接收端檢測(cè)到擁塞的優(yōu)先級(jí)隊(duì)列;

立即構(gòu)造一個(gè)PFC Pause Frame;

在報(bào)文中明確指定需要暫停的優(yōu)先級(jí)(如優(yōu)先級(jí)3)以及需要暫停的時(shí)間長(zhǎng)度(Pause Time);

將這個(gè)Pause Frame發(fā)送給直接相連的上游設(shè)備(發(fā)送端交換機(jī)或服務(wù)器網(wǎng)卡)。

3. 執(zhí)行剎車(Hold):

上游設(shè)備(Tx)收到PFC Pause Frame;

解析報(bào)文,得知需要暫停哪個(gè)優(yōu)先級(jí)(如優(yōu)先級(jí)3)的流量發(fā)送;

立即停止發(fā)送該優(yōu)先級(jí)的數(shù)據(jù)幀;

暫停的持續(xù)時(shí)間由報(bào)文中的Pause Time字段指定(單位是512 bit time,可換算成時(shí)間)。

4. 緩解與恢復(fù)(Resume):

接收端緩沖區(qū)被排空,擁塞解除;

接收端可以發(fā)送一個(gè)新的PFC Pause Frame,將對(duì)應(yīng)優(yōu)先級(jí)的Pause Time設(shè)置為0。這就是“恢復(fù)(Resume)”信號(hào);

上游設(shè)備(Tx)收到Pause Time = 0的報(bào)文后,立即恢復(fù)發(fā)送該優(yōu)先級(jí)的數(shù)據(jù)幀。

PFC Pause Frame報(bào)文長(zhǎng)什么樣呢

理解了交互,我們?cè)賮?lái)看看這個(gè)關(guān)鍵的“剎車指令”——PFC Pause Frame的報(bào)文結(jié)構(gòu)(基于IEEE 802.1Qbb標(biāo)準(zhǔn)):

關(guān)鍵字段解析:

Priority Enable Vector (2字節(jié)):這是控制開(kāi)關(guān)。例如,它的值是 0x04 (二進(jìn)制 0000 0100),表示只對(duì)優(yōu)先級(jí)2 (因?yàn)锽it2=1)進(jìn)行流量控制。其他優(yōu)先級(jí)不受影響。

Pause Time (每個(gè)優(yōu)先級(jí)2字節(jié)):這是剎車時(shí)長(zhǎng)。對(duì)于Priority Enable Vector中啟用的優(yōu)先級(jí),其對(duì)應(yīng)的Time字段值表示請(qǐng)求發(fā)送方暫停該優(yōu)先級(jí)流量的時(shí)長(zhǎng)。Time = 0 表示“立即恢復(fù)”發(fā)送該優(yōu)先級(jí)流量。Time >0表示暫停的時(shí)長(zhǎng)(單位是512 bit time,在10Gbps鏈路上,1個(gè)512 bit time = 51.2 ns)。

Opcode (01-01):明確這是PFC幀,而不是普通的PAUSE幀(Opcode為00-01)。

PFC 應(yīng)用場(chǎng)景

PFC在實(shí)際數(shù)據(jù)中心環(huán)境中的應(yīng)用場(chǎng)景極為廣泛,主要包括:

AI/ML訓(xùn)練集群:保障GPU間高速RDMA通信不丟包、低延遲;

融合基礎(chǔ)架構(gòu)/HCI:保證虛擬化存儲(chǔ)(vSAN, Ceph等)后端網(wǎng)絡(luò)穩(wěn)定高效;

高性能分布式存儲(chǔ):確保存儲(chǔ)節(jié)點(diǎn)間數(shù)據(jù)同步的可靠性;

金融交易系統(tǒng):滿足微秒級(jí)交易延遲要求。

PFC 實(shí)戰(zhàn)測(cè)試:如何驗(yàn)證你的“剎車系統(tǒng)”可靠

為了確保PFC功能的正確性和有效性,測(cè)試是非常重要的一環(huán)。以下使用信而泰測(cè)試儀表X5-400G設(shè)備對(duì)PFC功能進(jìn)行測(cè)試:

測(cè)試拓?fù)浜椭饕渲萌缦滤荆?/strong>

如上圖所示,測(cè)試儀模擬兩端口向一個(gè)端口發(fā)流的擁塞場(chǎng)景,從而來(lái)驗(yàn)證DUT的PFC功能,被測(cè)設(shè)備使用華三的s9825-8C-G;

1. 占用3個(gè)端口,port1和port2用于發(fā)送QP流量,port3用于接收,使用RoCEv2向?qū)В鼓躊FC,以Priority 5 為例;

2. 配置RoCEv2 Server:配置DSCP值:40,配置ipv4地址與DUT對(duì)應(yīng),阻塞端口port3的QP Block數(shù)量設(shè)置為2;(需要保證源QP Block數(shù)量與目標(biāo)QP Block數(shù)量一致)

3. 選擇流端點(diǎn):勾選上server1和server2打向server3的QP block,點(diǎn)擊完成即可;

4. 在流模板處查看,使用向?qū)瓿膳浜蠛竽J(rèn)是生成雙向流量,去使能port3發(fā)送的流量即可;

5. 先將Port 1和Port2打往Port3的線速流量運(yùn)行起來(lái),此時(shí)可以觀察到port1和port2的發(fā)送速率為100%,然后將DUT使能PFC功能后,可以觀察到兩端口流量的發(fā)送速率降速至50%;

6. 測(cè)試儀PFC報(bào)文統(tǒng)計(jì)查看,可統(tǒng)計(jì)到DUT發(fā)送的第5優(yōu)先級(jí)的PFC報(bào)文;

7. Port 1和Port 2上啟動(dòng)捕獲,其中pause time包含0和65535的PFC報(bào)文。

DarYu-X/E系列網(wǎng)絡(luò)測(cè)試儀

信而泰現(xiàn)已推出X2-100G-12QSFP28、X5-400G高密度以及E2-100G-4QSFP28-Q測(cè)試模塊,均支持測(cè)試RoCEv2協(xié)議,支持100G/200G/400G的多速率以太網(wǎng)測(cè)試,信而泰的RoCEv2深度測(cè)試,為網(wǎng)絡(luò)設(shè)備商、云服務(wù)商及企業(yè)用戶提供了不可或缺的工具,有效識(shí)別瓶頸、優(yōu)化配置,極大提升RoCEv2部署信心,是推動(dòng)高性能無(wú)損網(wǎng)絡(luò)從架構(gòu)設(shè)計(jì)走向大規(guī)模、高效率實(shí)際應(yīng)用的關(guān)鍵環(huán)節(jié)。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫得不太好

C114簡(jiǎn)介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷