泉州seo-泉州網(wǎng)站建設(shè)公司電商平臺(tái)的營(yíng)銷方式
ByteTrack:通過關(guān)聯(lián)每個(gè)檢測(cè)框進(jìn)行多對(duì)象跟蹤
摘要
翻譯
多對(duì)象跟蹤(MOT)旨在估計(jì)視頻中對(duì)象的邊界框和身份。大多數(shù)方法通過關(guān)聯(lián)分?jǐn)?shù)高于閾值的檢測(cè)框來獲取身份。檢測(cè)分?jǐn)?shù)低的物體,例如被遮擋的物體被簡(jiǎn)單地丟棄,這帶來了不可忽略的真實(shí)物體丟失和碎片軌跡。為了解決這個(gè)問題,我們提出了一種簡(jiǎn)單、有效和通用的關(guān)聯(lián)方法,通過關(guān)聯(lián)幾乎每個(gè)檢測(cè)框而不是僅關(guān)聯(lián)高分檢測(cè)框來進(jìn)行跟蹤。對(duì)于低分檢測(cè)框,我們利用它們與軌跡的相似性來恢復(fù)真實(shí)對(duì)象并過濾掉背景檢測(cè)。當(dāng)應(yīng)用于 9 個(gè)不同的最先進(jìn)的跟蹤器時(shí),我們的方法在 IDF1 分?jǐn)?shù)上實(shí)現(xiàn)了從 1 到 10 分的持續(xù)改進(jìn)。為了發(fā)揮 MOT 的最先進(jìn)性能,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單而強(qiáng)大的跟蹤器,名為 ByteTrack。我們首次在單 V100 GPU 上以 30 FPS 的運(yùn)行速度在 MOT17 測(cè)試集上實(shí)現(xiàn)了 80.3 MOTA、77.3 IDF1 和 63.1 HOTA。 ByteTrack 還在 MOT20、HiEve 和 BDD100K 跟蹤基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能。源代碼、帶有部署版本的預(yù)訓(xùn)練模型以及應(yīng)用于其他跟蹤器的教程已在 https://github.com/ifzhang/ByteTrack 發(fā)布。
圖 1. MOT17 測(cè)試集上不同跟蹤器的 MOTA-IDF1-FPS 比較。橫軸為FPS(運(yùn)行速度),縱軸為MOTA,圓的半徑為IDF1。我們的 ByteTrack 在 MOT17 測(cè)試集上以 30 FPS 的運(yùn)行速度實(shí)現(xiàn)了 80.3 MOTA、77.3 IDF1,優(yōu)于之前所有的跟蹤器。詳細(xì)信息如表 4 所示。
精讀
**現(xiàn)有問題:**檢測(cè)分?jǐn)?shù)低的物體(如被遮擋)被簡(jiǎn)單丟棄,帶來了物體丟失和碎片化的軌跡。
**我們的方法:**通過關(guān)聯(lián)幾乎每個(gè)檢測(cè)框而不是僅關(guān)聯(lián)高分檢測(cè)框來進(jìn)行跟蹤。對(duì)于低分檢測(cè)框,我們利用它們與軌跡的相似性來恢復(fù)真實(shí)對(duì)象并過濾掉檢測(cè)到的背景。
**效果:**很好
1.引言
翻譯
檢測(cè)跟蹤是當(dāng)前多目標(biāo)跟蹤(MOT)最有效的范例。由于視頻中的場(chǎng)景復(fù)雜,檢測(cè)器很容易做出不完美的預(yù)測(cè)。最先進(jìn)的 MOT 方法 [1–3, 6, 12, 18, 45, 59, 70, 72, 85] 需要處理檢測(cè)框中的真陽(yáng)性和假陽(yáng)性權(quán)衡,以消除低置信度檢測(cè)框[4, 40]。然而,這是消除所有低置信度檢測(cè)框的正確方法嗎?我們的答案是否定的:正如黑格爾所說,“合理的才是真實(shí)的;合理的才是真實(shí)的;合理的才是真實(shí)的”。真實(shí)的就是合理的。”低置信度檢測(cè)框有時(shí)表明物體的存在,例如被遮擋的物體。過濾掉這些物體會(huì)給 MOT 帶來不可逆的錯(cuò)誤,并帶來不可忽略的缺失檢測(cè)和碎片化軌跡。
圖 2 (a) 和 (b) 顯示了這個(gè)問題。在幀 t1 中,我們初始化了三個(gè)不同的 tracklet,因?yàn)樗鼈兊姆謹(jǐn)?shù)都高于 0.5。然而,在t2幀和t3幀中,當(dāng)發(fā)生遮擋時(shí),紅色軌跡的相應(yīng)檢測(cè)分?jǐn)?shù)變低,即0.8到0.4,然后0.4到0.1。這些檢測(cè)框被閾值機(jī)制消除,紅色軌跡相應(yīng)消失。然而,如果我們考慮每個(gè)檢測(cè)框,就會(huì)立即引入更多誤報(bào),例如圖 2 (a) 的幀 t3 中最右邊的框。據(jù)我們所知,MOT 中很少有方法 [30, 63] 能夠處理這種檢測(cè)困境。
圖 2.我們的方法示例,它將每個(gè)檢測(cè)框關(guān)聯(lián)起來。 (a) 顯示了所有檢測(cè)框及其分?jǐn)?shù)。 (b) 顯示了通過以前的方法獲得的軌跡,該軌跡將分?jǐn)?shù)高于閾值(即 0.5)的檢測(cè)框關(guān)聯(lián)起來。相同的盒子顏色代表相同的身份。 ? 顯示了通過我們的方法獲得的軌跡。虛線框表示使用卡爾曼濾波器先前軌跡的預(yù)測(cè)框。兩個(gè)低分檢測(cè)框基于大 IoU 與之前的軌跡正確匹配。
精讀
**觀點(diǎn):**現(xiàn)有的消除低置信度檢測(cè)的方法不合理!
**原因:**低置信度檢測(cè)框有時(shí)表明被遮擋的物體。過濾掉這些物體會(huì)給 MOT 帶來不可逆的錯(cuò)誤,并帶來不可忽略的缺失檢測(cè)和碎片化軌跡。
**我們提出的方法:**如圖2的c所示,可以將被遮擋的物體也檢測(cè)出來,并關(guān)聯(lián)軌跡成功。
翻譯
在本文中,我們發(fā)現(xiàn)與軌跡的相似性為區(qū)分低分檢測(cè)框中的對(duì)象和背景提供了強(qiáng)有力的線索。如圖2(c)所示,兩個(gè)低分檢測(cè)框通過運(yùn)動(dòng)模型的預(yù)測(cè)框與軌跡進(jìn)行匹配,從而正確地恢復(fù)了對(duì)象。同時(shí),背景框被刪除,因?yàn)樗鼪]有匹配的軌跡。
為了在匹配過程中充分利用從高分到低分的檢測(cè)框,我們提出了一種簡(jiǎn)單有效的關(guān)聯(lián)方法 BYTE,命名為每個(gè)檢測(cè)框是 tracklet 的基本單位,就像計(jì)算機(jī)程序中的字節(jié)一樣,我們的跟蹤方法重視每個(gè)詳細(xì)的檢測(cè)框。我們首先根據(jù)運(yùn)動(dòng)相似性或外觀相似性將高分檢測(cè)框與軌跡進(jìn)行匹配。與[6]類似,我們采用卡爾曼濾波器[29]來預(yù)測(cè)新幀中軌跡的位置。相似度可以通過預(yù)測(cè)框和檢測(cè)框的 IoU 或 Re-ID 特征距離來計(jì)算。圖2(b)正是第一次匹配后的結(jié)果。然后,我們使用相同的運(yùn)動(dòng)相似度在未匹配的軌跡(即紅色框中的軌跡)和低分檢測(cè)框之間執(zhí)行第二次匹配。圖2?顯示了第二次匹配后的結(jié)果。檢測(cè)分?jǐn)?shù)較低的被遮擋人與之前的軌跡正確匹配,并且背景(在圖像的右側(cè)部分)被移除。
作為目標(biāo)檢測(cè)和關(guān)聯(lián)的集成主題,MOT 的理想解決方案絕不是檢測(cè)器和以下關(guān)聯(lián);此外,其連接區(qū)域的精心設(shè)計(jì)也很重要。 BYTE的創(chuàng)新之處在于檢測(cè)和關(guān)聯(lián)的結(jié)合領(lǐng)域,其中低分檢測(cè)框是促進(jìn)兩者的橋梁。受益于這種集成創(chuàng)新,當(dāng) BYTE 應(yīng)用于 9 種不同的最先進(jìn)的跟蹤器時(shí),包括基于 Re-ID 的跟蹤器 [33,47,69,85]、基于運(yùn)動(dòng)的跟蹤器 [71, 89]、鏈?zhǔn)礁櫰骰?[48] 和基于注意力的 [59, 80],幾乎所有指標(biāo)都取得了顯著的改進(jìn),包括 MOTA、IDF1 分?jǐn)?shù)和 ID 開關(guān)。例如,我們將 CenterTrack [89] 的 MOTA 從 66.1 增加到 67.4,IDF1 從 64.2 增加到 74.0,并將 MOT17 的半驗(yàn)證集上的 ID 從 528 減少到 144。
為了推動(dòng) MOT 的最先進(jìn)性能,我們提出了一個(gè)簡(jiǎn)單而強(qiáng)大的跟蹤器,名為 ByteTrack。我們采用最新的高性能檢測(cè)器 YOLOX [24] 來獲取檢測(cè)框并將它們與我們提出的 BYTE 相關(guān)聯(lián)。在 MOT 挑戰(zhàn)上,ByteTrack 在 MOT17 [44] 和 MOT20 [17] 上均排名第一,在 MOT17 上的 V100 GPU 上以 30 FPS 的運(yùn)行速度實(shí)現(xiàn)了 80.3 MOTA、77.3 IDF1 和 63.1 HOTA,在很多情況下達(dá)到了 77.8 MOTA、75.2 IDF1 和 61.3 HOTA。 MOT20 更擁擠。 ByteTrack 還在 HiEve [37] 和 BDD100K [79] 跟蹤基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。我們希望 ByteTrack 的效率和簡(jiǎn)單性能夠使其在社交計(jì)算等實(shí)際應(yīng)用中具有吸引力。
精讀
**我們的方法:**將“與軌跡的相似性”作為關(guān)聯(lián)的區(qū)分標(biāo)準(zhǔn)之一。
BYTE:
- 我們首先根據(jù)運(yùn)動(dòng)相似性或外觀相似性將高分檢測(cè)框與軌跡進(jìn)行匹配。
- 采用卡爾曼濾波器預(yù)測(cè)新幀中的軌跡位置。
- 第一次匹配:相似度關(guān)聯(lián)通過預(yù)測(cè)框和檢測(cè)框的 IoU 或 Re-ID 特征距離來計(jì)算。
- 第二次匹配:使用相同的運(yùn)動(dòng)相似度在未匹配的軌跡(即紅色框中的軌跡)和低分檢測(cè)框之間執(zhí)行第二次匹配
**BYTE的優(yōu)勢(shì):**BYTE的這個(gè)簡(jiǎn)單的將低分檢測(cè)框作為關(guān)鍵橋梁的創(chuàng)新使得別的跟蹤器也有了很好的長(zhǎng)進(jìn)。
**檢測(cè)模型:**YOLOX
ByteTrack:效果最先進(jìn)。
2.相關(guān)工作
2.1 MOT中的目標(biāo)檢測(cè)
翻譯
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中最活躍的主題之一,是多目標(biāo)跟蹤的基礎(chǔ)。 MOT17數(shù)據(jù)集[44]提供了DPM[22]、Faster R-CNN[50]和SDP[77]等流行檢測(cè)器獲得的檢測(cè)結(jié)果。大量方法[3,9,12,14,28,74,91]專注于基于這些給定的檢測(cè)結(jié)果來提高跟蹤性能。
**通過檢測(cè)進(jìn)行跟蹤。**隨著目標(biāo)檢測(cè)的快速發(fā)展[10,23,26,35,49,50,58,60],越來越多的方法開始利用更強(qiáng)大的檢測(cè)器來獲得更高的跟蹤性能。一級(jí)目標(biāo)檢測(cè)器 RetinaNet [35] 開始被 [39, 48] 等多種方法采用。 CenterNet [90] 因其簡(jiǎn)單性和高效性而成為大多數(shù)方法 [63、65、67、71、85、87、89] 采用的最流行的檢測(cè)器。 YOLO系列檢測(cè)器[8, 49]也因其精度和速度的出色平衡而被大量方法[15,33,34,69]采用。這些方法大多數(shù)直接使用單個(gè)圖像上的檢測(cè)框進(jìn)行跟蹤。
然而,正如視頻對(duì)象檢測(cè)方法[41, 62]所指出的那樣,當(dāng)視頻序列中發(fā)生遮擋或運(yùn)動(dòng)模糊時(shí),丟失檢測(cè)和得分非常低的檢測(cè)的數(shù)量開始增加。因此,通常利用前一幀的信息來增強(qiáng)視頻檢測(cè)性能。
**通過跟蹤檢測(cè)。**還可以采用跟蹤來幫助獲得更準(zhǔn)確的檢測(cè)框。一些方法[12-15,53,91]利用單目標(biāo)跟蹤(SOT)[5]或卡爾曼濾波器[29]來預(yù)測(cè)下一幀中軌跡的位置,并將預(yù)測(cè)框與檢測(cè)框融合以增強(qiáng)檢測(cè)結(jié)果。其他方法 [34, 86] 利用前一幀中的跟蹤框來增強(qiáng)下一幀的特征表示。最近,基于 Transformer 的 [20, 38, 64, 66] 檢測(cè)器 [11, 92] 因其在幀之間傳播框的強(qiáng)大能力而被多種方法 [42, 59, 80] 采用。我們的方法還利用與軌跡的相似性來增強(qiáng)檢測(cè)框的可靠性。
在通過各種檢測(cè)器獲得檢測(cè)框后,大多數(shù)MOT方法[33,39,47,59,69,71,85]僅將高分檢測(cè)框保留一個(gè)閾值,即0.5,并將這些框用作數(shù)據(jù)的輸入。這是因?yàn)榈头謾z測(cè)框包含許多背景,這會(huì)損害跟蹤性能。然而,我們觀察到許多被遮擋的物體可以被正確檢測(cè)到,但得分較低。為了減少丟失檢測(cè)并保持軌跡的持久性,我們保留所有檢測(cè)框并在每個(gè)檢測(cè)框之間進(jìn)行關(guān)聯(lián)。
精讀
MOT中的目標(biāo)檢測(cè)相關(guān)研究:
- 通過檢測(cè)進(jìn)行跟蹤:
- 例子:RetinaNet、YOLO系列
- 可改進(jìn)的方向:利用前一幀的信息來增強(qiáng)視頻這一幀的檢測(cè)性能。
- 通過跟蹤檢測(cè):
- 利用前一幀的來增強(qiáng)下一幀的:利用單目標(biāo)跟蹤(SOT)[5]或卡爾曼濾波器[29]來預(yù)測(cè)下一幀中軌跡的位置,并將預(yù)測(cè)框與檢測(cè)框融合以增強(qiáng)檢測(cè)結(jié)果。
- 基于 Transformer 的 [20, 38, 64, 66] 檢測(cè)器 [11, 92] 因其在幀之間傳播框的強(qiáng)大能力而被多種方法 [42, 59, 80] 采用。
- 我們的方法:
- 我們觀察到:許多被遮擋的物體可以被正確檢測(cè)到,但得分較低。
- 我們的方法原理:為了減少丟失檢測(cè)并保持軌跡的持久性,我們保留所有檢測(cè)框并在每個(gè)檢測(cè)框之間進(jìn)行關(guān)聯(lián)。
2.2 數(shù)據(jù)關(guān)聯(lián)
翻譯
數(shù)據(jù)關(guān)聯(lián)是多目標(biāo)跟蹤的核心,它首先計(jì)算軌跡和檢測(cè)框之間的相似度,并根據(jù)相似度利用不同的策略來匹配它們。
**相似性度量。**位置、動(dòng)作和外觀是關(guān)聯(lián)的有用線索。 SORT [6] 以一種非常簡(jiǎn)單的方式結(jié)合了位置和運(yùn)動(dòng)提示。它首先采用卡爾曼濾波器[29]來預(yù)測(cè)新幀中軌跡的位置,然后計(jì)算檢測(cè)框和預(yù)測(cè)框之間的 IoU 作為相似度。最近的一些方法[59,71,89]設(shè)計(jì)網(wǎng)絡(luò)來學(xué)習(xí)對(duì)象運(yùn)動(dòng)并在相機(jī)運(yùn)動(dòng)較大或幀速率較低的情況下獲得更穩(wěn)健的結(jié)果。短距離匹配中位置和運(yùn)動(dòng)相似度準(zhǔn)確。外觀相似度有助于遠(yuǎn)距離匹配。物體被遮擋很長(zhǎng)一段時(shí)間后,可以利用外觀相似度重新識(shí)別物體。外觀相似度可以通過Re-ID特征的余弦相似度來衡量。 DeepSORT [70]采用獨(dú)立的Re-ID模型從檢測(cè)框中提取外觀特征。最近,聯(lián)合檢測(cè)和 Re-ID 模型[33,39,47,69,84,85]由于其簡(jiǎn)單性和效率而變得越來越流行。
**匹配策略。**相似度計(jì)算后,匹配策略為對(duì)象分配身份。這可以通過匈牙利算法[31]或貪婪賦值[89]來完成。 SORT [6] 通過一次匹配將檢測(cè)框與軌跡進(jìn)行匹配。 DeepSORT [70]提出了一種級(jí)聯(lián)匹配策略,該策略首先將檢測(cè)框與最近的軌跡進(jìn)行匹配,然后與丟失的軌跡進(jìn)行匹配。 MOTDT [12]首先利用外觀相似度進(jìn)行匹配,然后利用 IoU 相似度來匹配未匹配的軌跡。 QDTrack[47]通過雙向softmax運(yùn)算將外觀相似度轉(zhuǎn)化為概率,并采用最近鄰搜索來完成匹配。注意機(jī)制[64]可以直接在幀之間傳播框并隱式地執(zhí)行關(guān)聯(lián)。最近的方法(例如[42, 80])提出了跟蹤查詢來查找后續(xù)幀中被跟蹤對(duì)象的位置。匹配是在注意力交互過程中隱式執(zhí)行的,不使用匈牙利算法。
所有這些方法都集中在如何設(shè)計(jì)更好的關(guān)聯(lián)方法。然而,我們認(rèn)為檢測(cè)框的使用方式?jīng)Q定了數(shù)據(jù)關(guān)聯(lián)的上限,我們關(guān)注的是如何在匹配過程中從高分到低分充分利用檢測(cè)框。
精讀
數(shù)據(jù)關(guān)聯(lián)相關(guān)研究:
- 相似度關(guān)聯(lián):
- SORT采用卡爾曼濾波器來預(yù)測(cè)新幀中軌跡的位置,然后計(jì)算檢測(cè)框和預(yù)測(cè)框之間的 IoU 作為相似度判斷。
- DeepSORT 采用獨(dú)立的Re-ID模型從檢測(cè)框中提取外觀特征,融合外觀和運(yùn)動(dòng)進(jìn)行相似度判斷。
- 匹配策略(匹配可以通過匈牙利算法[31]或貪婪賦值[89]來完成):
- SORT [6] 通過一次匹配將檢測(cè)框與軌跡進(jìn)行匹配。
- DeepSORT [70]提出了一種級(jí)聯(lián)匹配策略,該策略首先將檢測(cè)框與最近的軌跡進(jìn)行匹配,然后與丟失的軌跡進(jìn)行匹配。
- MOTDT [12]首先利用外觀相似度進(jìn)行匹配,然后利用 IoU 相似度來匹配未匹配的軌跡。
- QDTrack[47]通過雙向softmax運(yùn)算將外觀相似度轉(zhuǎn)化為概率,并采用最近鄰搜索來完成匹配。
- …
- 我們的研究:
- 我們認(rèn)為:檢測(cè)框的使用方式?jīng)Q定了數(shù)據(jù)關(guān)聯(lián)的上限
- 我們關(guān)注:如何在匹配過程中從高分到低分充分利用檢測(cè)框
3.BYTE
翻譯
我們提出了一種簡(jiǎn)單、有效且通用的數(shù)據(jù)關(guān)聯(lián)方法,BYTE。與之前的僅保留高分檢測(cè)框的方法[33,47,69,85]不同,我們保留了幾乎每個(gè)檢測(cè)框并將它們分為高分檢測(cè)框和低分檢測(cè)框。我們首先將高分檢測(cè)框與軌跡相關(guān)聯(lián)。一些軌跡無法匹配,因?yàn)樗鼈兣c適當(dāng)?shù)母叻謾z測(cè)框不匹配,這通常在發(fā)生遮擋、運(yùn)動(dòng)模糊或大小變化時(shí)發(fā)生。然后,我們將低分檢測(cè)框和這些不匹配的軌跡關(guān)聯(lián)起來,以恢復(fù)低分檢測(cè)框中的對(duì)象并同時(shí)過濾掉背景。 BYTE的偽代碼如算法1所示。
BYTE 的輸入是視頻序列 V,以及對(duì)象檢測(cè)器 Det。我們還設(shè)置了一個(gè)檢測(cè)分?jǐn)?shù)閾值 τ 。 BYTE 的輸出是視頻的軌跡 T,每個(gè)軌道包含每個(gè)幀中對(duì)象的邊界框和標(biāo)識(shí)。
對(duì)于視頻中的每一幀,我們使用檢測(cè)器 Det 預(yù)測(cè)檢測(cè)框和分?jǐn)?shù)。我們根據(jù)檢測(cè)分?jǐn)?shù)閾值 τ 將所有檢測(cè)框分為兩部分 Dhigh 和 Dlow 。對(duì)于得分高于τ的檢測(cè)框,我們將它們放入高分檢測(cè)框Dhigh中。對(duì)于分?jǐn)?shù)低于 τ 的檢測(cè)框,我們將它們放入低分檢測(cè)框 Dlow(算法 1 中的第 3 至 13 行)。
在分離低分檢測(cè)框和高分檢測(cè)框后,我們采用卡爾曼濾波器來預(yù)測(cè) T 中每個(gè)軌道的當(dāng)前幀中的新位置(算法 1 中的第 14 到 16 行)。
在高分檢測(cè)框Dhigh和所有軌道T(包括丟失軌道Tlost)之間執(zhí)行第一次關(guān)聯(lián)。相似度#1 可以通過檢測(cè)框 Dhigh 和軌道 T 的預(yù)測(cè)框之間的 IoU 或 Re-ID 特征距離來計(jì)算。然后,我們采用匈牙利算法[31]來完成基于相似度的匹配。我們將不匹配的檢測(cè)保留在 Dremain 中,將不匹配的軌跡保留在 Tremain 中(算法 1 中的第 17 到 19 行)。
BYTE具有高度的靈活性,可以兼容其他不同的關(guān)聯(lián)方式。例如,當(dāng)BYTE與FairMOT[85]結(jié)合時(shí),算法1中的第一個(gè)關(guān)聯(lián)中添加了Re-ID特征,其他相同。在實(shí)驗(yàn)中,我們將 BYTE 應(yīng)用于 9 個(gè)不同的最先進(jìn)的跟蹤器,并在幾乎所有指標(biāo)上都取得了顯著的改進(jìn)。
在第一次關(guān)聯(lián)之后,在低分檢測(cè)框Dlow和剩余軌跡Tremain之間執(zhí)行第二次關(guān)聯(lián)。我們將不匹配的軌跡保留在 Tre?remain 中,并刪除所有不匹配的低分檢測(cè)框,因?yàn)槲覀儗⑺鼈円暈楸尘啊?(算法 1 中的第 20 至 21 行)。我們發(fā)現(xiàn)在第二個(gè)關(guān)聯(lián)中單獨(dú)使用 IoU 作為相似度#2 很重要,因?yàn)榈头謾z測(cè)框通常包含嚴(yán)重的遮擋或運(yùn)動(dòng)模糊,并且外觀特征不可靠。因此,當(dāng)將 BYTE 應(yīng)用于其他基于 Re-ID 的跟蹤器 [47,69,85] 時(shí),我們?cè)诘诙€(gè)關(guān)聯(lián)中不采用外觀相似性。
關(guān)聯(lián)后,不匹配的軌跡將從軌跡中刪除。為了簡(jiǎn)單起見,我們沒有在算法1中列出軌道重生[12,70,89]的過程。實(shí)際上,遠(yuǎn)程關(guān)聯(lián)有必要保留曲目的身份。對(duì)于第二次關(guān)聯(lián)后仍保留的不匹配的軌跡Tre,我們將它們放入Tlost 中。對(duì)于 Tlost 中的每個(gè)軌道,只有當(dāng)它存在超過一定數(shù)量的幀(即 30)時(shí),我們才將其從軌道 T 中刪除。否則,我們將丟失的軌跡 Tlost 保留在 T 中(算法 1 中的第 22 行)。最后,我們?cè)诘谝淮侮P(guān)聯(lián)后從不匹配的高分檢測(cè)框 Dremain 中初始化新軌跡。 (算法 1 中的第 23 至 27 行)。每個(gè)單獨(dú)幀的輸出是當(dāng)前幀中軌道 T 的邊界框和標(biāo)識(shí)。請(qǐng)注意,我們不輸出 Tlost 的框和身份。
為了展現(xiàn) MOT 的最先進(jìn)性能,我們通過為高性能檢測(cè)器 YOLOX [24] 配備我們的關(guān)聯(lián)方法 BYTE,設(shè)計(jì)了一個(gè)簡(jiǎn)單而強(qiáng)大的跟蹤器,名為 ByteTrack。
精讀
BYTE方法具體內(nèi)容:
- 將檢測(cè)到的檢測(cè)框分為高分檢測(cè)框和低分檢測(cè)框,分別處理。
- 預(yù)測(cè):對(duì)現(xiàn)有軌跡進(jìn)行卡爾曼濾波
- 第一次關(guān)聯(lián):高分檢測(cè)框和卡爾曼濾波預(yù)測(cè)T得到的所有框進(jìn)行關(guān)聯(lián)(IoU 或 Re-ID 特征距離),得到未匹配的高分檢測(cè)(Dremain)和未匹配的軌跡(Tremain)
- 第二次關(guān)聯(lián):低分檢測(cè)框和卡爾曼濾波預(yù)測(cè)Tremain得到的框進(jìn)行關(guān)聯(lián)(單獨(dú)使用 IoU)(原因:因?yàn)榈头謾z測(cè)框通常包含嚴(yán)重的遮擋或運(yùn)動(dòng)模糊,并且外觀特征不可靠。),得到未匹配的低分檢測(cè)(刪除)和二次未匹配成功的軌跡(Tre-remain)
- 結(jié)束:將Tre-remain存到Tlost中(Tlost不會(huì)被輸出作為軌跡,但下幀的匹配會(huì)用Tlost),用Dremain進(jìn)行軌跡初始化。
**ByteTrack跟蹤器:**應(yīng)用YOLOX作為檢測(cè)器,用BYTE作為關(guān)聯(lián)方法的跟蹤器。
總體感覺是在DeepSORT上進(jìn)行的改進(jìn)。
4.實(shí)驗(yàn)
4.1實(shí)驗(yàn)設(shè)置
翻譯
**數(shù)據(jù)集。**我們?cè)凇八接袡z測(cè)”協(xié)議下在 MOT17 [44] 和 MOT20 [17] 數(shù)據(jù)集上評(píng)估 BYTE 和 ByteTrack。兩個(gè)數(shù)據(jù)集都包含訓(xùn)練集和測(cè)試集,沒有驗(yàn)證集。對(duì)于消融研究,我們使用 MOT17 訓(xùn)練集中每個(gè)視頻的前半部分進(jìn)行訓(xùn)練,后半部分進(jìn)行驗(yàn)證[89]。我們結(jié)合 CrowdHuman 數(shù)據(jù)集 [55] 和 MOT17 半訓(xùn)練集 [59,71,80,89] 進(jìn)行訓(xùn)練。當(dāng)在 MOT17 的測(cè)試集上進(jìn)行測(cè)試時(shí),我們添加了 Cityperson [82] 和 ETHZ [21] 來按照 [33,69,85] 進(jìn)行訓(xùn)練。我們還在 HiEve [37] 和 BDD100K [79] 數(shù)據(jù)集上測(cè)試 ByteTrack。 HiEve 是一個(gè)以人為中心的大規(guī)模數(shù)據(jù)集,專注于擁擠和復(fù)雜的事件。 BDD100K 是最大的駕駛視頻數(shù)據(jù)集,MOT 任務(wù)的數(shù)據(jù)集分割為 1400 個(gè)用于訓(xùn)練的視頻、200 個(gè)用于驗(yàn)證的視頻和 400 個(gè)用于測(cè)試的視頻。它需要跟蹤 8 類物體,并包含大相機(jī)運(yùn)動(dòng)的情況。
**指標(biāo)。**我們使用CLEAR指標(biāo)[4],包括MOTA、FP、FN、ID等、IDF1[51]和HOTA[40]來評(píng)估跟蹤性能的不同方面。 MOTA 是根據(jù) FP、FN 和 ID 計(jì)算的。考慮到FP和FN的數(shù)量比ID大,MOTA更關(guān)注檢測(cè)性能。 IDF1評(píng)估身份保存能力,更關(guān)注關(guān)聯(lián)性能。 HOTA 是最近提出的一個(gè)指標(biāo),它明確平衡了執(zhí)行準(zhǔn)確檢測(cè)、關(guān)聯(lián)和定位的效果。對(duì)于BDD100K數(shù)據(jù)集,有一些多類指標(biāo),例如mMOTA和mIDF1。 mMOTA / mIDF1 是通過平均所有類別的 MOTA / IDF1 來計(jì)算的。
**實(shí)施細(xì)節(jié)。**對(duì)于 BYTE,除非另有說明,默認(rèn)檢測(cè)分?jǐn)?shù)閾值 τ 為 0.6。對(duì)于MOT17、MOT20和HiEve的基準(zhǔn)評(píng)估,我們僅使用IoU作為相似性度量。在線性分配步驟中,如果檢測(cè)框和軌跡框之間的 IoU 小于 0.2,則匹配將被拒絕。對(duì)于丟失的軌跡,我們將其保留 30 幀,以防它再次出現(xiàn)。對(duì)于 BDD100K,我們使用 UniTrack [68] 作為 Re-ID 模型。在消融研究中,我們使用 FastReID [27] 來提取 MOT17 的 Re-ID 特征。
對(duì)于 ByteTrack,檢測(cè)器是 YOLOX [24],以 YOLOX-X 作為主干,COCO 預(yù)訓(xùn)練模型 [36] 作為初始化權(quán)重。對(duì)于 MOT17,訓(xùn)練計(jì)劃是 MOT17、CrowdHuman、Cityperson 和 ETHZ 組合的 80 個(gè) epoch。對(duì)于 MOT20 和 HiEve,我們僅添加 CrowdHuman 作為附加訓(xùn)練數(shù)據(jù)。對(duì)于 BDD100K,我們不使用額外的訓(xùn)練數(shù)據(jù),僅訓(xùn)練 50 個(gè) epoch。多尺度訓(xùn)練時(shí)輸入圖像尺寸為1440×800,最短邊范圍為576到1024。數(shù)據(jù)增強(qiáng)包括Mosaic [8]和Mixup [81]。該模型在 8 個(gè) NVIDIA Tesla V100 GPU 上進(jìn)行訓(xùn)練,批量大小為 48。優(yōu)化器為 SGD,權(quán)重衰減為 5 × 10?4,動(dòng)量為 0.9。初始學(xué)習(xí)率為 10?3,具有 1 輪預(yù)熱和余弦退火計(jì)劃??傆?xùn)練時(shí)間約為12小時(shí)。按照 [24],FPS 是在單個(gè) GPU 上使用 FP16 精度 [43] 和批量大小 1 進(jìn)行測(cè)量的。
精讀
數(shù)據(jù)集:
- MOT17 & MOT20:包含訓(xùn)練集和測(cè)試集,無驗(yàn)證集。使用MOT17訓(xùn)練集的前半部分進(jìn)行訓(xùn)練,后半部分進(jìn)行驗(yàn)證。
- CrowdHuman:作為附加訓(xùn)練數(shù)據(jù),增加對(duì)擁擠場(chǎng)景的適應(yīng)性。
- Cityperson & ETHZ:用于MOT17測(cè)試集訓(xùn)練時(shí)增加數(shù)據(jù)多樣性。
- HiEve:以人為中心的大規(guī)模數(shù)據(jù)集,專注于擁擠和復(fù)雜事件。
- BDD100K:最大的駕駛視頻數(shù)據(jù)集,包含大相機(jī)運(yùn)動(dòng)情況,需跟蹤8類物體。
評(píng)估指標(biāo):
- CLEAR指標(biāo):包括MOTA(關(guān)注檢測(cè)性能)、FP(誤檢)、FN(漏檢)、ID(身份切換次數(shù))。
- IDF1:評(píng)估身份保存能力,更關(guān)注關(guān)聯(lián)性能。
- HOTA:平衡檢測(cè)、關(guān)聯(lián)和定位效果的指標(biāo)。
- 多類指標(biāo)(如mMOTA、mIDF1):針對(duì)BDD100K數(shù)據(jù)集,計(jì)算所有類別的平均MOTA和IDF1。
實(shí)施細(xì)節(jié):
- BYTE:
- 檢測(cè)分?jǐn)?shù)閾值τ默認(rèn)為0.6。
- 使用IoU作為相似性度量,IoU小于0.2的匹配被拒絕。
- 丟失軌跡保留30幀。
- 在MOT17消融研究中,使用FastReID提取Re-ID特征。
- ByteTrack:
- 檢測(cè)器為YOLOX,以YOLOX-X為主干,使用COCO預(yù)訓(xùn)練模型初始化。
- 訓(xùn)練數(shù)據(jù)組合和訓(xùn)練周期根據(jù)數(shù)據(jù)集不同有所變化。
- 多尺度訓(xùn)練,輸入圖像尺寸及數(shù)據(jù)增強(qiáng)方法(Mosaic、Mixup)。
- 使用8個(gè)NVIDIA Tesla V100 GPU訓(xùn)練,批量大小為48。
- 優(yōu)化器為SGD,帶有余弦退火計(jì)劃的學(xué)習(xí)率調(diào)整。
- 訓(xùn)練時(shí)間約12小時(shí),FPS測(cè)量在單個(gè)GPU上進(jìn)行。
4.2 BYTE 消融研究
翻譯
相似性分析。我們?yōu)锽YTE的第一關(guān)聯(lián)和第二關(guān)聯(lián)選擇不同類型的相似性。結(jié)果如表1所示。我們可以看到,IoU或Re-ID對(duì)于MOT17上的Similarity#1來說都是不錯(cuò)的選擇。 IoU 實(shí)現(xiàn)了更好的 MOTA 和 ID,而 Re-ID 實(shí)現(xiàn)了更高的 IDF1。在 BDD100K 上,Re-ID 在第一次關(guān)聯(lián)中取得了比 IoU 更好的結(jié)果。這是因?yàn)锽DD100K包含較大的相機(jī)運(yùn)動(dòng)并且注釋處于低幀率,這導(dǎo)致運(yùn)動(dòng)提示失敗。在兩個(gè)數(shù)據(jù)集的第二個(gè)關(guān)聯(lián)中使用 IoU 作為相似性#2 非常重要,因?yàn)榈头謾z測(cè)框通常包含嚴(yán)重的遮擋或運(yùn)動(dòng)模糊,因此 Re-ID 特征不可靠。從表1中我們可以發(fā)現(xiàn),使用IoU作為Similarity#2與Re-ID相比增加了約1.0 MOTA,這表明低分檢測(cè)框的Re-ID特征并不可靠。
**與其他關(guān)聯(lián)方法的比較。**我們?cè)?MOT17 和 BDD100K 的驗(yàn)證集上將 BYTE 與其他流行的關(guān)聯(lián)方法(包括 SORT [6]、DeepSORT [70] 和 MOTDT [12])進(jìn)行比較。結(jié)果如表2所示。
SORT 可以看作是我們的基線方法,因?yàn)檫@兩種方法都只采用卡爾曼濾波器來預(yù)測(cè)物體運(yùn)動(dòng)。我們可以發(fā)現(xiàn),BYTE 將 SORT 的 MOTA 指標(biāo)從 74.6 提高到 76.6,將 IDF1 從 76.9 提高到 79.3,并將 ID 從 291 減少到 159。這凸顯了低分檢測(cè)框的重要性,并證明了 BYTE 從低分檢測(cè)框恢復(fù)目標(biāo)框的能力。低分一。
DeepSORT 利用額外的 Re-ID 模型來增強(qiáng)遠(yuǎn)程關(guān)聯(lián)。我們驚訝地發(fā)現(xiàn),與 DeepSORT 相比,BYTE 還具有額外的增益。這表明,當(dāng)檢測(cè)框足夠準(zhǔn)確時(shí),簡(jiǎn)單的卡爾曼濾波器可以執(zhí)行遠(yuǎn)程關(guān)聯(lián)并實(shí)現(xiàn)更好的 IDF1 和 ID。我們注意到,在嚴(yán)重遮擋的情況下,Re-ID 功能很脆弱,可能會(huì)導(dǎo)致身份切換,相反,運(yùn)動(dòng)模型表現(xiàn)得更可靠。
MOTDT 將運(yùn)動(dòng)引導(dǎo)框傳播結(jié)果與檢測(cè)結(jié)果集成在一起,將不可靠的檢測(cè)結(jié)果與軌跡關(guān)聯(lián)起來。盡管動(dòng)機(jī)相似,但 MOTDT 遠(yuǎn)遠(yuǎn)落后于 BYTE。我們解釋說,MODTT 使用傳播框作為軌跡框,這可能會(huì)導(dǎo)致跟蹤中的定位漂移。相反,BYTE 使用低分檢測(cè)框來重新關(guān)聯(lián)那些不匹配的軌跡,因此軌跡框更準(zhǔn)確。
**檢測(cè)分?jǐn)?shù)閾值的魯棒性。**檢測(cè)分?jǐn)?shù)閾值τhigh是一個(gè)敏感的超參數(shù),在多目標(biāo)跟蹤任務(wù)中需要仔細(xì)調(diào)整。我們將其從 0.2 更改為 0.8,并比較 BYTE 和 SORT 的 MOTA 和 IDF1 分?jǐn)?shù)。結(jié)果如圖3所示。從結(jié)果我們可以看出,BYTE對(duì)于檢測(cè)分?jǐn)?shù)閾值比SORT更加穩(wěn)健。這是因?yàn)?BYTE 中的第二個(gè)關(guān)聯(lián)恢復(fù)了分?jǐn)?shù)低于 τhigh 的對(duì)象,因此無論 τhigh 的變化如何,都會(huì)考慮幾乎每個(gè)檢測(cè)框。
**低分檢測(cè)框分析。**為了證明BYTE的有效性,我們收集了BYTE獲得的低分框中的TP和FP的數(shù)量。我們使用 MOT17 的半訓(xùn)練集和 CrowdHuman 在 MOT17 的半驗(yàn)證集上進(jìn)行訓(xùn)練和評(píng)估。首先,我們保留所有得分范圍從 τlow 到 τhigh 的低分檢測(cè)框,并使用地面實(shí)況注釋對(duì) TP 和 FP 進(jìn)行分類。然后,我們從低分檢測(cè)框中選擇BYTE獲得的跟蹤結(jié)果。每個(gè)序列的結(jié)果如圖 4 所示。我們可以看到,盡管某些序列(即 MOT17-02)在所有檢測(cè)框中具有更多的 FP,但 BYTE 從低分檢測(cè)框中獲得的 TP 明顯多于 FP。所獲得的 TP 顯著地將 MOTA 從 74.6 增加到 76.6,如表 2 所示。
**其他跟蹤器上的應(yīng)用程序。**我們將 BYTE 應(yīng)用于 9 種不同的最先進(jìn)的跟蹤器,包括 JDE [69]、CSTrack [33]、FairMOT [85]、TraDes [71]、QDTrack [47]、CenterTrack [89]、Chained-Tracker [ 48]、TransTrack [59] 和 MOTR [80]。在這些跟蹤器中,JDE、CSTrack、FairMOT、TraDes 采用了運(yùn)動(dòng)和 ReID 相似性的組合。 QDTrack單獨(dú)采用Re-ID相似度。 CenterTrack 和 TraDes 通過學(xué)習(xí)網(wǎng)絡(luò)預(yù)測(cè)運(yùn)動(dòng)相似度。 Chained-Tracker采用鏈?zhǔn)浇Y(jié)構(gòu),同時(shí)輸出兩個(gè)連續(xù)幀的結(jié)果,并通過IoU關(guān)聯(lián)在同一幀中。 TransTrack 和 MOTR 采用注意力機(jī)制在幀之間傳播框。他們的結(jié)果顯示在表3中每個(gè)跟蹤器的第一行中。為了評(píng)估BYTE的有效性,我們?cè)O(shè)計(jì)了兩種不同的模式將BYTE應(yīng)用于這些跟蹤器。
- 第一種模式是在不同跟蹤器的原始關(guān)聯(lián)方法中插入BYTE,如表3中每個(gè)跟蹤器結(jié)果的第二行所示。以FairMOT[85]為例,原始關(guān)聯(lián)完成后,我們選擇所有不匹配的軌跡,并將它們與算法 1 中第二個(gè)關(guān)聯(lián)之后的低分檢測(cè)框關(guān)聯(lián)起來。請(qǐng)注意,對(duì)于低分對(duì)象,Re-ID 特征不可靠,因此我們僅采用檢測(cè)框之間的 IoU并將運(yùn)動(dòng)預(yù)測(cè)后的軌跡框作為相似度。我們沒有將BYTE的第一種模式應(yīng)用到Chained-Tracker中,因?yàn)槲覀儼l(fā)現(xiàn)它很難在鏈?zhǔn)浇Y(jié)構(gòu)中實(shí)現(xiàn)。
- 第二種模式是直接使用這些跟蹤器的檢測(cè)框并使用算法1中的整個(gè)過程進(jìn)行關(guān)聯(lián),如表3中每個(gè)跟蹤器結(jié)果的第三行所示。
我們可以看到,在兩種模式下,BYTE 都能對(duì)包括 MOTA、IDF1 和 ID 在內(nèi)的幾乎所有指標(biāo)帶來穩(wěn)定的改進(jìn)。例如,BYTE將CenterTrack增加1.3 MOTA和9.8 IDF1,Chained-Tracker增加1.9 MOTA和5.8 IDF1,TransTrack增加1.2 MOTA和4.1 IDF1。表3的結(jié)果表明BYTE具有很強(qiáng)的泛化能力,可以很容易地應(yīng)用于現(xiàn)有的跟蹤器以獲得性能增益。
表 1. BYTE 在 MOT17 和 BDD100K 驗(yàn)證集上的第一個(gè)關(guān)聯(lián)和第二個(gè)關(guān)聯(lián)中使用的不同類型相似性度量的比較。最佳結(jié)果以粗體顯示。
表2. MOT17和BDD100K驗(yàn)證集上不同數(shù)據(jù)關(guān)聯(lián)方法的比較。最佳結(jié)果以粗體顯示。
圖 3. BYTE 和 SORT 在不同檢測(cè)分?jǐn)?shù)閾值下的性能比較。結(jié)果來自MOT17的驗(yàn)證集。
圖 4. 所有低分檢測(cè)框的 TP 和 FP 數(shù)量以及 BYTE 獲得的低分跟蹤框的比較。結(jié)果來自MOT17的驗(yàn)證集。
表 3. 將 BYTE 應(yīng)用于 MOT17 驗(yàn)證集上 9 個(gè)不同的最先進(jìn)跟蹤器的結(jié)果。 “K”是卡爾曼濾波器的縮寫。綠色表示至少 +1.0 點(diǎn)的改進(jìn)。
精讀
相似性分析:
- Similarity#1(第一關(guān)聯(lián)相似性):
- 對(duì)于MOT17數(shù)據(jù)集,IoU(交并比)和Re-ID(重識(shí)別)都是不錯(cuò)的選擇,但I(xiàn)oU在MOTA和ID指標(biāo)上表現(xiàn)更好,而Re-ID在IDF1上更高。
- 對(duì)于BDD100K數(shù)據(jù)集,由于相機(jī)運(yùn)動(dòng)大和注釋幀率低,Re-ID在第一關(guān)聯(lián)中表現(xiàn)優(yōu)于IoU。
- Similarity#2(第二關(guān)聯(lián)相似性):
- 在兩個(gè)數(shù)據(jù)集的第二次關(guān)聯(lián)中,使用IoU作為相似性非常重要,因?yàn)榈头謾z測(cè)框通常包含遮擋或運(yùn)動(dòng)模糊,Re-ID特征不可靠。IoU作為Similarity#2相比Re-ID顯著提高了MOTA分?jǐn)?shù)。
與其他關(guān)聯(lián)方法的比較:
- SORT:
- BYTE在MOTA、IDF1和ID指標(biāo)上均優(yōu)于SORT,證明了低分檢測(cè)框的重要性以及BYTE恢復(fù)目標(biāo)框的能力。
- DeepSORT:
- 盡管DeepSORT使用Re-ID模型增強(qiáng)遠(yuǎn)程關(guān)聯(lián),但BYTE在檢測(cè)框準(zhǔn)確時(shí)通過簡(jiǎn)單的卡爾曼濾波器實(shí)現(xiàn)了更好的IDF1和ID,說明在遮擋情況下Re-ID可能脆弱。
- MOTDT:
- MOTDT使用傳播框可能導(dǎo)致定位漂移,而BYTE使用低分檢測(cè)框重新關(guān)聯(lián)不匹配軌跡,軌跡框更準(zhǔn)確。
檢測(cè)分?jǐn)?shù)閾值的魯棒性:
- BYTE對(duì)檢測(cè)分?jǐn)?shù)閾值(τ)的變化更加穩(wěn)健,因?yàn)榈诙€(gè)關(guān)聯(lián)機(jī)制會(huì)考慮幾乎所有檢測(cè)框,無論其分?jǐn)?shù)如何。
低分檢測(cè)框分析:
- 通過對(duì)低分檢測(cè)框中TP(真正例)和FP(假正例)的分析,BYTE能夠從低分檢測(cè)框中恢復(fù)更多真正的目標(biāo),顯著提升MOTA分?jǐn)?shù)。
其他跟蹤器上的應(yīng)用:
-
BYTE被應(yīng)用于9種不同的先進(jìn)跟蹤器,通過兩種不同模式的應(yīng)用,顯著提升了這些跟蹤器的性能,證明了BYTE的通用性和有效性。
-
第一種模式:
-
方法描述:在跟蹤器完成其原始關(guān)聯(lián)后,BYTE選擇所有未匹配的軌跡,并將它們與通過算法1中“第二個(gè)關(guān)聯(lián)”步驟處理后的低分檢測(cè)框進(jìn)行關(guān)聯(lián)。此過程中,主要依賴檢測(cè)框之間的IoU(交并比)以及運(yùn)動(dòng)預(yù)測(cè)后的軌跡框作為相似性度量,因?yàn)榈头謾z測(cè)框的Re-ID(重識(shí)別)特征通常不可靠。
-
應(yīng)用示例:以FairMOT為例,展示了如何在保持原跟蹤器主要框架不變的情況下,通過BYTE增強(qiáng)未匹配軌跡的關(guān)聯(lián)能力。
-
限制:該模式未應(yīng)用于Chained-Tracker,因?yàn)槠鋵?shí)現(xiàn)難度較高,難以在鏈?zhǔn)浇Y(jié)構(gòu)中有效集成。
-
-
第二種模式:
-
方法描述:直接使用跟蹤器的檢測(cè)框,并完全按照BYTE的算法1進(jìn)行關(guān)聯(lián)處理,包括兩個(gè)關(guān)聯(lián)步驟和相應(yīng)的相似性度量。
-
優(yōu)勢(shì):這種模式下,BYTE能夠完全控制關(guān)聯(lián)過程,從而最大化其性能增益。
-
應(yīng)用效果:表3中的結(jié)果顯示,幾乎所有參與測(cè)試的跟蹤器在采用這種模式后,MOTA、IDF1和ID等關(guān)鍵指標(biāo)均得到了穩(wěn)定的提升。
-
4.3 基準(zhǔn)評(píng)估
翻譯
我們分別在表 4、表 5 和表 6 中在私有檢測(cè)協(xié)議下的 MOT17、MOT20 和 HiEve 測(cè)試集上將 ByteTrack 與最先進(jìn)的跟蹤器進(jìn)行了比較。所有結(jié)果均直接從官方MOT Challenge評(píng)估服務(wù)器和Human in Events服務(wù)器獲得。
MOT17。 ByteTrack 在 MOT17 排行榜上的所有追蹤器中排名第一。它不僅達(dá)到了最好的精度(即80.3 MOTA、77.3 IDF1和63.1 HOTA),而且還以最高的運(yùn)行速度(30 FPS)運(yùn)行。它的性能大幅優(yōu)于第二性能跟蹤器[76](即+3.3 MOTA、+5.3 IDF1 和+3.4 HOTA)。此外,我們使用的訓(xùn)練數(shù)據(jù)比許多高性能方法要少,例如 [33,34,54,65,85](29K 圖像與 73K 圖像)。值得注意的是,與另外采用 Re-ID 相似度或注意力機(jī)制的其他方法[33,47,59,67,80,85]相比,我們?cè)陉P(guān)聯(lián)步驟中僅利用最簡(jiǎn)單的相似度計(jì)算方法卡爾曼濾波器。這些都表明ByteTrack是一個(gè)簡(jiǎn)單而強(qiáng)大的跟蹤器。
**MOT20。**與MOT17相比,MOT20的擁擠場(chǎng)景和遮擋情況要多得多。在 MOT20 的測(cè)試集中,圖像中的平均行人數(shù)量為 170。 ByteTrack 在 MOT20 排行榜上的所有跟蹤器中排名第一,并且在幾乎所有指標(biāo)上都大幅領(lǐng)先其他跟蹤器。例如,它將MOTA從68.6增加到77.8,IDF1從71.4增加到75.2,并將ID從4209減少到1223,減少71%。值得注意的是,ByteTrack實(shí)現(xiàn)了極低的身份切換,這進(jìn)一步表明關(guān)聯(lián)每個(gè)檢測(cè)框是非常簡(jiǎn)單的。在遮擋情況下非常有效。
**Human in Events。**與MOT17和MOT20相比,HiEve包含更復(fù)雜的事件和更多樣化的攝像機(jī)視圖。我們?cè)?CrowdHuman 數(shù)據(jù)集和 HiEve 的訓(xùn)練集上訓(xùn)練 ByteTrack。 ByteTrack 在 HiEve 排行榜上的所有追蹤器中排名第一,并且大幅領(lǐng)先其他最先進(jìn)的追蹤器。例如,它將 MOTA 從 40.9 增加到 61.3,IDF1 從 45.1 增加到 62.9。優(yōu)異的結(jié)果表明 ByteTrack 對(duì)復(fù)雜場(chǎng)景具有魯棒性。
BDD100K。 BDD100K是自動(dòng)駕駛場(chǎng)景中的多類別跟蹤數(shù)據(jù)集。挑戰(zhàn)包括低幀速率和大相機(jī)運(yùn)動(dòng)。我們利用 UniTrack [68] 中的簡(jiǎn)單 ResNet-50 ImageNet 分類模型來提取 Re-ID 特征并計(jì)算外觀相似度。 ByteTrack在BDD100K排行榜上排名第一。驗(yàn)證集上的mMOTA從36.6提高到45.5,測(cè)試集上的mMOTA從35.5提高到40.1,這表明ByteTrack也可以應(yīng)對(duì)自動(dòng)駕駛場(chǎng)景中的挑戰(zhàn)。
表 4. MOT17 測(cè)試集上“私人檢測(cè)器”協(xié)議下最先進(jìn)方法的比較。最佳結(jié)果以粗體顯示。 MOT17包含豐富的場(chǎng)景,一半的序列是通過攝像機(jī)運(yùn)動(dòng)捕捉的。 ByteTrack 在 MOT17 排行榜上的所有跟蹤器中排名第一,并且在幾乎所有指標(biāo)上都大幅領(lǐng)先第二名 ReMOT。它還具有所有追蹤器中最高的運(yùn)行速度。
表 5. MOT20 測(cè)試集上“私人檢測(cè)器”協(xié)議下最先進(jìn)方法的比較。最佳結(jié)果以粗體顯示。 MOT20的場(chǎng)景比MOT17擁擠得多。 ByteTrack 在 MOT20 排行榜上的所有跟蹤器中排名第一,并且在所有指標(biāo)上都大幅領(lǐng)先第二名 SOTMOT。它還具有所有追蹤器中最高的運(yùn)行速度。
表 6. HiEve 測(cè)試集上“私人檢測(cè)器”協(xié)議下最先進(jìn)方法的比較。最佳結(jié)果以粗體顯示。 HiEve 的事件比 MOT17 和 MOT20 更復(fù)雜。 ByteTrack 在 HiEve 排行榜上的所有跟蹤器中排名第一,并且在所有指標(biāo)上都大幅領(lǐng)先第二名 CenterTrack。
精讀
ByteTrack 在多個(gè)權(quán)威的多目標(biāo)跟蹤(MOT)數(shù)據(jù)集上展示了其卓越的性能和魯棒性,包括 MOT17、MOT20、HiEve 以及 BDD100K。
- MOT17:
- 在MOT17排行榜上,ByteTrack在所有追蹤器中排名第一,實(shí)現(xiàn)了最高的精度(80.3 MOTA、77.3 IDF1、63.1 HOTA)和最高的運(yùn)行速度(30 FPS)。
- 相比其他高性能方法,ByteTrack在精度上大幅提升,同時(shí)使用的訓(xùn)練數(shù)據(jù)量更少。
- 在關(guān)聯(lián)步驟中,ByteTrack僅利用卡爾曼濾波器這一最簡(jiǎn)單的相似度計(jì)算方法,證明了其高效性和簡(jiǎn)潔性。
- MOT20:
- MOT20包含更多的擁擠場(chǎng)景和遮擋情況,ByteTrack在此數(shù)據(jù)集上同樣排名第一,并在幾乎所有指標(biāo)上大幅領(lǐng)先其他跟蹤器。
- ByteTrack在MOT20上實(shí)現(xiàn)了顯著的MOTA(從68.6增加到77.8)和IDF1(從71.4增加到75.2)提升,并大幅減少了身份切換次數(shù)。
- Human in Events (HiEve):
- HiEve數(shù)據(jù)集包含更復(fù)雜的事件和更多樣化的攝像機(jī)視圖,ByteTrack在此數(shù)據(jù)集上也排名第一,并大幅領(lǐng)先其他最先進(jìn)的追蹤器。
- ByteTrack顯著提高了MOTA(從40.9增加到61.3)和IDF1(從45.1增加到62.9),展示了其在復(fù)雜場(chǎng)景中的魯棒性。
- BDD100K:
- BDD100K是自動(dòng)駕駛場(chǎng)景中的多類別跟蹤數(shù)據(jù)集,具有低幀速率和大相機(jī)運(yùn)動(dòng)的挑戰(zhàn)。
- ByteTrack在BDD100K排行榜上同樣排名第一,通過引入簡(jiǎn)單的ResNet-50 ImageNet分類模型來提取Re-ID特征,實(shí)現(xiàn)了mMOTA的顯著提升(驗(yàn)證集從36.6提高到45.5,測(cè)試集從35.5提高到40.1)。
5.總結(jié)
翻譯
我們提出了一種簡(jiǎn)單而有效的數(shù)據(jù)關(guān)聯(lián)方法 BYTE 用于多目標(biāo)跟蹤。 BYTE 可以輕松應(yīng)用于現(xiàn)有的跟蹤器并實(shí)現(xiàn)一致的改進(jìn)。我們還提出了一個(gè)強(qiáng)大的跟蹤器ByteTrack,它在MOT17測(cè)試集上以30 FPS實(shí)現(xiàn)了80.3 MOTA、77.3 IDF1和63.1 HOTA,在排行榜上的所有跟蹤器中排名第一。 ByteTrack 由于其準(zhǔn)確的檢測(cè)性能以及關(guān)聯(lián)低分檢測(cè)框的幫助而對(duì)遮擋非常穩(wěn)健。它還揭示了如何充分利用檢測(cè)結(jié)果來增強(qiáng)多目標(biāo)跟蹤。我們希望 ByteTrack 的高精度、快速性和簡(jiǎn)單性能夠使其在實(shí)際應(yīng)用中具有吸引力。
A.邊界框注釋
我們注意到 MOT17 [44] 需要覆蓋整個(gè)身體的邊界框 [89],即使對(duì)象被遮擋或部分位于圖像之外。然而,YOLOX 的默認(rèn)實(shí)現(xiàn)會(huì)剪輯圖像區(qū)域內(nèi)的檢測(cè)框。為了避免圖像邊界周圍的錯(cuò)誤檢測(cè)結(jié)果,我們?cè)跀?shù)據(jù)預(yù)處理和標(biāo)簽分配方面修改了YOLOX。在數(shù)據(jù)預(yù)處理和數(shù)據(jù)增強(qiáng)過程中,我們不會(huì)剪切圖像內(nèi)的邊界框。我們只刪除數(shù)據(jù)增強(qiáng)后完全位于圖像之外的框。在SimOTA標(biāo)簽分配策略中,正樣本需要位于物體中心周圍,而全身框的中心可能位于圖像之外,因此我們將物體的中心裁剪在圖像內(nèi)部。 MOT20 [17]、HiEve [37] 和 BDD100K 剪切圖像內(nèi)的邊界框注釋,因此我們只使用 YOLOX 的原始設(shè)置。
B. 光模型的跟蹤性能
我們使用光檢測(cè)模型比較 BYTE 和 DeepSORT [70]。我們使用具有不同主干網(wǎng)的 YOLOX [24] 作為我們的檢測(cè)器。所有模型均在 CrowdHuman 和 MOT17 的半訓(xùn)練集上進(jìn)行訓(xùn)練。多尺度訓(xùn)練時(shí)輸入圖像尺寸為1088×608,最短邊范圍為384到832。結(jié)果如表8所示。我們可以看到,與DeepSORT相比,BYTE在MOTA和IDF1上帶來了穩(wěn)定的改進(jìn),這表明BYTE對(duì)檢測(cè)性能具有魯棒性。值得注意的是,當(dāng)使用YOLOX-Nano作為主干時(shí),BYTE帶來了比DeepSORT高3個(gè)點(diǎn)的MOTA,這使得它在實(shí)際應(yīng)用中更具吸引力。
C. ByteTrack的消融研究
**速度與速度準(zhǔn)確性。**我們?cè)谕评磉^程中使用不同大小的輸入圖像來評(píng)估 ByteTrack 的速度和準(zhǔn)確性。所有實(shí)驗(yàn)都使用相同的多尺度訓(xùn)練。結(jié)果如表9所示。推理期間的輸入大小范圍為512×928至800×1440。檢測(cè)器的運(yùn)行時(shí)間范圍為17.9 ms至30.0 ms,關(guān)聯(lián)時(shí)間均在4.0 ms左右。 ByteTrack可以實(shí)現(xiàn)75.0 MOTA,45.7 FPS運(yùn)行速度和76.6 MOTA,29.6 FPS運(yùn)行速度,在實(shí)際應(yīng)用中具有優(yōu)勢(shì)。
**訓(xùn)練數(shù)據(jù)。**我們使用不同的訓(xùn)練數(shù)據(jù)組合在 MOT17 的半驗(yàn)證集上評(píng)估 ByteTrack。結(jié)果如表10所示。當(dāng)僅使用MOT17的一半訓(xùn)練集時(shí),性能達(dá)到75.8 MOTA,這已經(jīng)優(yōu)于大多數(shù)方法。這是因?yàn)槲覀兪褂昧藦?qiáng)大的增強(qiáng)功能,例如 Mosaic [8] 和 Mixup [81]。當(dāng)進(jìn)一步添加 CrowdHu-man、Cityperson 和 ETHZ 進(jìn)行訓(xùn)練時(shí),我們可以達(dá)到 76.7 MOTA 和 79.7 IDF1。 IDF1 的巨大改進(jìn)源于 CrowdHuman 數(shù)據(jù)集可以增強(qiáng)檢測(cè)器識(shí)別被遮擋的人的能力,從而使卡爾曼濾波器產(chǎn)生更平滑的預(yù)測(cè)并增強(qiáng)跟蹤器的關(guān)聯(lián)能力。
訓(xùn)練數(shù)據(jù)的實(shí)驗(yàn)表明 ByteTrack 并不需要數(shù)據(jù)。與之前需要超過 7 個(gè)數(shù)據(jù)源 [19、21、44、55、73、82、88] 才能實(shí)現(xiàn)高性能的方法 [33、34、65、85] 相比,這對(duì)于實(shí)際應(yīng)用來說是一個(gè)很大的優(yōu)勢(shì)。
D.軌跡插值
我們注意到MOT17中有一些完全遮擋的行人,其可見比率在地面實(shí)況注釋中為0。由于幾乎不可能通過視覺線索檢測(cè)到它們,因此我們通過軌跡插值來獲取這些對(duì)象。
假設(shè)我們有一個(gè)軌跡 T ,它的軌跡框由于從幀 t1 到 t2 的遮擋而丟失。 T 在幀 t1 處的軌跡框是 Bt1 ∈ R4,其中包含邊界框的左上角和右下角坐標(biāo)。令 Bt2 表示 T 在幀 t2 處的軌跡框。我們?cè)O(shè)置一個(gè)超參數(shù) σ 代表我們執(zhí)行軌跡插值的最大間隔,這意味著當(dāng) t2 ? t1 ≤ σ 時(shí)執(zhí)行軌跡插值。軌跡 T 在幀 t 處的插值框可以計(jì)算如下:
其中 t1 < t < t2。
如表 11 所示,當(dāng) σ 為 20 時(shí),軌跡插值可以將 MOTA 從 76.6 提高到 78.3,IDF1 從 79.3 提高到 80.2。軌跡插值是一種有效的后處理方法,可以獲取完全遮擋對(duì)象的框。我們?cè)谒接袡z測(cè)協(xié)議下的 MOT17 [44]、MOT20 [17] 和 HiEve [37] 的測(cè)試集中使用軌跡插值。
E. MOTChallenge上公開檢測(cè)結(jié)果
我們?cè)诠矙z測(cè)協(xié)議下的 MOT17 [44] 和 MOT20 [17] 測(cè)試集上評(píng)估 ByteTrack。遵循 Tracktor [3] 和 CenterTrack [89] 中的公共檢測(cè)過濾策略,我們僅在與公共檢測(cè)框的 IoU 大于 0.8 時(shí)初始化新軌跡。我們不使用公共檢測(cè)協(xié)議下的軌跡插值。如表 12 所示,ByteTrack 在 MOT17 上大幅優(yōu)于其他方法。例如,它在 MOTA 上優(yōu)于 SiamMOT 1.5 分,在 IDF1 上優(yōu)于 SiamMOT 6.7 分。表 13 顯示了 MOT20 的結(jié)果。 ByteTrack 的性能也大幅優(yōu)于現(xiàn)有結(jié)果。例如,它在 MOTA 上比 TMOH [57] 好 6.9 點(diǎn),在 IDF1 上好 9.0 點(diǎn),在 HOTA 上好 7.5 點(diǎn),并將身份切換減少四分之三。公共檢測(cè)協(xié)議下的結(jié)果進(jìn)一步表明了我們的關(guān)聯(lián)方法 BYTE 的有效性。
F. 可視化結(jié)果。
我們?cè)趫D 5 中展示了 ByteTrack 能夠處理的一些困難情況的可視化結(jié)果。困難情況包括遮擋(即 MOT17-02、MOT1704、MOT17-05、MOT17-09、MOT17-13)、運(yùn)動(dòng)模糊(即 MOT17- 10、MOT17-13)和小物體(即 MOT1713)。中間幀中帶有紅色三角形的行人檢測(cè)得分較低,這是通過我們的關(guān)聯(lián)方法 BYTE 獲得的。低分框不僅減少了漏檢的數(shù)量,而且在長(zhǎng)程關(guān)聯(lián)中發(fā)揮著重要作用。從所有這些困難案例中我們可以看到,ByteTrack 沒有帶來任何身份切換,并且有效地保留了身份。
表 7. BDD100K 測(cè)試集上最先進(jìn)方法的比較。最佳結(jié)果以粗體顯示。 ByteTrack 在 BDD100K 排行榜上的所有跟蹤器中排名第一,并且在大多數(shù)指標(biāo)上都大幅領(lǐng)先第二名 QDTrack。
表 8. 在 MOT17 驗(yàn)證集上使用光檢測(cè)模型對(duì) BYTE 和 DeepSORT 進(jìn)行比較。
表 9. MOT17 驗(yàn)證集上不同輸入大小的比較??傔\(yùn)行時(shí)間是檢測(cè)時(shí)間和關(guān)聯(lián)時(shí)間的組合。最佳結(jié)果以粗體顯示。
表 10. MOT17 驗(yàn)證集上不同訓(xùn)練數(shù)據(jù)的比較。 “MOT17”是 MOT17 半訓(xùn)練集的縮寫。 “CH”是 CrowdHuman 數(shù)據(jù)集的縮寫。 “CE”是 Cityperson 和 ETHZ 數(shù)據(jù)集的縮寫。最佳結(jié)果以粗體顯示。
表 11. MOT17 驗(yàn)證集上不同插值間隔的比較。最佳結(jié)果以粗體顯示。
表 12. MOT17 測(cè)試集上“公共檢測(cè)器”協(xié)議下最先進(jìn)方法的比較。最佳結(jié)果以粗體顯示。
表 13. MOT20 測(cè)試集上“公共檢測(cè)器”協(xié)議下最先進(jìn)方法的比較。最佳結(jié)果以粗體顯示。
圖 5.ByteTrack 的可視化結(jié)果。我們從 MOT17 的驗(yàn)證集中選擇了 6 個(gè)序列,并展示了 ByteTrack 處理遮擋和運(yùn)動(dòng)模糊等困難情況的有效性。黃色三角形代表高分框,紅色三角形代表低分框。相同的盒子顏色代表相同的身份。
精讀
我們提出了一種名為BYTE的數(shù)據(jù)關(guān)聯(lián)方法,并設(shè)計(jì)了一個(gè)基于該方法的強(qiáng)大跟蹤器ByteTrack,它在多目標(biāo)跟蹤領(lǐng)域展示了顯著的性能提升。
-
BYTE數(shù)據(jù)關(guān)聯(lián)方法:
- BYTE是一種簡(jiǎn)單而有效的數(shù)據(jù)關(guān)聯(lián)技術(shù),可以輕松集成到現(xiàn)有跟蹤器中,帶來一致的改進(jìn)。
- ByteTrack通過結(jié)合BYTE方法和精確的檢測(cè)器,實(shí)現(xiàn)了對(duì)遮擋情況的魯棒性,并充分利用了檢測(cè)結(jié)果來增強(qiáng)跟蹤性能。
-
ByteTrack的性能:
- 在MOT17測(cè)試集上,ByteTrack以30 FPS的速度達(dá)到了80.3 MOTA、77.3 IDF1和63.1 HOTA,在所有跟蹤器中排名第一。
- ByteTrack的高精度、快速性和簡(jiǎn)單性使其成為實(shí)際應(yīng)用中的理想選擇。
-
邊界框注釋處理:
- 針對(duì)MOT17等數(shù)據(jù)集,我們修改了YOLOX的檢測(cè)器,以避免在圖像邊界周圍的錯(cuò)誤檢測(cè)結(jié)果,確保邊界框覆蓋整個(gè)物體。
- 對(duì)于其他剪切圖像內(nèi)邊界框注釋的數(shù)據(jù)集(如MOT20、HiEve和BDD100K),我們則保持YOLOX的原始設(shè)置。
-
光檢測(cè)模型下的跟蹤性能:
- 使用不同主干網(wǎng)的YOLOX作為檢測(cè)器,ByteTrack在MOTA和IDF1上均優(yōu)于DeepSORT,表明其對(duì)檢測(cè)性能的魯棒性。
- 特別是在使用輕量級(jí)檢測(cè)模型(如YOLOX-Nano)時(shí),ByteTrack的優(yōu)勢(shì)更為明顯,使其在實(shí)際應(yīng)用中更具吸引力。
-
消融研究:
- 速度與準(zhǔn)確性:通過調(diào)整輸入圖像大小,ByteTrack可以在保持高準(zhǔn)確性的同時(shí),實(shí)現(xiàn)不同的運(yùn)行速度,滿足不同應(yīng)用場(chǎng)景的需求。
- 訓(xùn)練數(shù)據(jù):ByteTrack在僅使用少量訓(xùn)練數(shù)據(jù)的情況下就能達(dá)到優(yōu)異的性能,這表明其對(duì)數(shù)據(jù)的依賴性較低。進(jìn)一步增加訓(xùn)練數(shù)據(jù)集(如CrowdHuman)可以顯著提升其性能,特別是IDF1指標(biāo),這得益于增強(qiáng)的檢測(cè)器對(duì)遮擋物體的識(shí)別能力。
-
軌跡插值:
-
ByteTrack采用了軌跡插值技術(shù)來處理MOT17等數(shù)據(jù)集中完全遮擋的行人。由于這些行人在遮擋期間幾乎無法通過視覺線索被檢測(cè)到,軌跡插值成為獲取這些對(duì)象位置的有效手段。
-
通過在軌跡丟失的幀之間進(jìn)行線性插值,ByteTrack能夠估計(jì)并填充遮擋期間的軌跡框。這種方法顯著提高了MOTA和IDF1等關(guān)鍵指標(biāo),證明了軌跡插值的有效性。
-
-
MOTChallenge上公開檢測(cè)結(jié)果:
-
ByteTrack在MOTChallenge的MOT17和MOT20測(cè)試集上,按照公共檢測(cè)協(xié)議進(jìn)行了評(píng)估,并展示了卓越的性能。
-
在MOT17上,ByteTrack大幅優(yōu)于其他方法,特別是在MOTA和IDF1等指標(biāo)上。同樣,在MOT20上,ByteTrack也表現(xiàn)出色,顯著提高了MOTA、IDF1和HOTA等指標(biāo),并大幅減少了身份切換。
-
這些結(jié)果進(jìn)一步驗(yàn)證了ByteTrack的關(guān)聯(lián)方法BYTE的有效性和魯棒性,尤其是在處理復(fù)雜場(chǎng)景和遮擋情況時(shí)。
-
-
可視化結(jié)果:
-
通過可視化結(jié)果,展示了ByteTrack在處理遮擋、運(yùn)動(dòng)模糊和小物體等困難情況時(shí)的優(yōu)勢(shì)。
-
即使在低分檢測(cè)框的幫助下,ByteTrack也能有效地保留并關(guān)聯(lián)行人身份,避免了身份切換的問題。
-
這些可視化結(jié)果直觀地展示了ByteTrack在實(shí)際應(yīng)用中的潛力和價(jià)值,為未來的多目標(biāo)跟蹤研究提供了新的思路和方法。
-
論文總結(jié):
這篇論文主要講了一個(gè)關(guān)聯(lián)方法:BYTE,以及用該關(guān)聯(lián)方法和YOLOX檢測(cè)器組成的跟蹤器ByteTrack。然后做了大量的實(shí)驗(yàn)將該關(guān)聯(lián)方法應(yīng)用到了很多跟蹤器上,最終得出該關(guān)聯(lián)方法很有效,可以顯著提升別的跟蹤器的效果。該跟蹤器ByteTrack也是最先進(jìn)的結(jié)果目前為止。