當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

成果速遞丨ACM MM 2024:中科視語提出FiLo,實(shí)現(xiàn)工業(yè)場景零樣本異常檢測新突破

 2024-07-30 16:23  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

在工業(yè)生產(chǎn)和質(zhì)量控制領(lǐng)域,異常檢測始終是一個關(guān)鍵問題。傳統(tǒng)的異常檢測方法通常依賴大量的正常樣本進(jìn)行訓(xùn)練,但在保護(hù)用戶數(shù)據(jù)隱私或應(yīng)用于新生產(chǎn)線時,這些方法往往不適用。零樣本異常檢測在這種情況下應(yīng)運(yùn)而生,其目的是在沒有目標(biāo)類別物體訓(xùn)練數(shù)據(jù)的情況下,直接進(jìn)行異常檢測。

近日,中科視語和中國科學(xué)院自動化研究所的研究團(tuán)隊(duì)提出了一種新的零樣本異常檢測方法——FiLo。 FiLo方法通過細(xì)粒度描述和高質(zhì)量定位模塊,在異常檢測和異常定位兩個方面取得了顯著的性能提升,在零樣本異常檢測工業(yè)場景中取得了業(yè)內(nèi)最好性能。

現(xiàn)有的零樣本異常檢測方法通常依賴于多模態(tài)預(yù)訓(xùn)練模型的強(qiáng)大泛化能力,通過計(jì)算圖像特征與手工編寫的表示“正常”或“異常”語義的文本特征之間的相似度來檢測異常,并根據(jù)文本特征和每個圖像塊特征的相似度來定位異常區(qū)域。然而,通用的“異常”描述往往無法精確匹配不同對象類別中的各種異常類型。此外,文本特征與單個圖像塊的特征的相似性計(jì)算難以準(zhǔn)確定位具有不同大小和尺度的異常。

中科視語研究團(tuán)隊(duì)提出的FiLo方法為了解決現(xiàn)有零樣本異常檢測方法在異常檢測和異常定位兩個方面存在的問題,提出了兩個有機(jī)結(jié)合的模塊:自適應(yīng)學(xué)習(xí)的細(xì)粒度描述模塊(FG-Des)和位置增強(qiáng)的高質(zhì)量定位模塊(HQ-Loc):

自適應(yīng)學(xué)習(xí)的細(xì)粒度描述模塊(FG-Des)主要利用大語言模型(LLMs)的強(qiáng)大知識來生成每個物體類別可能出現(xiàn)的細(xì)粒度異常類型,并采用自適應(yīng)學(xué)習(xí)的文本模板替代手工編寫的文本內(nèi)容,提高了異常檢測的準(zhǔn)確性和可解釋性。

位置增強(qiáng)的高質(zhì)量定位模塊(HQ-Loc)利用Grounding DINO進(jìn)行初步定位,并通過位置增強(qiáng)的文本提示和多尺度、多形狀的跨模態(tài)交互模塊(MMCI)來準(zhǔn)確定位不同大小和形狀的異常。

結(jié)合了 FG-Des 和 HQ-Loc 兩個模塊的 FiLo 方法的整體結(jié)構(gòu)如下圖所示:

FiLo首先通過大語言模型(LLMs)生成每個類別可能存在的細(xì)粒度異常類型列表,然后將細(xì)粒度異常描述填入可學(xué)習(xí)的文本模板中,通過 CLIP 文本編碼器后得到表示“正常”和“異常”語義的文本特征。與此同時,F(xiàn)iLo還將待檢測圖像和大語言模型生成的細(xì)粒度異常描述內(nèi)容輸入到Grounding DINO中,以獲得初步的異常定位框,并將初步定位框的位置信息也添加到文本特征中。

接下來,F(xiàn)iLo將待檢測圖像輸入到CLIP圖像編碼器以提取中間層特征,這些特征通過多尺度、多形狀的跨模態(tài)交互模塊(MMCI)與含有位置信息的文本特征交互,生成異常分?jǐn)?shù)圖。最后綜合各中間層的異常分?jǐn)?shù)圖,即可得到最終的異常圖和全局異常得分。

通過這種方法,F(xiàn)iLo能夠充分利用LLMs的強(qiáng)大先驗(yàn)知識和Grounding DINO的初步定位能力,再結(jié)合MMCI模塊的多尺度、多形狀特征交互,有效提升了異常檢測的準(zhǔn)確性和精確定位的能力。

基于上述方法結(jié)構(gòu),F(xiàn)iLo研究團(tuán)隊(duì)在目前流行的 MVTec-AD和VisA兩個工業(yè)異常檢測數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與現(xiàn)有零樣本異常檢測方法相比,F(xiàn)iLo取得了最先進(jìn)的性能,實(shí)驗(yàn)結(jié)果如下表所示:

下圖還展示了FiLo在一些實(shí)例上的異常檢測和定位結(jié)果,可以發(fā)現(xiàn)相比于 CLIP 的原始輸出,經(jīng)過 Grounding DINO 的定位框篩選和MMCI的多尺度交互后,F(xiàn)iLo 能夠更加準(zhǔn)確地定位出異常位置。

除此之外,通過查看與圖像特征最相似的細(xì)粒度異常描述中的內(nèi)容,我們還可以知道圖像中存在的具體異常種類,為模型的判斷提供了依據(jù),提高了模型決策的可信度和可解釋性。

FiLo論文已經(jīng)被人工智能和多媒體領(lǐng)域頂級會議 ACM MM 2024 接收,論文預(yù)印版已發(fā)布于 Arxiv 上,并開源了相關(guān)代碼。

研究團(tuán)隊(duì)認(rèn)為,現(xiàn)有異常檢測方法往往只注重判斷圖像中是否含有異常,而不重視異常的具體內(nèi)容,通過借助大語言模型的豐富知識,后續(xù)研究可以增強(qiáng)異常檢測方法對具體異常類型的判斷,增加方法的實(shí)用性和可信度。

論文地址: [2404.13671] FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

https://arxiv.org/abs/2404.13671

代碼地址:

https://github.com/CASIA-IVA-Lab/FiLo

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦