性饥渴少妇无码Av,青青久久成人免费精品视频

　域名預(yù)訂/競價，好“米”不錯過

在工業(yè)生產(chǎn)和質(zhì)量控制領(lǐng)域，異常檢測始終是一個關(guān)鍵問題。傳統(tǒng)的異常檢測方法通常依賴大量的正常樣本進(jìn)行訓(xùn)練，但在保護(hù)用戶數(shù)據(jù)隱私或應(yīng)用于新生產(chǎn)線時，這些方法往往不適用。零樣本異常檢測在這種情況下應(yīng)運(yùn)而生，其目的是在沒有目標(biāo)類別物體訓(xùn)練數(shù)據(jù)的情況下，直接進(jìn)行異常檢測。

近日，中科視語和中國科學(xué)院自動化研究所的研究團(tuán)隊(duì)提出了一種新的零樣本異常檢測方法——FiLo。 FiLo方法通過細(xì)粒度描述和高質(zhì)量定位模塊，在異常檢測和異常定位兩個方面取得了顯著的性能提升，在零樣本異常檢測工業(yè)場景中取得了業(yè)內(nèi)最好性能。

現(xiàn)有的零樣本異常檢測方法通常依賴于多模態(tài)預(yù)訓(xùn)練模型的強(qiáng)大泛化能力，通過計(jì)算圖像特征與手工編寫的表示“正常”或“異常”語義的文本特征之間的相似度來檢測異常，并根據(jù)文本特征和每個圖像塊特征的相似度來定位異常區(qū)域。然而，通用的“異常”描述往往無法精確匹配不同對象類別中的各種異常類型。此外，文本特征與單個圖像塊的特征的相似性計(jì)算難以準(zhǔn)確定位具有不同大小和尺度的異常。

中科視語研究團(tuán)隊(duì)提出的FiLo方法為了解決現(xiàn)有零樣本異常檢測方法在異常檢測和異常定位兩個方面存在的問題，提出了兩個有機(jī)結(jié)合的模塊：自適應(yīng)學(xué)習(xí)的細(xì)粒度描述模塊（FG-Des）和位置增強(qiáng)的高質(zhì)量定位模塊（HQ-Loc）：

自適應(yīng)學(xué)習(xí)的細(xì)粒度描述模塊（FG-Des）主要利用大語言模型（LLMs）的強(qiáng)大知識來生成每個物體類別可能出現(xiàn)的細(xì)粒度異常類型，并采用自適應(yīng)學(xué)習(xí)的文本模板替代手工編寫的文本內(nèi)容，提高了異常檢測的準(zhǔn)確性和可解釋性。

位置增強(qiáng)的高質(zhì)量定位模塊（HQ-Loc）利用Grounding DINO進(jìn)行初步定位，并通過位置增強(qiáng)的文本提示和多尺度、多形狀的跨模態(tài)交互模塊（MMCI）來準(zhǔn)確定位不同大小和形狀的異常。

結(jié)合了 FG-Des 和 HQ-Loc 兩個模塊的 FiLo 方法的整體結(jié)構(gòu)如下圖所示：

FiLo首先通過大語言模型（LLMs）生成每個類別可能存在的細(xì)粒度異常類型列表，然后將細(xì)粒度異常描述填入可學(xué)習(xí)的文本模板中，通過 CLIP 文本編碼器后得到表示“正常”和“異常”語義的文本特征。與此同時，F(xiàn)iLo還將待檢測圖像和大語言模型生成的細(xì)粒度異常描述內(nèi)容輸入到Grounding DINO中，以獲得初步的異常定位框，并將初步定位框的位置信息也添加到文本特征中。

接下來，F(xiàn)iLo將待檢測圖像輸入到CLIP圖像編碼器以提取中間層特征，這些特征通過多尺度、多形狀的跨模態(tài)交互模塊（MMCI）與含有位置信息的文本特征交互，生成異常分?jǐn)?shù)圖。最后綜合各中間層的異常分?jǐn)?shù)圖，即可得到最終的異常圖和全局異常得分。

通過這種方法，F(xiàn)iLo能夠充分利用LLMs的強(qiáng)大先驗(yàn)知識和Grounding DINO的初步定位能力，再結(jié)合MMCI模塊的多尺度、多形狀特征交互，有效提升了異常檢測的準(zhǔn)確性和精確定位的能力。

基于上述方法結(jié)構(gòu)，F(xiàn)iLo研究團(tuán)隊(duì)在目前流行的 MVTec-AD和VisA兩個工業(yè)異常檢測數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，與現(xiàn)有零樣本異常檢測方法相比，F(xiàn)iLo取得了最先進(jìn)的性能，實(shí)驗(yàn)結(jié)果如下表所示：

下圖還展示了FiLo在一些實(shí)例上的異常檢測和定位結(jié)果，可以發(fā)現(xiàn)相比于 CLIP 的原始輸出，經(jīng)過 Grounding DINO 的定位框篩選和MMCI的多尺度交互后，F(xiàn)iLo 能夠更加準(zhǔn)確地定位出異常位置。

除此之外，通過查看與圖像特征最相似的細(xì)粒度異常描述中的內(nèi)容，我們還可以知道圖像中存在的具體異常種類，為模型的判斷提供了依據(jù)，提高了模型決策的可信度和可解釋性。

FiLo論文已經(jīng)被人工智能和多媒體領(lǐng)域頂級會議 ACM MM 2024 接收，論文預(yù)印版已發(fā)布于 Arxiv 上，并開源了相關(guān)代碼。

研究團(tuán)隊(duì)認(rèn)為，現(xiàn)有異常檢測方法往往只注重判斷圖像中是否含有異常，而不重視異常的具體內(nèi)容，通過借助大語言模型的豐富知識，后續(xù)研究可以增強(qiáng)異常檢測方法對具體異常類型的判斷，增加方法的實(shí)用性和可信度。

論文地址： [2404.13671] FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

https://arxiv.org/abs/2404.13671

代碼地址：

https://github.com/CASIA-IVA-Lab/FiLo

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁 > 科技 > IT業(yè)界 > 正文

成果速遞丨ACM MM 2024：中科視語提出FiLo，實(shí)現(xiàn)工業(yè)場景零樣本異常檢測新突破

相關(guān)文章

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽