亚洲成a人片在线观看日本 在线播放, 国产性videosgratis喷潮, 四虎影视国产精品一区-亚洲色欲综合, chinese农村熟妇videos,男男又爽又黄又无遮挡网站,99久久免费国产,坤坤寒入桃子里嗟嗟嗟在线观看 ,超碰在线亚洲国家,久久精品国产久久精品亚洲蜜桃

無(wú)需標(biāo)注數(shù)據(jù) 云從科技及聯(lián)合研究團(tuán)隊(duì)提出一種視覺模型自監(jiān)督學(xué)習(xí)方法

2023-06-27
back

游戲《光環(huán)》中的

人工智能科塔娜說(shuō)過(guò)一句話,

“我是他的盾牌,我是他的利刃;我深知他,連同他的過(guò)去和未來(lái)”。

作為“六感”之首的視覺,占據(jù)了人類吸收外部信息的70%以上。如果說(shuō)人工智能的遠(yuǎn)景是打造一個(gè)具有大腦、神經(jīng)、軀干與四肢的機(jī)器人,那么,硬件基礎(chǔ)是軀干、四肢,更重要的是,要使得機(jī)器人能看會(huì)想,能聽會(huì)說(shuō),就要搭建神經(jīng)和大腦。


訓(xùn)練視覺模型的目標(biāo)是教會(huì)AI看見和理解現(xiàn)實(shí)世界,其中,點(diǎn)云視頻理解對(duì)于智能體與世界的交互至關(guān)重要。

近日,國(guó)際計(jì)算機(jī)視覺頂會(huì)CVPR 2023在加拿大溫哥華舉行。作為國(guó)際計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域的三大頂級(jí)會(huì)議之一,CVPR備受關(guān)注。云從科技及聯(lián)合研究團(tuán)隊(duì)的論文《PointCMP: Contrastive Mask Prediction for Self-supervised Learning on Point Cloud Videos》(基于掩碼預(yù)測(cè)的點(diǎn)云視頻自監(jiān)督學(xué)習(xí))成功入選。


01

簡(jiǎn)介

從靜態(tài)點(diǎn)云中解析現(xiàn)實(shí)世界已經(jīng)取得了巨大的成就。最近,對(duì)點(diǎn)云視頻的理解也越來(lái)越受關(guān)注。與此同時(shí),自監(jiān)督學(xué)習(xí)可以從未標(biāo)注的數(shù)據(jù)中提取高質(zhì)量的表征,這將為標(biāo)注成本高昂的點(diǎn)云視頻理解任務(wù)帶來(lái)幫助。
因此,我們探索了以自監(jiān)督的方式從點(diǎn)云視頻中學(xué)習(xí)表征的方法。盡管基于對(duì)比學(xué)習(xí)和掩碼預(yù)測(cè)的自監(jiān)督學(xué)習(xí)范式已經(jīng)在圖像和靜態(tài)點(diǎn)云領(lǐng)域顯示出了強(qiáng)大的有效性,但是將這些方法直接擴(kuò)展到點(diǎn)云視頻上仍存在諸多挑戰(zhàn)。

在本文中,我們提出了PointCMP,一種用于點(diǎn)云視頻自監(jiān)督學(xué)習(xí)的對(duì)比掩碼預(yù)測(cè)框架。PointCMP采用雙分支結(jié)構(gòu),同步學(xué)習(xí)點(diǎn)云視頻的局部和全局時(shí)空信息。在此之上,我們提出了一個(gè)基于互相似度的增強(qiáng)模塊,以實(shí)現(xiàn)基于特征的樣本生成。
通過(guò)計(jì)算各局部表征與該樣本全局語(yǔ)義之間的相似度,我們可以找到那些與語(yǔ)義高度相關(guān)的關(guān)鍵部分。將這些關(guān)鍵部分掩蔽可以提升自監(jiān)督預(yù)測(cè)任務(wù)的挑戰(zhàn)性,以促使模型學(xué)習(xí)更有效的表征。與此同時(shí),我們也嘗試擦除關(guān)鍵的特征通道,從而針對(duì)性的生成難負(fù)例用于全局對(duì)比學(xué)習(xí)。


02

方法

我們的PointCMP架構(gòu)如圖1所示。給定一個(gè)點(diǎn)云視頻,首先將其均勻地分成多個(gè)視頻片段。然后,將這些片段送入編碼器得到局部Token以及具有全局語(yǔ)義的全局Token。接下來(lái),將它們傳遞給基于互相似度的增強(qiáng)模塊。


圖1 PointCMP的架構(gòu)示意圖


從直覺上來(lái)說(shuō),當(dāng)與全局Token具有較高相似度的局部Token可見時(shí),預(yù)測(cè)任務(wù)會(huì)變得更容易。因此,我們掩蔽掉這些具有高相似度的局部Token以生成有難度的掩碼樣本。我們選擇相似度高的Token作為關(guān)鍵Token。各局部Token所覆蓋的點(diǎn)云通常有重疊,而視頻片段之間有一定的信息隔離。
因此,我們選擇包含最多個(gè)關(guān)鍵Token的視頻片段,并將此片段下聚合而成的所有局部Token都掩蔽掉。此外,我們將具有高相關(guān)度的特征通道視為主通道,并將它們擦除以生成難負(fù)樣本。直觀上來(lái)說(shuō),擦除掉這些重要的主成分特征后勢(shì)必會(huì)與原始樣本形成一個(gè)負(fù)樣本對(duì)。

我們將帶有掩碼的Token序列與位置編碼相加后輸給一個(gè)回歸器,來(lái)預(yù)測(cè)被掩碼處的表征。被預(yù)測(cè)的表征與編碼器得到的相對(duì)應(yīng)的原始表征組成正樣本對(duì),而與其余的組成負(fù)樣本對(duì)。我們使用InfoNCE損失來(lái)完成此局部對(duì)比學(xué)習(xí)分支。

與此同時(shí),我們還為樣本的全局表征構(gòu)建了全局對(duì)比學(xué)習(xí)分支。由回歸器重新補(bǔ)全的Token序列經(jīng)過(guò)池化層得到新的全局表征,并與原始全局表征構(gòu)成正樣本對(duì)。
擦除主特征通道后的Token序列經(jīng)過(guò)池化層得到全局難負(fù)例。并且,同一批次內(nèi)的其他視頻的全局表征也作為當(dāng)前樣本的負(fù)樣本。我們同樣使用InfoNCE損失來(lái)完成此全局對(duì)比學(xué)習(xí)分支。


03

實(shí)驗(yàn)

首先,我們對(duì)預(yù)訓(xùn)練后的編碼器進(jìn)行微調(diào),來(lái)評(píng)估PointCMP學(xué)習(xí)到的表征。我們將MSRAction-3D數(shù)據(jù)集同時(shí)用于預(yù)訓(xùn)練和端到端微調(diào)。當(dāng)使用PSTNet作為編碼器時(shí),相對(duì)于基線,PointCMP預(yù)訓(xùn)練帶來(lái)了顯著的精度改進(jìn)。

表1 MSRAction-3D數(shù)據(jù)集上的驗(yàn)證結(jié)果

如表1所示,在使用8 幀時(shí),行為識(shí)別的精度從83.50%提高到89.56%。這表明,PointCMP預(yù)訓(xùn)練可以以自監(jiān)督的方式從點(diǎn)云視頻中學(xué)習(xí)到有益的知識(shí),這有助于在微調(diào)后獲得更高的精度。


然后,我們通過(guò)線性實(shí)驗(yàn)來(lái)驗(yàn)證PointCMP預(yù)訓(xùn)練所學(xué)到的表征的有效性。同樣的,MSRAction-3D數(shù)據(jù)集被用于預(yù)訓(xùn)練和線性測(cè)試。預(yù)訓(xùn)練的編碼器被凍結(jié),并添加一個(gè)額外的線性分類器用于監(jiān)督訓(xùn)練。我們的方法在大多數(shù)幀數(shù)設(shè)置下都超過(guò)了基線。這證明了PointCMP預(yù)訓(xùn)練讓模型學(xué)習(xí)到了高質(zhì)量的表征。



表2 NTU-RGBD (Cross-Subject) 數(shù)據(jù)集上的驗(yàn)證結(jié)果

此外,我們還在NTU-RGBD數(shù)據(jù)集上做了半監(jiān)督實(shí)驗(yàn),即在自監(jiān)督預(yù)訓(xùn)練后用一部分有標(biāo)注的數(shù)據(jù)微調(diào)模型。從表2的結(jié)果來(lái)看,當(dāng)我們使用PSTNet作為編碼器時(shí),只用50%的標(biāo)注數(shù)據(jù)微調(diào)模型就可以接近全監(jiān)督的基線精度。這表明PointCMP預(yù)訓(xùn)練可以在無(wú)標(biāo)注數(shù)據(jù)中挖掘數(shù)據(jù)自身所蘊(yùn)含的知識(shí),這不僅可以節(jié)約人力成本還可以將預(yù)訓(xùn)練模型作為初始化從而進(jìn)一步提升模型的性能。


圖2 高相似度局部Token及其鄰域點(diǎn)(綠色)的可視化結(jié)果


我們?cè)趫D2中進(jìn)一步可視化了與全局Token具有高度相似性的關(guān)鍵局部Token及其鄰域點(diǎn)。正如我們所看到的,與運(yùn)動(dòng)的關(guān)鍵身體部位相對(duì)應(yīng)的點(diǎn)被突出顯示。這與我們的直覺是一致的。通過(guò)掩蔽這些關(guān)鍵區(qū)域,鼓勵(lì)編碼器利用更多上下文進(jìn)行掩碼預(yù)測(cè),以此學(xué)習(xí)更高質(zhì)量的表征。


總結(jié)展望

自監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)主要是利用輔助任務(wù)從無(wú)標(biāo)注數(shù)據(jù)中挖掘自身的監(jiān)督信息。相比于利用特定任務(wù)的標(biāo)注作為監(jiān)督信息訓(xùn)練,這不僅可以節(jié)省標(biāo)注成本,還可以使模型學(xué)習(xí)到更泛化的知識(shí)和對(duì)多種下游任務(wù)有價(jià)值的表征。在數(shù)據(jù)為王的時(shí)代,此特點(diǎn)也使得大家充分相信自監(jiān)督學(xué)習(xí)才是人工智能的發(fā)展方向。

另一方面,點(diǎn)云視頻含有豐富的動(dòng)態(tài)視覺信息,可以幫助智能體充分了解這個(gè)實(shí)時(shí)變化的3D世界。且相比于傳統(tǒng)視頻以紋理信息為主,點(diǎn)云視頻涵蓋更精確的幾何信息和位置坐標(biāo)。
所以,點(diǎn)云視頻可以為低能見度環(huán)境中的動(dòng)作識(shí)別等任務(wù)提供保障。由此可見,點(diǎn)云視頻理解對(duì)于人工智能系統(tǒng)與世界交互非常重要。在海量數(shù)據(jù)之上,借助自監(jiān)督技術(shù)推動(dòng)點(diǎn)云視頻理解,也許會(huì)幫助我們打造一個(gè)能想會(huì)說(shuō)、能聽會(huì)看的AI。

您可能感興趣

全國(guó)熱線電話

400-151-5992

周一到周五9:30-18:00(北京時(shí)間)

  • 商務(wù)合作:business@cloudwalk.com

  • 媒體合作:Media@cloudwalk.com

  • 渠道合作:business_partner@cloudwalk.com

  • 人才招聘:zhaopin@cloudwalk.com

Copyright?2025 粵公網(wǎng)安備 44011502001099號(hào)

粵ICP備15087156號(hào) 云從科技集團(tuán)股份有限公司

AI開放平臺(tái)/云從logo/使用條款/法律聲明/防詐騙聲明
關(guān)注我們

掃描二維碼,關(guān)注云從科技
精彩一手掌握

留言咨詢

請(qǐng)?zhí)顚懸韵卤砀?,我們的銷售代表會(huì)盡快與您聯(lián)系

  • 姓名 *
  • 工作郵箱
  • 電話 *
  • 城市 *
  • 公司名稱 *
  • 行業(yè)
  • 職位
  • 產(chǎn)品/解決方案
    AI定義設(shè)備
    場(chǎng)景定義設(shè)備
    機(jī)場(chǎng)專用產(chǎn)品
    刷臉支付終端
    活體模組
    智慧金融
    智慧治理
    智慧交通
    智慧商業(yè)
  • 預(yù)算
  • 請(qǐng)輸入需求描述 *

提交成功

我們的銷售代表會(huì)盡快與您聯(lián)系