亚洲成a人片在线观看日本 在线播放, 国产性videosgratis喷潮, 四虎影视国产精品一区-亚洲色欲综合, chinese农村熟妇videos,男男又爽又黄又无遮挡网站,99久久免费国产,坤坤寒入桃子里嗟嗟嗟在线观看 ,超碰在线亚洲国家,久久精品国产久久精品亚洲蜜桃

云從科技斬獲ICCV2023細(xì)粒度行為檢測挑戰(zhàn)賽冠軍 打造多模態(tài)技術(shù)閉環(huán)

2023-09-21
back

近日,ICCV2023 細(xì)粒度行為檢測挑戰(zhàn)賽(Open Fine Grained Activity Detection Challenge)順利結(jié)束,云從科技在行為分類賽道(以下簡稱OpenFAD23-ICCV23)中斬獲冠軍。


挑戰(zhàn)賽中,云從從容大模型展示了對(duì)多種模態(tài)信息的優(yōu)秀理解和處理能力,從早稻田大學(xué)、軟銀等國內(nèi)外多家知名企業(yè)、科研機(jī)構(gòu)中脫穎而出,刷新世界紀(jì)錄,再次展示了云從科技在多模態(tài)大模型領(lǐng)域的技術(shù)實(shí)力。


表1: 云從科技在OpenFAD23-ICCV23數(shù)據(jù)集上的表現(xiàn)


專注領(lǐng)先技術(shù)研發(fā) 推動(dòng)視覺大模型落地應(yīng)用


3D行為識(shí)別技術(shù)相比2D圖像識(shí)別增加了時(shí)間維度的建模,是以人為中心的感知任務(wù)的重要組成部分,一直是人工智能領(lǐng)域的研究熱點(diǎn)。






大模型具有強(qiáng)大的表征能力,并且在多模態(tài)(如語言、音頻、圖像、視頻、視覺語言)上得到驗(yàn)證,云從結(jié)合實(shí)際業(yè)務(wù)落地需求研發(fā)了基于時(shí)空建模的3D行為識(shí)別基礎(chǔ)大模型。


該模型基于Vision Transformer結(jié)構(gòu)進(jìn)行設(shè)計(jì),通過自注意力機(jī)制將空間維度和時(shí)間維度的信息進(jìn)行充分關(guān)聯(lián)。


在預(yù)訓(xùn)練階段,采用掩碼重建的方式進(jìn)行自監(jiān)督學(xué)習(xí),為了讓模型同時(shí)學(xué)到場景語義和時(shí)序動(dòng)作,采用偏場景的多模態(tài)語義特征和偏時(shí)序的動(dòng)作特征同時(shí)做為教練模型(teacher)進(jìn)行多分支特征蒸餾,使得模型同時(shí)具有場景語義和時(shí)序動(dòng)作理解能力。


基于大模型預(yù)訓(xùn)練獲得的基礎(chǔ)時(shí)空特征,能夠廣泛用于視頻檢索、視頻問答、3D行為識(shí)別、行為關(guān)鍵幀檢測等下游任務(wù)中。在下游任務(wù)微調(diào)(fine-tune)階段,通過幀間信息互補(bǔ)的方式自適應(yīng)去除模型冗余的部分,極大提升了下游任務(wù)的訓(xùn)練和推理速度。


表2:云從科技在3D行為識(shí)別領(lǐng)域權(quán)威數(shù)據(jù)集Something-Something V2上的表現(xiàn)


本次OpenFAD23-ICCV23數(shù)據(jù)集包含491個(gè)日常生活中的人類行為,部分行為之間只有極其微小的差別,需要從視頻中抽取多幀畫面并采用3D時(shí)空建模算法進(jìn)行分析。


云從科技從容大模型憑借在視覺領(lǐng)域的深厚積累,在OpenFAD23-ICCV23數(shù)據(jù)集粗粒度(coarse)行為類別上精度達(dá)到93.87%,在細(xì)粒度(fine-grain)行為類別上精度達(dá)到91.96%,識(shí)別精度相比上一屆OpenFAD22的冠軍方案高出4%以上。


準(zhǔn)確率的大幅提升表明大模型在時(shí)空關(guān)系特征建模上的優(yōu)勢(shì),意味著3D行為識(shí)別算法已經(jīng)邁入多模態(tài)大模型時(shí)代,將極大提升該技術(shù)的商業(yè)應(yīng)用價(jià)值。目前,該技術(shù)已在金融、安防等領(lǐng)域得到了廣泛應(yīng)用,例如人員動(dòng)作合規(guī)識(shí)別,打架、跌倒等行為檢測。


多次刷新紀(jì)錄 構(gòu)建多模態(tài)大模型技術(shù)閉環(huán)


今年以來,云從科技多次在多模態(tài)領(lǐng)域?qū)崿F(xiàn)技術(shù)突破。

6月

云從在CVPR 2023提出視覺大模型自監(jiān)督學(xué)習(xí)方法,僅需過往1%的數(shù)據(jù)量或者無需真實(shí)數(shù)據(jù)便可以達(dá)到相同的效果;

7月

云從行人基礎(chǔ)大模型在PA-100K、RAP V2、PETA、HICO-DET四個(gè)數(shù)據(jù)集成為世界第一,商品基礎(chǔ)大模型在MUGE、Product1M 兩個(gè)規(guī)模最大的開源中文多模態(tài)商品檢索數(shù)據(jù)集上刷新世界紀(jì)錄;

8月

云從視覺-語言跟蹤大一統(tǒng)模型在4個(gè)富有挑戰(zhàn)性的跨模態(tài)數(shù)據(jù)集(TNL2K, LaSOT, LaSOTExt, WebUAV-3M)上刷新了四項(xiàng)世界紀(jì)錄;


這使得從容大模型能夠以更好的交互性能,應(yīng)用于金融、安防、政務(wù)、交通、能源、教育、醫(yī)療、文娛等行業(yè)領(lǐng)域。


那么多模態(tài)到底意味著什么?


當(dāng)你輸入一張照片,并用語音或文字“指揮”AI將其部分摳圖修改,并發(fā)送給朋友時(shí),它能立即理解并完成指令。


多模態(tài)交互降低了AI使用的門檻,使AI有望成為萬千大眾都能使用的生產(chǎn)工具和個(gè)人助理。


如今,多模態(tài)大模型已成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn),云從科技持續(xù)專注多模態(tài)技術(shù)研發(fā)與儲(chǔ)備,推動(dòng)視覺、語言、音頻等技術(shù)的邊界融合,為更多行業(yè)帶來創(chuàng)新與變革。

您可能感興趣

全國熱線電話

400-151-5992

周一到周五9:30-18:00(北京時(shí)間)

  • 商務(wù)合作:business@cloudwalk.com

  • 媒體合作:Media@cloudwalk.com

  • 渠道合作:business_partner@cloudwalk.com

  • 人才招聘:zhaopin@cloudwalk.com

Copyright?2025 粵公網(wǎng)安備 44011502001099號(hào)

粵ICP備15087156號(hào) 云從科技集團(tuán)股份有限公司

AI開放平臺(tái)/云從logo/使用條款/法律聲明/防詐騙聲明
關(guān)注我們

掃描二維碼,關(guān)注云從科技
精彩一手掌握

留言咨詢

請(qǐng)?zhí)顚懸韵卤砀?,我們的銷售代表會(huì)盡快與您聯(lián)系

  • 姓名 *
  • 工作郵箱
  • 電話 *
  • 城市 *
  • 公司名稱 *
  • 行業(yè)
  • 職位
  • 產(chǎn)品/解決方案
    AI定義設(shè)備
    場景定義設(shè)備
    機(jī)場專用產(chǎn)品
    刷臉支付終端
    活體模組
    智慧金融
    智慧治理
    智慧交通
    智慧商業(yè)
  • 預(yù)算
  • 請(qǐng)輸入需求描述 *

提交成功

我們的銷售代表會(huì)盡快與您聯(lián)系