網易首頁 > 網易號 > 正文申請入駐

港中文團隊發布7模態人體動作數據集，揭開大模型理解能力短板

2026-05-25 17:41:03　來源: DeepTech深科技

北京舉報

分享至

近日，香港中文大學信息工程系邢國良教授團隊的博士生蔣思陽作為第一作者，完成了一項名為 CUHK-X 的大型多模態人體動作數據集，這個數據集能讓 AI 真正看懂人在做什么、為什么這么做以及接下來要做什么。這項研究成果已被移動計算領域頂級國際會議 ACM MobiSys 2026 接收。

有了它，服務機器人可以更聰明地理解你的需求，養老院能提前預警老人摔倒風險，康復系統能分析病人的動作是否標準。他們用這個數據集測了市面上好幾款主流的大模型，發現即便是最聰明的 AI，在理解人類真實動作這件事情上，平均正確率也只有四成左右，還有很長的路要走。

這項研究其實是被現實需求逼出來的，該團隊之前在做邊緣部署的 AI 系統時發現，現有的數據集都只停留在識別層面，比如拍一個人摔倒，AI 知道這是摔倒。不過大模型時代需要的不只是認出來，還要理解這個人是怎么摔倒的，是絆到了椅子還是被東西砸到，以及摔倒之后應該怎么辦。

理解和推理這兩個能力，恰恰是 AI 要走進家庭、醫院、養老院這些真實場景時最需要的。市面上的主流大模型主要針對彩色照片優化，面對深度圖、熱成像、毫米波雷達這些非常規傳感器時表現很差，根本原因就是缺少這類傳感器的配對數據。

CUHK X 的數據收集走了一條反常規的路徑，傳統做法是先隨便拍一堆視頻，然后找人一幀一幀打標簽，效率極低還容易出錯。該團隊先設計好動作場景，再用大模型把動作串成一段有邏輯的劇情，最后讓參與者照著劇情演。比如刷牙洗臉梳頭穿衣服這幾個動作，大模型會生成一段從起床到洗漱完畢的完整描述，參與者照著演就行了。數據收集前標簽就已經定好了，準確性大大提高。

整個數據集包含 40 個動作，分成了七個大類。這套動作清單是從 12 個公開數據集的 349 個動作中篩選出來的高頻動作。

數據收集使用的傳感器陣容相當豪華，主攝像頭是一臺 Goermicro Vzense NYX 650，同時輸出彩色、深度和紅外三種信號。熱成像用的是海康威視 TB4117，毫米波雷達是德州儀器 IWR6843ISK。慣性傳感器用的是五臺 WitMotion WT9011DCL BT50，分別綁在雙手手腕、雙腳腳踝和腰部。

所有傳感器通過主機的全局時鐘同步，用場記板標記起始點，確保七路信號精確對齊。整個數據收集在兩個室內環境中完成，覆蓋了客廳、廚房、臥室和衛生間四個典型居室場景。

（來源：https://arxiv.org/pdf/2512.07136）

CUHK-X 數據集中，光是視覺類模態就包括 4,029 段視頻，總時長達 19 小時 29 分鐘。該團隊利用這套數據開展了一系列基準測試。在傳統的動作識別任務上，熱成像表現最好，準確率 92.57%，彩色攝像頭 90.89%，深度攝像頭 90.46%，紅外 90.22%，骨架數據 79.08%。毫米波雷達和慣性傳感器因為信號噪聲大，準確率只有 46% 和 45% 左右，說明非視覺傳感器在動作識別上還有很大提升空間。

最考驗 AI 水平的是理解和推理，因此該團隊設計了四個理解層面和一個推理層面的的任務。

第一個是描述生成，讓 AI 看一段視頻，然后寫出一段話描述畫面里的人在干什么。測試結果顯示，表現最好的模型在熱成像和深度數據上也只能拿到三四十分的匹配度，和真實描述差得很遠。

第二個是情境分析，讓 AI 判斷視頻里的人是悠閑還是匆忙。目前主流模型平均正確率與隨機猜測無異。

第三個是動作排序，把一段打亂順序的視頻片段重新排好，比如先拿杯子后倒水最后喝水。這個任務的挑戰在于 AI 必須理解動作之間的因果鏈條。

第四個是動作選擇，從 40 個動作里選出視頻中出現的動作。這項測試平均正確率不到 25%，說明當前大模型在多動作復雜場景下幾乎無能為力。

（來源：https://arxiv.org/pdf/2512.07136）

推理任務的難度則更進一步，通過讓 AI 觀察一段動作序列，預測下一秒會發生什么，來判斷現有大模型的推理能力。該團隊發現，普通的描述型大模型在這個任務上表現很差，它們只會照搬表面特征，比如看到有人在餐桌前就猜吃飯，完全不管餐具拿沒拿。

不過有推理能力的模型表現好很多，它會分析上下文，看到桌子上有衣服、人在擦手、旁邊放著包，就會推斷出接下來很可能是要穿衣服出門。這種模型還會給出推理過程，讓人知道它是怎么得出結論的。

（來源：https://arxiv.org/pdf/2512.07136）

不過，這些看似條理清晰的實驗結果，并不是一蹴而就的。從設備選型到場地搭建，從志愿者招募到數據清洗，團隊遇到的麻煩遠比想象中多，而其中最慘痛的一次教訓，來自毫米波雷達。

據介紹，毫米波雷達那次失利讓整個團隊刻骨銘心。在實驗室里調得好好的，搬到新場地信號全亂套了，十幾個小時的采集全部作廢，二十多個參與者得重新叫回來。蔣思陽說這個教訓很昂貴，那就是永遠不要覺得在一個環境跑通了，換個地方就理所當然能跑通。

圖 | 第一作者照片（來源：受訪者）

另據悉，蔣思陽本科主修數學專業，碩士畢業于中國臺灣大學，研究方向為硬件系統，博士就讀于香港中文大學信息工程系，從事計算機系統方向的研究。

他即將博士畢業，并計劃繼續從事學術研究，進一步深化和完善這一數據集。下一步計劃把參與人數從 30 人擴展到 100 人，加入 WiFi 信號和音頻等新模態，還要去真正的養老機構做實地驗證。在他看來，AI 要真正理解人，光靠識別遠遠不夠，必須在場景里建立起完整的因果鏈條。CUHK-X 數據集的搭建為算法研究者提供了驗證模型的平臺。

參考資料：

相關論文 https://arxiv.org/pdf/2512.07136

http://aiot.ie.cuhk.edu.hk/

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.