網易首頁 > 網易號 > 正文申請入駐

做陪伴機器人，我最先想清楚的是 AI 不該做什么

2026-05-23 10:06:18　來源: 人人都是產品經理社區

廣東舉報

分享至

我是金融本科出身、一直在做內容/直播方向的產品，最近因為對具身智能感興趣，花了不少時間研究家庭陪伴機器人這個方向。我沒有真實的硬件項目經驗，所以這篇不是“實戰復盤”，而是一個跨行產品人從零切入后，關于安全兜底這一個點的思考推演。里面對誤報代價、責任歸屬這些硬骨頭我只能點到，真正的工程坑歡迎做硬件和具身的同行在評論區拍磚。

———— / BEGIN / ————

先把結論放前面：做家庭陪伴機器人，最該想清楚的不是“AI 能做多少”，而是“AI 不該獨自做哪些”。

兜底機制的核心，是把“識別”和“決策”分開——識別可以交給模型，但觸發救援的那個決策，必須交給寫死的規則，并且最終落到一個能到現場的人身上。

下面拆成四層講。

先想清楚：這臺機器，服務誰、又安撫誰

關于陪伴機器人，默認的用戶是老人。

但我傾向于把”使用者”和”決策者”分開看，因為它們很可能不是同一個人。

日常使用這臺機器的是老人；但真正掏錢、并且抱著焦慮做購買決策的，很多時候是老人的子女。

我沒有行業數據支撐這個比例，只是從付費意愿的角度做的判斷：老人未必覺得自己需要它，而一個長期在外、沒法時時回家的年輕人，需要的是“我爸媽出事時我能第一時間知道”的那份安心。（當然也有老人自購、或養老機構集中采購的情況，這里說的只是其中一類典型情形。）

這個區分有個直接后果：摔倒檢測這類功能，服務的是老人；而它真正安撫的，是不在場的子女。所以安全兜底不是一個孤立的技術點，它是整個產品價值的承重墻——解決的是“那個本該在場的人不在場”這個焦慮。

接下來四層，都圍繞同一個問題：當最壞的情況發生、而該在場的人不在場時，系統能不能接住，又不至于天天誤報到沒人再信它？

第一層：把”識別”和”決策”分開

陪伴機器人最高優先級的場景，是“老人摔倒”這類緊急情況。這里我想先糾正一個我自己一開始也踩過的混淆：“用 AI 判斷老人是否危險”這句話，其實包含了兩件性質完全不同的事。

第一件是感知：

畫面里這個人是不是摔倒了？

這是個識別問題。

它適合用模型來做——具體是端側的視覺/多模態感知模型，而不是語言模型（這點要說清楚：像 Qwen3-0.6B 這種小語言模型雖然能在本體上離線跑，但它是處理語言的，不該拿去做摔倒識別這種視覺任務，后面會講它真正該干的活）。

感知模型的輸出不應該是非黑即白的“摔了/沒摔”，而應該帶置信度。

第二件是決策：

基于這個識別結果，要不要觸發報警、聯系子女？這是個動作問題。

這一層必須用寫死的規則，不能讓一個模型自由發揮。

為什么這么切？

因為這兩件事的容錯性不一樣。識別錯了，還能靠下一幀畫面、靠別的信號糾回來；但報警這個動作一旦發出去，就收不回來了。如果讓一個模型端到端地“看一眼畫面、自己決定要不要報警”，你既沒法解釋它為什么這么判斷，也沒法在它判錯時定位問題。拆開之后就清爽了：

感知層用模型給出“疑似摔倒，置信度 0.8”；
決策層用規則來用這個數：比如“置信度高于閾值 + 主動語音詢問無回應 + 持續靜止超過 N 秒”，三個條件印證后才升級為高風險。

這里也才是 Qwen3-0.6B 真正的位置——它擅長的是本地的語音確認對話：感知層報了疑似摔倒后，機器人本地問一句“您還好嗎？需要幫忙嗎？”，并離線理解老人的回應。這是語言任務、能斷網運行，正好是這個小模型的用武之地，而不是讓它去“看”有沒有摔倒。

至于端云怎么分：后果不可逆、不能依賴網絡的判斷放端（斷網時云端恰好失靈，是最危險的設計）；可以慢一點、但要做準的復雜分析放云。劃分依據是后果有多嚴重，不是哪邊技術上更方便。

第二層：在”漏報”和”誤報”之間顯式做權衡

上一層很容易導向一個危險的直覺：“寧可錯報一千，不可漏報一個。”但這只算了一半的賬。

一個一味追求“絕不漏報”的系統，必然制造大量誤報。誤報的代價是真實的，而且會累積：三天兩頭驚動子女、物業甚至警方，會迅速消耗所有人的信任；老人被反復的誤報警嚇到或煩到，最后干脆把設備關掉、拔了電——到那一步，兜底就徹底歸零，這比偶爾漏報更糟。

所以兜底設計的真功夫，恰恰在決策層怎么平衡這兩類錯誤，而不是把靈敏度一味拉滿。

這里我思考了幾個能壓住誤報的做法：

多模態印證再升級：單一信號（只有視覺、或只有聲音）不直接報警，要求多個信號互相佐證。這能大幅壓低誤報。
分級響應，先低成本后高成本：疑似事件先用“機器人本地詢問”這種零打擾的方式確認，確認不了再逐級升級到聯系人、外部求助。把高成本動作留到證據足夠時。
噪聲魯棒性和聲紋區分是硬骨頭。家庭是個吵鬧環境——電視、多人說話、背景音樂。系統要能把“老人真實的呼救/異響”從背景噪聲里分出來，否則誤報會失控。這塊在我看來是把這套機制真正落進家庭場景最難的工程點之一。

對不可逆的后果，天平可以向防漏報傾斜，但你得同時主動管理誤報的成本。最靈敏的那一版，往往不是最好用的那一版。

第三層：技術選型要克制，敢對某些環節說“這里不用 AI”

把前兩層抽象一下，就是一條更通用的產品原則：不是所有先進的技術，都該用在每一個環節。

現在 agent 很火，大家恨不得每個環節都塞一個。但 agent 行為相對不可控——讓它查資料、排日程，出點偏差無所謂；讓它去自主決定老人現在是不是危險、要不要報警，容錯率是零。這正是上面“決策層用規則”的理由。

可以用兩個問題給“該不該交給 AI”劃線，這是兩個不同的維度，要一起看：

這個判斷錯了，后果可逆嗎？可逆（推薦了一首老人不愛聽的歌），交給 AI 發揮；不可逆（漏報一次摔倒、誤觸發一次破門），底線得用寫死的規則兜住。
它的判斷你能解釋清楚嗎？安全相關的決策要可追溯、事后能查清楚是怎么判的；一個說不清為什么的黑箱結論，不該單獨出現在救援這條鏈上。

陪伴可以交給 AI，安全要交給規則。這是技術選型上的克制，也是這篇文章想講的核心。

第四層：兜底必須終結在“一個能做決策的人”

前三層都是技術。但兜底最容易被打穿的地方，反而在技術之外。

業界常見做法是：出事了就聯系緊急聯系人（通常是子女）。但回到第一節那個錯位——會買這臺機器的年輕人，生活節奏往往很快。開著會、在地鐵里、手機調了勿擾……完全可能在最關鍵的幾分鐘恰好聯系不上。

如果兜底接到”聯系子女”就結束，它就藏了一個單點故障：默認了那個人一定會接。

所以真正的兜底，要考慮“沒人接”之后怎么辦，把這條線繼續往下接：聯系不上第一聯系人 → 第二、第三聯系人 → 接入警方協助 → 同時并聯一條就近的線（小區物業、樓棟負責人，他們在物理上最可能最快到現場）。核心只有一句：兜底必須終結在一個有權限、且能真正到現場做決策的真人身上。一個永遠停在“等待回應”里的兜底，等于沒有兜底。

但我必須誠實地承認，這往下接的每一步都有我答不上來的硬問題，而且都不是技術問題：

物業憑什么有權進別人家門？
一次誤報導致破門，責任算誰的？
把老人的健康狀態推送給物業，隱私邊界在哪？

這些授權、責任和隱私的難題，恰恰是“終結于人”這個漂亮原則在現實里最先撞上的墻。我沒有答案，但我認為一個負責任的設計必須先把這些問題擺上桌，而不是假裝技術能繞過去。

把上面的思考收一下。這套兜底機制，說到底就是想清楚三件事的邊界：

識別交給模型，但要帶置信度
要不要救援的決策交給寫死的、能解釋的規則
而整條接力的終點，必須是一個能到現場拍板的真人

技術可以往下延伸很多層，但它接不住的那部分——

授權、責任、隱私。繞不過去，只能正面擺出來談。

（順帶一提：陪伴體驗本身也在快速變化，比如已經出現可被實時打斷的全雙工語音模型——像 Kyutai 開源的 Moshi，實測延遲約 200 毫秒，雖然在嘈雜環境下還不穩。但那更偏“陪伴”而非“兜底”，留作另一篇吧。）

再說一次開頭那句：我沒有硬件落地經驗，以上是一個跨行產品人基于公開信息和邏輯做的推演。哪些在真實工程里根本行不通、哪些是我想當然，特別希望做具身和硬件的同行在評論區直接指出來——對我來說，被拍磚比被點贊有用得多。

本文來自作者：Iris

不想錯過 AI 新趨勢，也想結識志同道合的伙伴？長按識別二維碼，免費加入AI 共學交流群，一起學習、一起玩轉 AI！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.