凌晨兩點,一位嵌入式工程師終于把7B參數的模型跑進了手機。他以為戰斗結束了——直到看到電費單。
這張圖藏著所有秘密
![]()
原文用一張對比圖拆穿了行業幻覺:云端大模型(大語言模型) vs 端側小模型(小型語言模型),成本曲線在何時交叉?
![]()
X軸是查詢量,Y軸是累計成本。云端起點低但斜率陡峭,端側起點高卻趨于平緩。交叉點通常在日均百萬次查詢附近——但大多數邊緣設備永遠到不了這個數。
硬件成本被嚴重低估
高通驍龍8 Gen 3的神經網絡處理單元(NPU)算力夠強,可單價讓批量生產的物聯網廠商倒吸涼氣。更隱蔽的是散熱:持續推理讓設備溫度飆升,降頻后實際吞吐量只剩標稱值的60%。
原文算了一筆賬:一臺邊緣網關7×24小時跑3B模型,三年總擁有成本(TCO)反而比調用云端API貴17%。這還沒算工程師為量化壓縮(Quantization)和內存優化掉的頭發。
延遲陷阱與隱私幻覺
![]()
「本地推理零延遲」是偽命題。首次加載模型進內存的冷啟動時間,在低端ARM芯片上能飆到8秒——足夠用戶關掉App給個一星差評。
隱私優勢也被過度營銷。原文指出:多數端側方案仍需回傳匿名化日志做模型更新,數據終究要出設備。真正的聯邦學習(Federated Learning)部署成本,又繞回了那張成本曲線圖。
誰在假裝看不見?
芯片廠商愛講「每瓦特算力」,云廠商鼓吹「混合架構」,中間夾著算不清賬的產品經理。原文的工程師最后把模型砍到了1.5B,精度損失4%,但總算讓CFO在會議上點了頭。
所以問題變成:當你的設備日活從10萬掉到1萬,那張成本曲線圖會怎么變形?有人愿意公開自己的真實數字嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.