去年,一位工程師在博客寫下這句話:"我想知道怎么在生產(chǎn)環(huán)境部署大模型。"一年后,他沒停在讀文檔,而是真的動手搭了一套——用亞馬遜的容器服務跑開源推理引擎,再用幾十行前端代碼包成聊天機器人。
這不是某家大廠的官宣,沒有融資數(shù)字,沒有性能對標。但正是這種"一個人想搞清楚一件事"的起點,藏著產(chǎn)品人該看的細節(jié):選什么工具、為什么選、坑在哪。
![]()
從"看看"到"做做"的轉(zhuǎn)折點
作者坦承,最初只是好奇。但技術人的好奇有個特點:讀多了就想跑起來。他不碰訓練,只專注"怎么把模型 serving 做好"——這是工程視角的典型選擇,也是很多團隊從 demo 走向生產(chǎn)的真實分水嶺。
技術棧的選型很能說明問題。推理框架他對比了 TGI、Triton、原生 HuggingFace,最終選了 vLLM。原因沒展開,但結(jié)合上下文看,vLLM 的PagedAttention和連續(xù)批處理對吞吐的優(yōu)化,應該是關鍵考量。
基礎設施沒選"開臺 EC2 直接 SSH",而是上了亞馬遜的 EKS(托管 Kubernetes)。他的理由很直接:這不是跑腳本,是搭可靠系統(tǒng)。GPU 節(jié)點要單獨配,系統(tǒng)組件和推理負載要隔離,入口要用負載均衡暴露——這些都是在生產(chǎn)環(huán)境踩過坑才會寫的。
配置即代碼:一個 .env 文件暴露的工程思維
動手前,他先建了一個 .env 文件管理配置。里面分三塊:AWS 賬號信息、EKS 集群名、預留的 vLLM 服務端點。
這個細節(jié)很小,但值得產(chǎn)品人注意。硬編碼是 demo 的寫法,環(huán)境變量分離是工程的起點。他甚至在 VLLM_URL 那行留了注釋:"部署完成后再填"——說明整個流程是設計過的,不是邊寫邊改。
另一個容易被忽略的點是配額。AWS 新賬號默認給 G 類和 VT 實例的 vCPU 配額是 0,得先去控制臺申請?zhí)嵘街辽?4 核,才能跑 g4dn.xlarge 這個 GPU 實例。這種"云廠商的隱形門檻",文檔不會主動告訴你,只有真動手的人才會寫進教程。
基礎設施層:零默認容量的設計意圖
看代碼片段,EKS 集群的創(chuàng)建參數(shù)里有個關鍵設置:default_capacity=0。意思是"不要默認節(jié)點組,我自己定義"。
這背后是明確的資源分層思路。他配了兩個節(jié)點組:一個 t3.medium 跑系統(tǒng)組件(CoreDNS、kube-proxy),一個 GPU 節(jié)點專門跑 vLLM。配合污點(taints)和容忍度(tolerations),確保推理 pod 不會誤落到 CPU 節(jié)點上。
這種設計在小型實驗里顯得"過重",但作者的目的很明確:模擬生產(chǎn)環(huán)境。產(chǎn)品人讀到這里應該想的是——如果他的 demo 要擴成服務,這套架構(gòu)幾乎不用改。
GPU 節(jié)點還單獨綁了 IAM 角色,掛載 EKS 工作節(jié)點策略。模型存儲用的 S3,桶名直接寫在配置里。整個數(shù)據(jù)流是:S3 存模型 → GPU 節(jié)點加載 → 負載均衡暴露端點 → Streamlit 前端封裝。
為什么是這套組合?
拆解他的選型邏輯,能看到一條清晰的主線:每個工具解決一個明確問題,不重疊,不將就。
vLLM 負責推理效率,EKS 負責編排和可靠性,CDK(代碼里用了 Python 的 AWS CDK)負責基礎設施即代碼,Streamlit 負責快速驗證交互。沒有為了追求"全鏈路自研"而造輪子,也沒有因為"這只是個實驗"而降低工程標準。
這種平衡感,往往是個人項目和企業(yè)項目的最大區(qū)別。企業(yè)容易過度設計,個人實驗容易過度簡陋。作者的位置卡在中間:夠認真,夠務實。
給產(chǎn)品人的兩個觀察
第一,"部署大模型"這個需求正在下沉。一年前還是大廠基礎設施團隊的專屬話題,現(xiàn)在一個工程師用開源工具 + 云托管服務就能跑通。工具鏈的成熟速度,比多數(shù)人感知的更快。
第二,vLLM 這類推理引擎的崛起,說明生態(tài)競爭已經(jīng)從"誰能訓模型"轉(zhuǎn)向"誰能跑得好"。訓練看算力,serving 看工程——后者恰恰是中小團隊能建立優(yōu)勢的地方。
作者最后沒寫性能數(shù)字,也沒放聊天機器人的截圖。但整個流程跑下來,他解決了一個更基礎的問題:從"想知道"到"知道怎么做"。對大多數(shù)技術人來說,這個 gap 比任何 benchmark 都大。
至于那個還沒填上的 VLLM_URL——等負載均衡的 DNS 生效后,他就會補進去。然后發(fā)現(xiàn),前端調(diào)用的代碼可能比基礎設施還短。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.