![]()
整理|華衛
昨日,科技巨頭微軟旗下研究實驗室 Microsoft AI 宣布推出三款基礎 AI 模型,可生成文本、語音和圖像。目前三款模型均已登陸 Microsoft Foundry,其中轉錄和語音模型也已在 MAI Playground 中開放使用。
此次發布標志著微軟在仍與 OpenAI 保持合作的同時,持續推進構建自有多模態 AI 模型體系,更計劃在模型研發上與 OpenAI、谷歌及其他前沿實驗室直接競爭。
正面硬剛 OpenAI 和谷歌,
更便宜還更強?
MAI-Transcribe-1 是本次發布的核心產品。據介紹,這款語音轉文本模型專為復雜、真實場景下的世界級轉錄質量而設計,可將全球使用量最高的 25 種語言的語音轉錄為文本,說話人分離、上下文定向優化與流式轉寫功能均標注為 “即將推出”。根據微軟的基準測試結果,該模型在全部 25 種語言上優于 OpenAI 的 Whisper-large-v3,在 22 種語言上超過谷歌 Gemini 3.1 Flash,并分別在 15 種語言上領先 ElevenLabs 的 Scribe v2 與 OpenAI 的 GPT-Transcribe。
![]()
該模型采用基于 Transformer 的文本解碼器與雙向音頻編碼器,支持 MP3、WAV、FLAC 格式文件,最大容量 200MB。微軟表示,其批量轉寫速度是現有 Azure Fast 服務的 2.5 倍。在行業標準多語言測試基準 FLEURS 上,該模型針對微軟產品使用量最高的 25 種語言,實現了最低的平均詞錯誤率,僅為 3.8%。微軟已在 Copilot 語音模式和 Microsoft Teams 中測試 MAI-Transcribe-1 用于對話轉寫,這一細節也凸顯出該公司正計劃迅速用自研模型替代第三方或舊版內部模型。
MAI-Voice-1 是一款音頻生成模型,支持用戶在 1 秒內生成 60 秒自然流暢的音頻,GPU 利用率極高。它能夠生成自然逼真的語音,細節豐富、情感飽滿且富有表現力,即使在長內容中也能保留說話人的音色特征。并且,微軟在 Microsoft Foundry 中新增了安全創建自定義語音的功能,僅需幾秒音頻即可完成,能夠極大簡化開發者構建語音交互體驗與智能語音助手的流程。
而 MAI-Image-2 為視頻生成模型,專為攝影師、設計師和視覺敘事創作者打造,滿足他們對自然光影、精準膚色與紋理的要求,同時可在圖表、版式和視覺設計中生成清晰的畫面內文字。最初,該模型于 3 月 19 日在全新大語言模型測試工具 MAI Playground 上線,在 Arena.ai 榜單上躋身前三模型系列后,進一步大幅提升了 Copilot 上的圖像生成性能與速度。根據實際生產流量數據,用戶在 Foundry 和 Copilot 上的生成速度至少提升至原來的 2 倍,同時畫質保持一致。該模型也正在逐步向 Bing 和 PowerPoint 分批推送。
![]()
微軟在博客中表示,在日益擁擠的 LLM 市場中,這些模型的一大賣點是定價低于谷歌和 OpenAI 的同類產品。MAI-Transcribe-1 定價起步為每小時 0.36 美元。MAI-Voice-1 起步價為每百萬字符 22 美元,MAI-Image-2 則為文本輸入每百萬 tokens 5 美元、圖像輸出每百萬 tokens 33 美元。
微軟此次發布恰逢其處境微妙之際。這家公司的股票剛迎來 2008 年金融危機以來表現最差的一個季度,投資者愈發要求微軟拿出證據,證明其數千億美元的 AI 基礎設施投入能夠轉化為實際收入。 這批定價極具競爭力、且旨在降低微軟自身銷售成本的模型,正是其應對這一壓力的首個答卷。
不足 10 人研發,
GPU 用量僅為競品一半
這些模型由微軟 MAI Superintelligence 團隊研發,同時也是團隊打響的第一槍。該 AI 研究團隊由微軟 AI 負責人 Mustafa Suleyman 牽頭,于 2025 年 11 月正式組建并公布,目標是實現他所稱的 “AI 自給自足”。
在公開發布前的采訪中,Suleyman 表示:“我非常激動,我們首批推出的模型就已達到全球頂尖的轉寫水準。不僅如此,我們實現同等效果所需的 GPU 資源僅為當前行業頂尖競品的一半。”同時,Suleyman 對其當前的競爭地位信心十足:“我們現已躋身前三的 AI 實驗室,僅次于 OpenAI 與 Gemini。”
而 Suleyman 透露的最令人震驚的細節,是研發這些模型的團隊規模之小。“語音模型由 10 個人打造,速度、效率與準確率的大幅提升,絕大部分來自模型架構和我們使用的數據。圖像團隊同樣不足 10 人。一切都源于模型與數據層面的創新,最終實現了頂尖性能。” 他表示,“我的理念一直是:人員要少而精,充分放權。因此我們采用極度扁平化的管理結構。”
與之形成對比的是 Meta,Suleyman 在采訪中將其策略形容為 “大量招人,而非打造高效團隊”,據稱該公司為頂尖研究員開出的薪酬包高達 1 億至 2 億美元。其次,小團隊就能產出頂尖成果,極大優化了經濟效益。如果微軟僅用 10 名工程師、競品一半的 GPU 資源,就能做出行業頂尖的轉寫模型,其 AI 業務的利潤結構,將與那些燒錢換取相似基準成績的公司截然不同。
當被問及團隊工作模式時,Suleyman 形容其環境更像初創公司的交易大廳,而非傳統的微軟工程部門。“團隊成員圍坐在圓桌旁,不是傳統辦公桌,用筆記本電腦而非大屏顯示器。 他們全天并肩協作,沉浸式編碼,一個房間里有五六十人,從早到晚。”
此外,Suleyman 一直在為微軟的 AI 業務構建一套名為 “人文主義 AI” 的理念品牌。他表示,“我認為,人文主義超智能的初衷,是打造真正服務于人類的技術。人類將始終處于主導地位,技術也會始終與人類利益保持一致。”在模型發布的博客文章中,Suleyman 也寫道:“在 Microsoft AI,我們正在打造 Humanist AI。我們在創建 AI 模型時有獨特理念,以人為中心針對人類真實溝通方式進行優化,面向實際應用進行訓練。很快,大家將在 Foundry 以及微軟各類產品和體驗中看到我們推出更多模型。”
Suleyman 還強調數據來源是微軟的競爭優勢,稱他曾與微軟 CEO Satya Nadella 討論,要打造 “數據來源干凈合規的模型體系”。他隱晦地與開源方案做對比,指出 “很多開源模型的訓練數據來源可以說并不合規,這可能存在安全隱患。”
與 OpenAI 重新談判,
微軟計劃實現 “完全獨立”
要理解這批模型的重要性,就必須看清促成這一切的協議層面重大轉變。盡管推出了自有模型,Suleyman 在接受外媒采訪時重申,微軟仍將繼續履行與 OpenAI 的合作承諾。不過他也透露,近期雙方對合作關系的重新談判,為微軟真正開展超智能研究掃清了障礙。
2025 年 10 月之前,微軟受合同限制,無法獨立研發通用人工智能。2019 年與 OpenAI 簽署的原始協議中,微軟獲得 OpenAI 模型授權,作為交換為其搭建所需云基礎設施。但當 OpenAI 試圖將算力合作拓展至微軟之外,與軟銀等方達成合作時,微軟重啟了協議談判。正如 Suleyman 在 2025 年 12 月接受外媒采訪時所述,修訂后的協議意味著 “就在幾周前,微軟還因合同條款,被禁止獨立研發通用人工智能或超智能模型”。新條款讓微軟得以自研前沿模型,同時保留至 2032 年使用 OpenAI 所有模型的授權。
Suleyman 也在最新采訪中直言不諱地描述了這一變化。“去年 9 月,我們重新談判了與 OpenAI 的協議,這讓我們能夠獨立推進自研超智能模型。” 他表示,“自那之后,我們開始整合算力、組建團隊,并采購所需數據。”
同時,他迅速強調,與 OpenAI 的合作關系保持不變。 Suleyman 稱,“與 OpenAI 的合作不會有任何改變,我們至少會合作至 2032 年,希望能更久。他們一直是我們極為出色的合作伙伴。” 目前,微軟已向該 AI 研究實驗室(OpenAI)投資超 130 億美元,并通過一項多年期合作協議,將其模型集成到微軟各類產品中。他還提到,微軟通過 Foundry API 提供 Anthropic 的 Claude 訪問服務,將自身定位為 “平臺中的平臺”。
但 Suleyman 的潛臺詞顯而易見:微軟正在構建獨立發展的能力。據外媒報道,Suleyman 今年 3 月在一份內部備忘錄中寫道,他的目標是 “未來 5 年,將全部精力投入超智能項目,為微軟打造世界級模型”。這一架構調整讓 Suleyman 從 Copilot 日常產品工作中脫身,前 Snap 高管 Jacob Andreou 接任執行副總裁,負責整合后的消費及商用 Copilot 體驗業務。
Suleyman 在采訪中明確表示,語音轉寫、語音與圖像生成只是開端。當被問及微軟是否會打造可與 GPT 正面競爭的前沿大語言模型時,他態度毫不含糊:“我們必將在所有模態上推出頂尖模型。我們的目標是:一旦微軟有需要,就能以最高效率、最低價格提供世界一流技術,并實現完全獨立。”
據悉,Suleyman 接受采訪之時,整個團隊正齊聚此地開展為期一周的常規線下集中會議,Nadella 也專程到場。Suleyman 還透露了多年路線圖,包括 “搭建合適規模的 GPU 集群”,規劃 “未來 2 至 4 年實現 AI 自給自足所需完成的全部目標,以及對應的算力布局路線”。
https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/
https://venturebeat.com/technology/microsoft-launches-3-new-ai-models-in-direct-shot-at-openai-and-google
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
QCon 全球軟件開發大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節跳動、小米、百度等一線科技企業與創新團隊的技術專家,圍繞 AI 工程化、系統架構與研發模式演進展開深入探討。更多詳情可掃碼或聯系票務經理 18514549229 進行咨詢。
今日薦文
![]()
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.