<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      北京大學造出"變形金剛"AI芯片適配器

      0
      分享至


      這項由北京大學人工智能研究院主導的研究,以預印本形式發布于2026年5月,論文編號為arXiv:2605.15250,有興趣深入了解的讀者可通過該編號查詢完整論文。

      當你把一臺高端游戲電腦的顯卡換成一張"性能閹割版"顯卡時,你會希望游戲能自動調整畫質設置,而不是強行以原來的高畫質運行導致畫面卡成幻燈片。這篇論文解決的,正是大型語言模型(也就是ChatGPT、文心一言這類AI背后的核心技術)在不同計算芯片上運行時面臨的同一個困境——現有的高效方案只為一種芯片量身定做,換了芯片就摔跟頭。

      研究團隊提出了一種叫做"分組查詢潛在注意力"(GQLA)的新設計,核心思路極其簡潔:同一套訓練好的模型參數,在運行時能自動切換兩種完全等價的工作模式,讓H100這類頂級芯片和H20這類受出口管制的"平價芯片"都能各自跑在自己的最優狀態。沒有重新訓練,沒有定制內核,一套權重走遍天下。

      一、先搞清楚"KV緩存"這個攔路虎

      要理解這篇論文在做什么,先要明白AI大模型在生成文字時遭遇了怎樣的瓶頸。每當AI生成一個新詞,它都需要回顧自己之前生成的所有內容作為參考。這些"歷史記錄"就叫做KV緩存(Key-Value Cache),其中K代表"索引信息",V代表"內容信息"。

      可以把KV緩存理解為一位速記員隨時翻閱的工作筆記本。每生成一個新詞,速記員就要把整本筆記本翻一遍,找出相關內容。筆記本越厚,翻閱速度越慢。當AI生成長文本時,這本"筆記本"會變得非常龐大,每次翻閱都需要從芯片的高速內存(HBM,類似硬盤但比普通內存快得多)里把數據搬運一次,而這個搬運速度就成了整個系統最致命的瓶頸。

      學界為此發明了多種"壓縮筆記本"的方案。最激進的叫MQA(多查詢注意力),相當于所有人共用一本極簡筆記本;折中方案叫GQA(分組查詢注意力),幾個人共用一本筆記本;而DeepSeek-V2/V3采用的MLA(多頭潛在注意力)則更聰明——它不只是共用筆記本,而是把筆記本內容先壓縮成一段"精華摘要"存起來,用的時候再臨時展開。這樣筆記本體積最小,搬運最省力。

      MLA的"精華摘要"方案在英偉達H100芯片上幾乎達到了理論最優效率。但問題在于,這個方案是為H100量身裁縫的,換了芯片就出了岔子。

      二、H100和H20:同樣的帶寬,天差地別的算力

      要理解芯片適配問題,需要引入一個叫"屋頂線模型"(Roofline Model)的評估框架。這個框架把芯片性能比作一條雙斜屋頂:屋頂的左半邊代表"內存搬運速度"是瓶頸,右半邊代表"計算速度"是瓶頸,兩邊相交的最高點(叫做"屋脊點")就是計算任務應該盡量命中的最優工作區域。

      H100芯片的屋脊點大約在每字節295次浮點運算。換句話說,H100的計算能力極強,只要一個任務的"計算量與數據搬運量之比"接近295,就能把芯片利用率逼到極限。MLA的absorbed MQA模式(即"精華摘要"模式)在單次解碼時的這個比值恰好約為242,稍低于屋脊點,正處于內存搬運略微吃緊的高效區間,堪稱完美匹配。

      H20則是另一回事。由于美國出口管制,H20的計算能力被大幅削減至約148 TFLOPS,但內存帶寬幾乎保留完整(約4.0 TB/s),導致H20的屋脊點只有大約37。而MLA在H20上的比值仍然是242——這個數字遠遠高于37的屋脊點,意味著H20的計算單元被迫全速空轉等待數據,大量算力白白浪費。更直白地說,MLA在H20上是嚴重的"大馬拉小車",芯片的運算部件一直在等數據,卻等不到,吞吐量大幅下降。

      論文中的數據清楚地展示了這個差距:MLA在H20上每步解碼需要約15.42微秒,即便開啟了"多詞預測"(MTP,一次多生成幾個詞以提升效率的技術),由于H20已經是計算瓶頸,多生成一個詞只會讓等待時間成倍增加,吞吐量幾乎沒有任何提升,每秒只能生成約6.5萬個詞。與此同時,H100運行同樣的MLA卻只需2.82微秒,每秒可以生成約35.4萬個詞。

      除了效率問題,MLA還有另外兩個連帶缺陷。其一是"并行擴展受限":MLA的精華摘要模式要求所有計算頭共享同一份壓縮數據,這使得無法沿"頭軸"方向把計算分散到多張顯卡上(這種分散技術叫做張量并行),實際部署中需要把壓縮數據復制到每張顯卡,浪費內存。其二是"多詞預測失效":如前所述,在H20這類計算受限的芯片上,MLA一詞一詞地生成和一次生成多詞的速度幾乎相同,多詞預測完全失去意義。

      三、GQLA的核心設計:一套參數,兩條路走

      GQLA的關鍵發明在于,它在保留MLA"精華摘要"壓縮能力的同時,為同一套訓練參數開辟了第二條執行路徑。

      具體來說,GQLA把鍵值的上投影矩陣(可以理解為"把摘要還原為完整內容"的解碼器)不再復制給所有128個查詢頭,而是按組索引,每組8個查詢頭共享一個解碼器。這個看似微小的改變,讓整個系統在數學上同時支持兩種完全等價的計算方式。

      第一條路叫"GQA路徑":臨時把摘要展開成8組完整的鍵值對,每組對應16個查詢頭,然后按照普通GQA的方式運行注意力計算。這條路需要在緩存中存儲展開后的數據,每個詞元需要約4224字節,相當于LLaMA-3的標準GQA緩存大小,但能讓計算與數據搬運的比值降低到約38.8,恰好命中H20的屋脊點。在H20上,這條路配合多詞預測,每步解碼只需9.06微秒,每秒可生成約22.1萬個詞,比MLA的6.5萬提升了3.4倍。

      第二條路叫"MQA吸收路徑":與MLA完全相同,把解碼器矩陣直接吸收進查詢計算里,讓所有查詢頭直接對精華摘要做注意力,緩存中只需存儲摘要本身,每個詞元約1152字節,計算比值約242,完美貼合H100屋脊點。這條路在H100上單步解碼只需2.82微秒,每秒生成約35.4萬個詞。

      兩條路產生的輸出在數學上完全相同,只是計算的中間步驟不同。部署時,系統根據目標硬件一次性選定路徑,并相應地把KV緩存壓縮或展開(這只是部署時的一次性操作,而非每步推理都要做),此后無需任何改動。

      四、把現有模型"變身"GQLA:TransGQLA流水線

      從頭訓練一個GQLA模型代價高昂,研究團隊因此提出了TransGQLA——一種把已有GQA模型改造成GQLA模型的轉換流程,核心改動只有一行代碼的差異。

      這個流程建立在此前提出的TransMLA工作基礎上。TransMLA的做法是:把GQA模型里每組共享的KV頭合并成一個大的潛在向量,然后把展開矩陣復制給所有查詢頭,使模型在非壓縮模式下行為像MHA(完整多頭注意力)。TransGQLA的區別僅在于,合并時不復制展開矩陣,讓它保持按組索引——于是合并后的模型行為依然是GQA,而不是MHA。這個細節保留了沿組軸進行張量并行的能力,最多支持8路零冗余張量并行。

      完成這一步之后,TransGQLA沿用TransMLA的后續流程:通過"RoRoPE"技術把位置編碼信息從內容編碼中解耦出來,通過"FreqFold"技術對旋轉位置頻率進行重新排列以利于后續壓縮,最后通過對鍵和值進行歸一化平衡后做聯合低秩壓縮,把龐大的中間向量壓縮到一個緊湊的潛在表示。這些步驟操作的對象是合并后的潛在向量,完全不關心外層模型是GQA還是MHA解釋,因此可以直接復用。

      研究團隊在LLaMA-3-8B上驗證了這個流程。這個模型有32個查詢頭、8個KV組,每個頭的維度為128,原始GQA緩存每詞元每層需要2048個BF16元素。經過TransGQLA處理并壓縮到576維潛在空間后,MQA吸收路徑的緩存降至原來的28.125%,壓縮率超過了7倍。GQA路徑的緩存大小則與原版相近,保留了原始GQA的傳輸效率。

      五、稀疏注意力的擴展:為什么GQLA更有優勢

      論文還討論了一個進階話題:稀疏注意力。正常的注意力機制每生成一個新詞都要看遍所有歷史詞,當上下文很長(比如幾萬個詞)時開銷巨大。稀疏注意力的思路是,每次只挑選最相關的一小批歷史詞來參考,跳過無關的大部分歷史,從而大幅降低計算量。

      DeepSeek提出的DSA(深度求索稀疏注意力)是目前主流的稀疏方案,但它與MLA組合時存在結構性缺陷?,F代GPU芯片的矩陣乘法加速單元(張量核心)有一個硬性限制:它的基本計算瓦片(MMA瓦片)的M維度至少需要16,意味著每個KV頭必須同時服務至少16個查詢頭,才能讓張量核心滿負荷工作。MLA在非壓縮模式下每個KV頭只對應1個查詢頭,遠低于16的門檻,張量核心完全發揮不出來,所以稀疏MLA被迫在所有設備上都只能走MQA吸收路徑,無法利用GQA路徑的優勢。

      GQLA的標準配置是128個查詢頭配8個KV組,每組恰好對應128/8=16個查詢頭,與MMA瓦片的M=16完美匹配。這意味著稀疏GQLA可以在GQA路徑上讓張量核心滿負荷工作,在H20這類計算受限的芯片上保持高效,同時保留沿組軸的張量并行能力。記憶力受限的硬件可以切換到稀疏MQA吸收路徑以最小化緩存搬運,計算受限的硬件則留在稀疏GQA路徑保持低算力消耗,兩種選擇都不需要定制內核。

      論文還提到,當上下文極長(超過6.4萬詞)時,計算"哪些歷史詞最相關"本身也會變成瓶頸。另一項叫HISA的工作提出了一種分層評分方法來加速這個篩選過程,與GQLA自然互補——HISA負責"更快地找出相關詞",GQLA負責"更高效地對相關詞做注意力計算",兩者組合能從兩端同時逼近硬件理論峰值。

      六、實驗驗證:轉換后掉了多少能力,能恢復嗎

      研究團隊選取了開源的LLaMA-3-8B作為測試對象,在六個常識推理基準測試上評估了轉換效果,包括MMLU(綜合知識)、ARC(科學推理)、PIQA(物理常識)、HellaSwag(情境理解)、OpenBookQA(開放知識)和Winogrande(代詞消歧)。

      原始LLaMA-3-8B在這六項測試的加權平均分為63.84分。經過TransGQLA轉換但不做任何額外訓練后,平均分降至54.13分,下降了約9.7分。PIQA和HellaSwag的得分與原始模型相差只有幾分,表明模型的基礎語言理解能力保留較好,主要損失集中在需要大量知識記憶的MMLU等任務上。這個損失程度對于超過7倍的緩存壓縮率而言是相對溫和的。

      研究團隊還給出了預期恢復軌跡的參照。此前TransMLA的實驗顯示,在同樣的LLaMA-3-8B基礎上做同樣壓縮后,用約300億詞元的數據繼續預訓練,平均分就能恢復到63.39分,與原始模型只差0.5分——而300億詞元相比LLaMA-3本身訓練用的15萬億詞元,僅僅是約五百分之一的訓練量。由于TransGQLA和TransMLA在0訓練詞元時的分數完全相同(兩者的KV子空間壓縮步驟完全一致,只有前期的頭合并方式不同),研究團隊預計TransGQLA的繼續預訓練曲線將與TransMLA高度一致,因此可以合理期待同樣數量級的訓練后即可恢復到接近原始水平。這個繼續預訓練實驗正在進行中,完整結果將在后續版本中補充。

      七、選擇(g=8, sq=2)還是(g=4, sq=1):兩種H20優化方案的權衡

      論文詳細討論了兩種在H20上達到最優效率的參數配置,各有側重。

      g=8配合多詞預測sq=2的方案是研究團隊的推薦默認配置。這種配置的優點是多方面的:8個KV組意味著潛在空間維度為8×128=1024,比rkv=512的壓縮目標大一倍,給PCA壓縮留出了2倍冗余,壓縮質量更高;支持最多8路零冗余張量并行,大規模部署時擴展性好;每組16個查詢頭恰好匹配MMA瓦片要求,為后續的稀疏擴展打好基礎;配合多詞預測,H20每秒吞吐量可達22.1萬詞。

      g=4不使用多詞預測sq=1的方案則是一個輕量替代選項。每詞元緩存大小從4224字節降至2176字節,只比MQA吸收路徑的1152字節多一些,緩存壓力顯著減小;不需要多詞預測頭,模型結構更簡單;但PCA冗余度降為1倍(PCA是一種數據降維技術,冗余度越高,壓縮時信息保留越完整),張量并行上限也降至4路。在H20上同樣能達到22.1萬詞/秒的吞吐量。

      關鍵的一點是:無論選擇哪種GQA路徑配置,MQA吸收路徑的計算強度公式中根本不含g這個變量,因此兩種配置在H100上都以完全相同的2.82微秒每步在MQA吸收路徑上運行,不受影響。這正是GQLA設計的精髓所在——GQA路徑的參數選擇完全不會牽連H100上的表現,兩套硬件的優化方案可以獨立調整。

      說到底,GQLA做的事情聽起來有點像魔術,但背后的道理其實很樸素:同一批數學參數,根據不同的計算順序,可以既表現得像"把筆記精簡成摘要再直接用",也表現得像"按小組展開筆記分組處理",兩種算法算出來的答案一模一樣,只是計算過程中的數據搬運量和運算次數的比例不同。哪種比例更適合當前芯片的脾氣,就用哪種。這種靈活性以前從來沒有人在這個問題上明確提出過,而研究團隊用一個極小的結構改動就實現了。

      歸根結底,這項工作的價值在于打破了一個隱含的假設——"為頂級芯片優化的模型架構在平價芯片上只能湊合用"。通過讓同一套模型參數在數學意義上等價地適配不同硬件特性,GQLA為大模型部署的硬件無關性提供了一條實際可行的路徑。對于那些既需要在高端數據中心提供服務、又希望在不同算力級別的硬件上靈活擴展的團隊來說,這個思路值得認真參考。

      你可能想知道,這種設計對未來的模型訓練有什么影響。一個有趣的推論是:如果模型從一開始就按照GQLA的結構訓練,那么部署時就可以完全不做任何轉換,直接根據目標硬件選擇路徑。這意味著未來DeepSeek這類機構在設計下一代模型時,可以考慮把GQLA作為MLA的直接替代,從訓練階段就埋下兩路兼容的基因。而對于已有的大量GQA模型(比如LLaMA系列),TransGQLA流程提供了一條相對低成本的改造路徑,不必從零開始。

      當然,論文本身也坦誠地指出了幾處待完善的地方。屋頂線分析是一種理論工具,現實中的芯片還有緩存層次結構、指令流水線延遲、多流調度等復雜因素,實際的內核級基準測試還需要在真實H20和H100硬件上完成。TransGQLA的繼續預訓練結果也尚未完成,目前的恢復預測是基于TransMLA的經驗推斷。此外,所有實驗都集中在LLaMA-3-8B這一個模型上,在更大規模(如70B參數)和更多任務類型(長文本檢索、代碼生成、數學推理等)上的驗證還需要后續工作來補充。

      如果你對大模型推理優化或硬件適配感興趣,可以通過arXiv:2605.15250找到這篇論文的完整版本,里面包含詳細的數學推導、完整的實驗數據以及符號表。

      Q&A

      Q1:GQLA和MLA有什么區別,為什么GQLA能適配H20?

      A:MLA只有一條"精華摘要"執行路徑,這條路徑的計算與數據搬運比值約為242,適合H100但遠超H20屋脊點37,導致H20的計算單元空轉浪費。GQLA在保留這條路徑的同時,新增了一條GQA路徑,通過按組展開數據讓比值降至約38,恰好命中H20屋脊點,H20吞吐量因此從6.5萬詞/秒提升至22.1萬詞/秒,提升了3.4倍。兩條路徑使用完全相同的訓練參數,輸出也數學等價。

      Q2:TransGQLA轉換后模型能力會損失多少,需要多少額外訓練來彌補?

      A:以LLaMA-3-8B為例,經過TransGQLA轉換但不做任何額外訓練,六項常識推理基準的平均分從63.84降至54.13,下降約9.7分,同時KV緩存壓縮至原來的28.125%。根據同類方法TransMLA的經驗,用約300億詞元繼續預訓練后,平均分可恢復至63.39,與原始模型僅差0.5分。300億詞元相當于LLaMA-3原始訓練量的約五百分之一,訓練成本相對較低。

      Q3:GQLA的兩條路徑切換時需要改變模型參數或重新訓練嗎?

      A:不需要。兩條路徑共享完全相同的訓練參數,切換時只需在部署階段對KV緩存做一次性的壓縮或展開操作,之后運行時無需任何改動。MQA吸收路徑復用MLA的現有內核,GQA路徑復用標準GQA內核,均不需要定制開發新的計算內核。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      跨級入選!潘朝偉回應2次失誤:知道你們對我看法不好 但我不在意

      跨級入選!潘朝偉回應2次失誤:知道你們對我看法不好 但我不在意

      風過鄉
      2026-05-23 09:58:04
      中方毫不猶豫,直接拒絕美高層訪華,特朗普要做出決定,不然免談

      中方毫不猶豫,直接拒絕美高層訪華,特朗普要做出決定,不然免談

      神秘的未知領域
      2026-05-23 10:27:45
      熱刺隊長生死戰竟缺席回國看球,球迷怒斥:立刻剝奪其袖標!

      熱刺隊長生死戰竟缺席回國看球,球迷怒斥:立刻剝奪其袖標!

      星耀國際足壇
      2026-05-22 21:14:12
      5月23日,多家上市公司發布重大利好利空消息

      5月23日,多家上市公司發布重大利好利空消息

      A股數據表
      2026-05-23 06:05:03
      同樣是深夜!蘋果降價后,京東華為、小米、榮耀等爆款手機5月21日起集體降價

      同樣是深夜!蘋果降價后,京東華為、小米、榮耀等爆款手機5月21日起集體降價

      極目新聞
      2026-05-21 11:27:45
      黃巖島:結束15年菲律賓霸占后的新面貌

      黃巖島:結束15年菲律賓霸占后的新面貌

      趙枹是個熱血青年
      2026-04-13 17:04:11
      認知越低,人越犟

      認知越低,人越犟

      細說職場
      2026-05-19 15:44:21
      北京輸球后疑似內訌?許利民已被架空了:李楠越權指揮球員都懵了

      北京輸球后疑似內訌?許利民已被架空了:李楠越權指揮球員都懵了

      籃球快餐車
      2026-05-23 02:25:59
      中國雙航母同時建造,十年內將獲海上壓倒性優勢

      中國雙航母同時建造,十年內將獲海上壓倒性優勢

      春之韻
      2026-05-23 01:04:35
      臥槽!詹姆斯點明下家球隊,大批球隊失去希望

      臥槽!詹姆斯點明下家球隊,大批球隊失去希望

      體育新角度
      2026-05-22 22:18:22
      最后20票,臺島投票結果出爐,鄭麗文憤怒拍桌,人民日報敲響警鐘

      最后20票,臺島投票結果出爐,鄭麗文憤怒拍桌,人民日報敲響警鐘

      影孖看世界
      2026-05-23 01:23:12
      最多判一千年,骨灰都不讓出獄!英國主持人拍攝薩爾瓦多超級監獄,這是當地人的鎮妖塔...

      最多判一千年,骨灰都不讓出獄!英國主持人拍攝薩爾瓦多超級監獄,這是當地人的鎮妖塔...

      英國那些事兒
      2026-05-21 23:17:51
      紀委態度明確!上班時段抽空接送孩童,公職人員此舉算不算違紀

      紀委態度明確!上班時段抽空接送孩童,公職人員此舉算不算違紀

      復轉這些年
      2026-05-22 21:32:20
      以軍攔截“全球堅韌船隊”畫面公布,愛爾蘭總統的妹妹遭以軍扣留,愛爾蘭總統:我很擔心她,全球多地抗議以軍行徑

      以軍攔截“全球堅韌船隊”畫面公布,愛爾蘭總統的妹妹遭以軍扣留,愛爾蘭總統:我很擔心她,全球多地抗議以軍行徑

      每日經濟新聞
      2026-05-21 11:17:36
      北師大男生拒吃女生剩飯始末:實習單位看不下去,又給男生重新做

      北師大男生拒吃女生剩飯始末:實習單位看不下去,又給男生重新做

      世界圈
      2026-05-23 11:13:11
      殲-15近乎全退役,成全球最短命艦載機,有何短板?

      殲-15近乎全退役,成全球最短命艦載機,有何短板?

      緊跟時代脈搏
      2026-05-20 13:55:55
      打一針,睡足8小時!“睡眠針”悄然走俏,3億失眠人有救了?

      打一針,睡足8小時!“睡眠針”悄然走俏,3億失眠人有救了?

      思思夜話
      2026-05-23 11:32:09
      當司法部開始玩梗,真相就成了笑話

      當司法部開始玩梗,真相就成了笑話

      云朵偷喝奶茶
      2026-05-22 00:11:41
      馬英九久違現身稱沒失智,精神科醫師列影片7點露了餡

      馬英九久違現身稱沒失智,精神科醫師列影片7點露了餡

      臺海新時光
      2026-05-23 09:00:45
      馮德萊恩沒想到,先等來的不是加稅50%,中國用歐盟的方式反制歐

      馮德萊恩沒想到,先等來的不是加稅50%,中國用歐盟的方式反制歐

      共工之錨
      2026-05-23 00:12:49
      2026-05-23 12:31:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8475文章數 564關注度
      往期回顧 全部

      科技要聞

      爆炸聲中又邁一步!拆解馬斯克“十二飛”

      頭條要聞

      媒體:美國宣布暫停對臺軍售 中國大陸未表達"贊許"

      頭條要聞

      媒體:美國宣布暫停對臺軍售 中國大陸未表達"贊許"

      體育要聞

      嘲諷許利民的發言,可許指導說錯了嗎?

      娛樂要聞

      歌手2026首播:胡彥斌破音 張碧晨跑調

      財經要聞

      股價暴跌!富途老虎是什么來頭?

      汽車要聞

      11萬級直接上四驅 銀河星耀7限時權益價9.88萬起

      態度原創

      親子
      藝術
      本地
      家居
      公開課

      親子要聞

      杰森上班第一次遲到,沒想到艾登做法挺意外,下班問問爺倆啥情況

      藝術要聞

      鄭麗文重用王金平,書法備受關注!書法最終目的是什么?

      本地新聞

      用云錦的方式,打開江蘇南京

      家居要聞

      低調傳承 溫潤沉靜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高清国产在线| 久久精品国产亚洲夜色av网站| 688欧美人禽杂交狂配| 92精品国产自产在线观看481页| 亚洲丝袜熟女| 中文字幕AV在线| 丝袜欧美视频首页在线| 国产剧情视频一区二区麻豆| 亚洲乱码中文字幕| 亚洲,变态,制服,综合,中 | 久久精品一卡二卡三卡四卡| 亚洲国产成人精品区综合| 精品人妻一区二区三区浪潮在线 | wwww黄色| 国产女人在线| 中文人妻熟女乱又乱精品| 欧美性色黄大片| 久热最新在线观看视频| 97无码免费人妻超级碰碰碰| 久久一日本综合色鬼综合色| 国产伦精品一区二区三区| 另类国产ts人妖合集| 亚洲精品国产一区二区三区在线观看 | 九九影院理论片私人影院| 国产自在自线午夜精品| 亚洲AV片毛片成人观看| 国产卡一卡二卡三| 亚洲av噜噜一区二区| 日日操影院| 久久久午夜精品福利内容| 日本在线一区二区观看| 亚洲av成人无码天堂| 亚洲三区自拍| 麻花传媒剧电影| 国产二级一片内射视频播放| 亚洲色成人一区二区三区人人澡人人妻人人爽人人蜜桃麻豆 | 国产亚洲一区二区三区四区| 一区二区三区高清视频国产女人 | 亚洲tv精品一区二区三区| 艳妇乳肉豪荡av无码免费反馈| 国产精品揄拍100视频|