Make Any Collection Navigable: Methods for Constructing and Evaluating Hypergraph of Text
構建和評估文本超圖的方法
https://arxiv.org/pdf/2604.25906
![]()
![]()
摘要
網絡比簡單的文檔集合更有用的一個原因是,超鏈接所創建的結構使得能夠從一個網頁靈活地導航到另一個網頁。然而,超鏈接通常是手動創建的,且無法完全捕捉語料庫的隱含語義結構。是否存在一種通用方法使任意集合可導航?近期的工作通常將這一問題形式化為構建文本超圖(Hypergraph of Text, HoT),它為支持導航和瀏覽提供了形式化的數學結構。然而,如何構建和評估文本超圖仍然是一個挑戰。在本文中,我們提出并研究了幾種構建HoT的方法。我們還提出了一種新的定量指標——努力比率(effort ratio),用于評估所構建HoT的結構質量。實驗結果表明,即使簡單的TF-IDF基線方法在我們提出的努力比率指標上也能與基于LLM的方法相媲美。
1 引言
盡管過去幾十年信息檢索領域取得了巨大進步,但在分散的集合中發現和導航相關內容仍然是一個挑戰。雖然大語言模型(LLM)的最新進展在一定程度上解決了這一挑戰(特別是通過直接支持問答),但對其可靠性的擔憂[14]以及它們無法獲取最新信息限制了其實用性。如何使用戶能夠直接訪問并發現最相關的原始信息仍然是一個開放的挑戰。
雖然搜索引擎和像ChatGPT這樣的LLM工具有助于幫助人們找到相關信息,但它們要求用戶構建有效的查詢或問題,因此在存在詞匯鴻溝時限制了其實用性。此外,它們在幫助用戶發現相關但未知的信息方面作用有限。
瀏覽被提出作為一種克服這些困難的方法,它使用戶能夠探索信息空間,而無需任何關于如何構建查詢、文檔集合中使用何種詞匯,或集合中究竟包含什么內容的先驗知識。與LLM問答系統相比,瀏覽允許更大程度的用戶自主性和更清晰的信息出處,同時比傳統搜索允許更多的意外發現。這些特征使其成為探索式信息檢索或集合理解等任務的一個有吸引力的范式。
盡管瀏覽長期以來一直受到信息檢索和網絡社區中許多人的關注(例如見[6–8, 10, 11, 19, 25, 26, 34]),但與支持搜索和問答的技術相比,在支持瀏覽的通用技術方面的研究進展相對較少。瀏覽與搜索或問答之間的一個關鍵區別在于,雖然搜索和問答已經享有統一的數學框架和直觀的定量指標,但瀏覽卻沒有。因此,盡管許多先前的研究都主張需要支持瀏覽(例如見[7, 19, 34]),并且在瀏覽方面已經做了大量工作,但仍然缺乏一種通用工具來組織任意的文本集合并實現整個空間的導航;今天的用戶大多只能通過手動創建的鏈接進行導航,例如網絡上的眾多超鏈接。
最近,文本超圖(HoT)[4]被提出作為一種數學結構,用于將任意文本文檔集合組織成超圖語義結構并使其可導航。其直觀想法是,超邊提供了一種定義任何語義鄰域的通用方法,這是實現語義導航的關鍵概念。HoT可以作為構建通用導航系統的理論框架,其意義在于可以將任何可瀏覽的文檔集合表示為HoT,并且任何HoT都可以在統一界面上進行可視化瀏覽。事實上,文本信息導航工具包[5]可用于可視化任何HoT,并使用戶能夠導航由HoT表示的信息空間。
然而,如何構建HoT以及如何評估HoT為用戶提供的瀏覽支持的實用性,仍然是未被充分研究的開放性挑戰問題;原始工作[4]僅介紹了一種單一方法,且僅進行了定性評估。在本文中,我們試圖通過研究如何應對這兩個挑戰來解決這一知識空白。具體而言,我們研究了幾種HoT構建方法,例如LLM、嵌入和TF-IDF過濾。我們通過提出一種新指標來解決評估挑戰,該指標量化了HoT超邊對瀏覽的實用性。使用所提出的評估方法,我們在一個網絡數據集上系統比較了多種HoT構建方法。實驗結果表明,雖然各種方法都能創建有效的鏈接,但每種方法都涉及不同的權衡,并且在結構導航方面,基于LLM的方法并不總是優于更簡單的統計方法。
總之,本文的貢獻包括: (1)我們提出并研究了三種方法(TF-IDF過濾、LLM主題提取和兩步“相似度-后接LLM”)來解決HoT構建問題。 (2)我們提出了一種新指標,它使得能夠對HoT構建算法進行定量評估。 (3)我們進行實驗以評估HoT構建算法,發現LLM-doc實現了最低的努力比率,但代價是38%的相關對未連接,而基于TF-IDF的All-Words方法盡管成本低幾個數量級,但在結構上仍具有競爭力。
總體而言,我們的工作展示了基于HoT構建開發支持瀏覽的通用技術的巨大潛力。
2 相關工作
信息抽取: 信息抽取[38]已被廣泛研究數十年,近期的一些工作側重于抽取實體和關系以構建知識圖譜[42]。傳統方法依賴于監督學習,特別是條件隨機場方法[16, 28],并且更側重于預定義的實體和關系類型。后來的方法探索了如何使用開放實體和關系進行信息抽取[21]。 近期,大語言模型已被用于知識圖譜構建[23, 36]。盡管知識圖譜可用于組織文本數據,但其對文本內容的覆蓋僅限于知識圖譜中包含的實體和關系;相比之下,為HoT構建生成的鏈接覆蓋整個信息空間,并使用戶能夠導航到信息空間中潛在的任何區域。就所抽取的信息而言,HoT構建旨在抽取主題信息,而信息抽取更側重于抽取實體和關系。HoT構建中抽取的信息對支持用戶導航更有用,而抽取的實體和關系往往對構建知識圖譜更有用,以進一步支持自然語言處理中的各種下游應用。
主題模型: 概率主題模型[1, 31]是發現和分析文本數據中所涵蓋主題的通用技術。抽取出的主題通常表示為詞分布。發現的主題及其在文檔中的覆蓋范圍有許多應用,尤其是意見分析、時空主題趨勢分析以及基于主題的文檔表示。與我們工作最相關的是,使用主題模型從文本中發現的主題結構也可用于組織文本。然而,這種結構在支持用戶導航方面存在各種局限性[4](例如,只能很好地覆蓋主要主題)。HoT中的超邊可以覆蓋所有類型的語義鏈接,并在文本片段級別進行覆蓋。因此,它們在支持導航方面比主題模型更有用。
文本聚類: HoT構建也可以與文本聚類[2, 3]和分段[22]相關聯。盡管這兩項任務都專注于對文本集合進行分組,但傳統的聚類方法將對象劃分到非重疊的集合中。這使得傳統文本聚類方法不適合HoT構建,因為具有非重疊超邊的HoT僅能實現簇內導航。相比之下,HoT允許超邊重疊,這意味著節點可以是多個集合的成員。這實現了更廣泛的連接性,使其成為支持瀏覽的更合適框架。
語義匹配、超鏈接生成與語義標注: 在文本語義匹配方面已開展了大量工作[17, 18],主要用于信息檢索、問答、文本聚類和抄襲檢測等應用[13]。一些近期方法基于大語言模型[39]。一些工作(例如[27])也使用相似度度量來創建鏈接,從而將線性文本轉換為超文本。實際上,超文本和超鏈接的自動生成也得到了廣泛研究[35, 37]。雖然語義文本匹配和自動超鏈接生成實現的文檔點對點鏈接確實可以促進瀏覽,但它們無法實現主題瀏覽。由于HoT既能實現點對點瀏覽(通過大小為2的超邊)又能實現主題瀏覽,它是一個比舊范式更通用的框架。 一些近期工作也探索了使用大語言模型對文本數據進行語義標注(例如[9, 32],其中可以將層次結構中的語義標簽分配給文本文檔,實質上實現了層次化文本分類。與文本聚類類似,該任務的目標與HoT構建相似。事實上,語義標注與HoT更為接近,因為各組具有自然語言標簽。然而,與文本聚類一樣,語義標注/標記通常專注于將文本分類到互不相交的組中。盡管我們可以從其方法中汲取靈感,但由于HoT構建專注于瀏覽,要求節點屬于多個組,HoT與語義標注的計算任務最終是不同的。
大語言模型(LLMs): 近年來,大語言模型在許多自然語言處理[20]和信息檢索任務[40]中的應用工作呈爆炸式增長,例如文本摘要[41]、信息抽取[36]和問答[29]。我們的工作引入了大語言模型用于HoT構建的新應用,這在此前尚未被探索,并直接支持大型文檔空間中的語義瀏覽。
3 文本超圖
如前所述,盡管用戶在信息搜尋中同時使用查詢和瀏覽,但對查詢的支持遠比對瀏覽的支持成熟。盡管搜索引擎技術已取得巨大進步,但我們尚無任何類似的通用技術,能將任意分散內容集合轉化為組織良好的鏈接內容以提供通用瀏覽支持。這里的一個主要障礙是將瀏覽形式化為計算問題的困難;如果沒有為瀏覽定義明確的計算問題,就很難研究或評估任何算法。 一項近期研究表明,可瀏覽的集合可以正式表示為文本超圖(HoT)[4]。這項工作為如何消除這一長期存在的障礙提供了一些思路,因為我們現在可以將支持瀏覽的問題正式定義為一個計算問題,其中輸入是任意文檔集合,輸出是以每個文檔為節點的HoT。因此,HoT可以作為組織分散內容的通用數學結構。以這種方式構建瀏覽問題的一個顯著好處是,一旦構建了HoT,就可以使用通用系統(如TINK系統[5])將其可視化顯示給用戶進行瀏覽。這意味著同一個瀏覽系統可用于支持瀏覽任何HoT。因此,如何提供通用瀏覽支持的整個問題現在可以歸結為如何為任意文檔集合構建HoT。本文的一個主要目標是開發用于構建HoT的算法,并且關鍵的是,開發一種評估已構建HoT的方法。
作為背景,我們首先簡要介紹文獻 [4] 中提出的文本超圖(Hypergraph of Text, HoT)結構。我們從其定義開始:
定義 3.1(文本超圖)。
![]()
這一定義可以看作是文本圖(textual graph)的泛化,當應用于文本集合時,它為導航和各種類型的分析提供了基礎。
持懷疑態度的讀者可能會問:超越圖(graphs)進行泛化有什么好處?為了回答這個問題,我們可以回顧瀏覽方面的基礎性工作。在闡述信息系統“采莓模型”(berrypicking model)的開創性著作 [7] 中,Bates 闡述了六種瀏覽技術:
(1) 腳注追蹤(Footnote chasing)
(2) 引用搜索(Citation searching)
(3) 期刊瀏覽(Journal run)
(4) 區域掃描(Area scanning)
(5) 主題搜索(Subject searching)
(6) 作者搜索(Author searching)
我們對 Bates 的這六種方法有以下觀察:在這六種方法中,只有腳注追蹤和引用搜索是點對點的。在另外四種方法中,用戶感興趣的是文檔組(在作者搜索中是作者組,在其余方法中是主題組)。因此,為了最好地支持所有瀏覽模式,我們需要一種既能支持點對點連接(如同標準圖那樣)又能支持 N 元連接(n-ary connections)的結構。超圖正是這種結構。
4 方法
在本節中,我們討論三種 HoT 構建方法及其相應的實現。第一種方法“All-Words”(全詞法)將文檔中的所有單詞視為一個超邊,然后使用 TF-IDF 分數對超邊進行加權和剪枝。第二種方法“LLM-Doc”和“LLM-Sentence”利用大語言模型(LLMs)在句子和文檔兩個層面提取主題。最后,我們要提出的基于相似度的兩步法結合了語義相似度測量與 LLM 引導的主題提取,試圖解決前述方法的弱點。
在討論這些方法時,我們會提到使用 LLM 和句子轉換器(sentence transformer)。在我們的實現中,我們使用 llama3-8b-instruct [12] 作為我們的 LLM。對于句子轉換器,我們利用 sentence transformers 包 [24],并選用 All-MiniLM-L6-v2 作為我們的特定模型 [33]。這些方法的完整代碼,包括 LLM 提示詞(prompts),將在 GitHub 上公開。
4.1 All-Words(全詞法)
這種方法背后的核心思想是將文檔之間共享的“所有單詞”(All words)視為一個潛在的超邊。自然地,包含所有單詞對于導航或分析來說是多余的。因此,我們只包含那些具有較高平均 TF-IDF 分數的單詞(即按平均 TF-IDF 衡量的前 n% 的超邊)。
![]()
![]()
4.2 LLM-Doc 和 LLM-Sentence
先前的工作表明 LLM 可用于創建 HoT [4]。具體而言,他們將每個文檔拆分為句子,并提示 LLM 提取每個句子的主題并將其輸出為列表。先前的工作指出,這種方法產生的主題數量比文檔數量多出兩個數量級。為了避免這種情況,我們提出了一種額外的基于 LLM 的 HoT 構建方法。該方法與先前的方法大體相似,不同之處在于主題是在文檔級別而非句子級別提取的。
4.3 兩步相似度(Two-Step Similarity)
對先前方法的初步調查表明,雖然 LLM 顯示出前景,但也并非沒有問題。具體而言,句子級別的方法傾向于產生過多的超邊,而文檔級別的方法則傾向于產生過少的超邊。為了使 LLM 專注于提取既具有細粒度細節又與集合相關的主題,我們建議首先選取句子對,然后使用 LLM 提取這些預定句子之間的語義鏈接。
為了確保我們只考慮最具信息量的句子,我們使用了一個結合 TF-IDF 分數和嵌入余弦相似度的兩步過濾過程。我們計算每個句子的平均 TF-IDF 分數,從而可以用一個單一的數字來表示句子的重要性。平均 TF-IDF 分數如下所示,其中 的緩存 TF-IDF 向量表示:
![]()
我們計算每個文檔中每個句子的上述分數。然后,我們按文檔對分數進行排序,并僅保留每個文檔中排名前 k 的句子。
在過濾步驟之后,我們接下來希望利用句子嵌入來為每個句子尋找最相似的句子。盡管由于先前的過濾步驟該方法已經提速,但我們仍使用 FAISS 的 GPU 版本 [15] 以確保高效執行。最后,根據以下邏輯選擇前 k 個句子對:首先嘗試選擇余弦相似度最高的句子對,且不重復句子或文檔;如果無法做到,則允許重復以填補剩余的句子對。選擇這種方法而不是簡單地按余弦相似度選擇前 k 個對,是為了促進連接的多樣性。
對于每一對句子,我們使用 LLM 提取共同主題。每個共同主題成為一個超邊,包含來自該對的文檔。任何后續被發現也共享此主題的文檔都會相應地添加到該超邊中。與“All-Words”方法不同,該方法在無需任何額外剪枝的情況下就相當可用。然而,該方法確實會產生大量基于僅由兩個文檔共享的主題的語義鏈接。雖然超邊擁有兩個成員是明確定義的,但人們也可能希望剪枝這些大小為 2 的超邊,以聚焦于更實質性的主題組。我們在結果中探討了剪枝版本和未剪枝版本。
5 評估 HoT 構建
如何評估 HoT 構建是一個具有挑戰性的問題。確實,目前尚無先前的定量指標能夠表明用于瀏覽目的的 HoT 的質量。這一挑戰因存在許多潛在有用的創建超邊的方法而變得更加復雜。為了緩解這一問題,我們引入了一種通用方法論,用于定量評估 HoT 結構的質量。
![]()
![]()
![]()
![]()
![]()
![]()
努力比為 1 表示相對于隨機導航沒有優勢;低于 1 的值表示相關文檔比隨機文檔距離更近;高于 1 的值則表明相關文檔之間的距離反常地比隨機集合更遠。直觀地說,如果 DRel = 2 且 DRand = 5,那么 ER = 0.4,這意味著在相關節點之間導航所需的平均跳數僅為在隨機節點對之間導航所需跳數的 40%。
這個努力比將是我們用于評估的主要指標。值得重申的是,這種評估方法和這些指標對于評估 HoT 構建是非常通用的。雖然我們在實驗中選擇了一類特定的數據集,但有許多方法可以找到具有已知相關性的文檔。一些例子包括網絡日志、綜述論文和問答數據集。
5.1 努力比的屬性
努力比具有若干關鍵特性,使其非常適用于評估超文本(HoT)的構建。在本節中,我們將花一些時間逐一探討這些特性。我們首先從幾個有用的定義開始。
![]()
換句話說,如果超邊中至少有 α 比例的(無序)文檔對彼此相關,則該超邊是 α -相關性對齊的。同樣地,如果少于 β 比例的文檔對彼此相關,則該超邊是 β -非相關性對齊的。請注意,分子和分母計算的都是無序對,因此該比率位于 [ 0 , 1 ] 之間。
定義 5.3(飽和度度量)。 對于超圖 H ,我們定義以下兩個飽和度度量:
![]()
![]()
![]()
![]()
![]()
![]()
這里的關鍵見解在于,除了在超圖結構高度不平衡且隨機節點比相關節點連接得更緊密的異常情況下,努力比會對添加那些連接了更多不相關文檔(而非相關文檔)的超邊進行懲罰。這正是我們在導航指標中所期望的行為。
導航指標的另一個理想特性是能夠懲罰過載。也就是說,我們不想給那些僅僅通過濫加邊來實現良好連接的方法打高分。我們需要一個能對超圖中邊的總數產生一定正則化作用的指標。這就引出了我們的下一個結果。
![]()
![]()
![]()
5.1.3 努力比的局限性。 雖然努力比允許對 HoT(超文本主題)進行定量評估,但它確實有兩個關鍵的局限性。首先,如果超圖包含不連通的組件,它的定義就不明確(或無法良好定義)。這是該指標基于節點間距離這一事實的直接結果。因此,在考慮努力比時,應始終結合考慮項目不連通的嚴重程度。出于這個原因,我們提出了另一個指標:相關斷開比例(Relevant Disconnect Proportion, RDP)。這個指標僅僅是指彼此不連通的相關文檔對的比例。結合努力比來看,RDP 讓我們能夠知道 HoT 構建方法是否本質上是通過選擇偏差來“欺騙”該指標。
![]()
6 實驗結果
在我們的實驗中,我們在一個 MultiHop-RAG 問答數據集 [30] 上使用了第 5 節提出的指標。該數據集包含 609 篇文章和 2556 個多跳查詢,這些查詢分布在 2 到 4 篇文檔之間。雖然 MultiHop-RAG 論文未指明任何主題分布,但人工檢查顯示其主題包括時事、金融市場與股票、體育賽事以及電子游戲。出于實驗目的,我們將每個與文檔關聯的查詢視為一組彼此相關的文檔集合。這意味著我們的集合 R R(如第 5 節所述)是一個包含 2556 個元素的集合族,其中每個成員集合的大小為 2 到 4。
我們的實驗揭示了不同 HoT 構建方法在性能上的有趣差異。結果總結于表 1。在深入結果之前,首先值得注意每種方法的相對計算需求。兩種"全詞"(All-Words)方法相當輕量,不需要任何具備機器學習能力的硬件。而基于 LLM 的方法計算需求則高得多,需要大量的 LLM 調用。兩步式 LLM 方法同樣需要 LLM 調用,但由于存在過濾步驟,其調用量顯著減少。
![]()
LLM 類方法表現出最大的方差:其中句子級方法和文檔級方法分別獲得了最高(非隨機)和最低的努力比。這或許并不令人意外,因為這兩種方法在超邊數量上也顯示出最大差異——句子級方法的超邊數量比文檔級方法高出一個數量級。雖然文檔級方法在所有提出的方法中實現了最低的努力比,但值得注意的是,近 40% 的相關文檔對處于斷開狀態。由于斷開的文檔無法計入平均距離(否則會使平均距離變為無窮大),該方法具有最低的努力比可能表明它僅能建立那些"容易"的連接。斷開率較低的方法必須處理這些"困難"的連接,而這些連接通常相距更遠,因此會對其平均相關距離造成懲罰。
相比之下,"全詞"方法和"兩步"方法均取得了努力比在 0.50 至 0.60 范圍內的結果。盡管"全詞"方法的超邊數量較少,但兩種變體均表現良好。需要注意的是,"全詞"方法創建的語義鏈接是單詞主題,這是其語義鏈接的質量局限。例如,除非一個人能輕易通過單個名字被識別(如柏拉圖),否則該方法無法很好地捕捉與該人物相關的主題。"兩步"方法則沒有這一缺點。由于"兩步"方法的運行時間遠比"全詞"方法長,最佳方法的選擇可能取決于用戶的限制條件和使用場景,因為每種方法各有優劣。在預算受限的場景下,或在主題細微差別不太重要的場景中,top-5% 的"全詞"方法在努力比上僅比"兩步"方法高出 0.02,但其超邊數量僅為后者的五分之一,且無需調用 LLM。
7 局限性
作為對超文本主題(HoT)構建的初步研究,我們僅在一個數據集上研究了 HoT 構建。在未來,重要的是通過使用所提出的模擬評估策略在更多數據集上進行實驗,以進一步驗證我們的發現。一旦構建了 HoT,就可以應用多種算法(例如隨機游走、路徑發現、異常發現)對 HoT 進行后處理,以揭示文本數據中許多有趣的潛在語義模式(例如爭議分析、對比分析或關聯分析)。此外,雖然定量評估使我們能夠比較多種 HoT 構建方法,但從用戶角度來看,HoT 構建的實際效用仍需通過用戶研究進行進一步評估。
8 結論與未來工作
在本文中,我們研究了如何構建文本超圖(Hypergraph of Text, HoT),以語義化地組織任意文本集合,從而支持導航。我們研究了三種執行 HoT 構建的方法,包括利用大語言模型(LLM)的方法。為了定量評估瀏覽效果,我們提出了一種新穎的評估指標:努力比(effort ratio)。我們的實驗結果表明,雖然各種方法都能夠生成潛在有用的鏈接,但每種方法各有優劣。以 HoT 為基礎,我們的工作朝著開發一種通用技術邁出了一步,該技術旨在支持用戶瀏覽任意文檔集合,具有廣泛的應用前景。一個重要的下一步是通過真實的用戶研究進一步驗證這些指標和算法。另一個有前景的未來方向是將所提出的算法應用于特定的應用場景,例如構建 HoT 來組織搜索結果、研究論文集合、組織由一群人創建的任何共享數字圖書館(例如班級中的學生論文),或組織任何個人內容文件夾。
原文鏈接:https://arxiv.org/pdf/2604.25906
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.