Wikidata 收錄的項目將近 1.2 億,如此龐大的資料數量不用在大型語言模型真是太可惜了!
在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
Knowledge Graphs with Large Language Models】一文中,作者選擇了 Wikidata 作為基礎,能將大型語言模型抽取的知識,能夠化為一個結構嚴謹的知識圖譜。
Wikidata 涵蓋了從日常常識到專業領域近 1.2 億個實體,並提供了清晰的本體規則:每一個屬性都有主語與賓語的型別限制,並且透過「instance of (P31) 」與「subclass of (P279)」建立了完整的階層結構。這些規則,使得抽取出來的三元組能夠被檢查、被修正,最後成為一個符合邏輯的知識網絡。
在論文提出的系統 Wikontic 中,文本首先被送入模型,抽取出候選的三元組。這些三元組隨後會經過一連串的檢查:先比對 Wikidata 的本體約束,刪除或修正不合法的關係;再透過 Wikidata 的標籤與別名,將不同的表述方式對齊到標準的實體;最後,重複的資訊會被合併,並保留必要的限定詞,例如時間或地點。經過這些步驟,原本散亂的文字,就被轉化為一個結構化的知識圖譜。
附圖呈現 Wikontic 的工作流程:文本進入系統,經過抽取、檢查、正規化與去重,最後匯聚成一個與 Wikidata 本體一致的知識圖譜。
透過 Wikontic 的設計,作者證明了 Wikidata 不僅是輔助工具,而是整個流程的核心。它讓抽取的知識具備一致性與可靠性,甚至能在多跳問答任務中取代原始文本,展現出結構化知識的力量。
完整論文可參閱:https://arxiv.org/pdf/2512.00590
附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」
#Wikidata #維基資料 #維基數據
#Wikontic
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM