在2020年CCKS(全國知識圖譜與語義計算大會)舉辦的“基于本體的金融知識圖譜自動化構建技術評測”中,我們團隊提出的方案最終取得了第五名的成績。該評測任務聚焦于金融領域,要求參賽者利用給定的非結構化文本和預定義的金融本體,自動化地抽取實體、關系及屬性,以構建結構化的知識圖譜。本文旨在我們的核心方法,并探討其在更廣泛場景下的推廣潛力。
我們的方法并非依賴單一的模型或技巧,而是構建了一個多階段、多模型協同的流水線系統,核心思想是“融合先驗、迭代優化”。主要步驟如下:
1. 本體引導的實體識別與分類:
金融本體提供了嚴謹的概念層次和約束,這是寶貴的先驗知識。我們采用基于BERT的序列標注模型進行命名實體識別(NER),但關鍵創新在于將本體中的類別信息(如“公司”、“金融產品”、“人物”)融入到模型的訓練中。我們構建了一個本體感知的標簽體系,并在輸入層通過特殊標記或特征嵌入的方式,讓模型“感知”到當前文本片段可能涉及的金融概念,從而提升了對專業術語和歧義實體的識別準確率。
2. 關系與屬性的聯合抽取:
針對金融文本中實體關系緊密交織的特點,我們沒有將關系抽取和屬性抽取完全割裂。我們設計了一個基于指針網絡的聯合抽取模型。該模型以識別出的實體對和上下文為輸入,同時預測關系類型和屬性值。這種方法能有效捕捉關系與屬性之間的內在聯系,例如,“A公司控股B公司(關系)”與“持股比例(屬性)”常常同時出現,聯合建模減少了誤差傳播。
3. 基于規則與一致性校驗的后處理:
純端到端的深度學習模型在處理復雜金融邏輯時仍有不足。我們引入了一個后處理模塊,利用本體中定義的概念不相交性、屬性值域等約束,以及人工的少量高質量規則,對自動抽取的結果進行校驗和修正。例如,檢查“成立日期”屬性的格式是否符合時間規范,或根據“是...的子公司”關系推斷并補全反向的“擁有子公司”關系,確保圖譜的邏輯一致性。
4. 迭代式知識融合與自增強:
這是我們的核心優化策略。初始構建的圖譜難免存在噪聲和缺失。我們設計了一個輕量級的迭代流程:將首輪抽取結果中置信度較高的部分(如高概率實體和關系)作為“準知識”,反哺給后續的抽取模型。在第二輪處理時,模型能夠參考這些已存在的知識來理解上下文,從而提升對模糊提及或長距離依賴關系的抽取能力。這種“抽取-融合-再抽取”的閉環,有效實現了系統的自我增強。
雖然本次評測聚焦金融,但我們的方法框架具有向其他垂直領域推廣的普適價值。
###
在CCKS2020評測中取得第五名,是對我們提出的“本體引導、聯合抽取、規則校驗、迭代增強”技術路線的有效驗證。該方法平衡了數據驅動與知識驅動的優勢,在保證自動化程度的顯著提升了金融知識圖譜構建的準確性與一致性。其模塊化的設計理念和融合核心思想,為在更多數據有限但知識豐富的垂直領域,進行高效、可靠的知識圖譜自動化構建,提供了可借鑒、可推廣的解決方案。結合大模型等新技術,這一框架有望釋放出更大的潛力。
如若轉載,請注明出處:http://www.vdjbole.cn/product/17.html
更新時間:2026-01-07 07:43:48
PRODUCT