我正在研究一個基本上是基於知識的問答系統的項目。我的系統從用戶處獲取查詢,從維基百科下載相關文檔,去除所有html標籤並提取純文本。在此之後,它將文檔標記爲句子,然後形成術語 - 文檔(TD)矩陣(查詢也作爲句子傳遞)。這個TD矩陣然後被轉發到pLSA(概率潛伏體系分析)算法。然後,最終計算文檔(語句)向量與查詢向量之間的餘弦相似度。基於與查詢向量的相似性,最相關的句子被顯示爲答案。 (在TD M
我試圖找出問題中的關鍵短語以及預期的答案類型。我使用斯坦福分析器來生成問題的分析樹。我需要遍歷這個分析樹,並根據一些啓發式在每個節點上做出選擇,不管它是否是關鍵短語。 如果只有我有權訪問斯坦福分析器中使用的完整CFG,我可以擴展啓發式以涵蓋可能出現在樹中的所有節點的子節點。 The Stanford Parser: A statistical parser