我正在努力制定一個解決方案來檢測源代碼和文檔之間的可跟蹤性。最重要的用例是用戶需要查看源代碼標記的集合(按文檔的相關性排序),這些標記可以追溯到文檔。她不會對代碼格式感到困擾,但不知何故需要看到一個「標識符 - 文檔」映射來獲得可追溯性的想法。使用固定關鍵字搜索框架的靜態內容設計幫助
我從源代碼文件中獲取令牌 - 以某種方式拆分連接的標識符(SimpleMAXAnalyzer成爲「簡單最大分析器」),然後在文檔中充當搜索條件。搜索框架最適合執行此特定任務 - 深入文檔以使用強大的信息檢索算法查找內容。 Whoosh看起來非常棒,有很多分析器和過濾器。
儘管問題類似於搜索 - 它不同之處在於用戶沒有在物理上進行任何搜索。那麼我是否正確地解決了這個問題?鑑於一切都是靜態的,只需要計算一次 - 我是否在使用錯誤的工具(搜索框架)進行工作?
非常感謝你的回答。你的理解是絕對正確的 - 只是用戶沒有看到代碼格式的源代碼 - 她只是想看到與文檔相關的一系列標識符。對於每個標識符,需要顯示「文檔可能部分的列表」。不幸的是,文檔中沒有「規範」部分 - 確定它是目標。希望這可以解釋一些事情......你能解釋「預編譯每一個可能的搜索」部分嗎?看起來有趣 – Tathagata 2011-06-07 23:05:11