2011-06-07 53 views
0

我正在努力制定一個解決方案來檢測源代碼和文檔之間的可跟蹤性。最重要的用例是用戶需要查看源代碼標記的集合(按文檔的相關性排序),這些標記可以追溯到文檔。她不會對代碼格式感到困擾,但不知何故需要看到一個「標識符 - 文檔」映射來獲得可追溯性的想法。使用固定關鍵字搜索框架的靜態內容設計幫助

我從源代碼文件中獲取令牌 - 以某種方式拆分連接的標識符(SimpleMAXAnalyzer成爲「簡單最大分析器」),然後在文檔中充當搜索條件。搜索框架最適合執行此特定任務 - 深入文檔以使用強大的信息檢索算法查找內容。 Whoosh看起來非常棒,有很多分析器和過濾器。

儘管問題類似於搜索 - 它不同之處在於用戶沒有在物理上進行任何搜索。那麼我是否正確地解決了這個問題?鑑於一切都是靜態的,只需要計算一次 - 我是否在使用錯誤的工具(搜索框架)進行工作?

回答

0

我不確定,如果我理解你的用例。用戶可以看到源代碼,並有一些從令牌跳轉到相應部分或文檔可能部分的列表,對嗎?

然後,一個搜索工具似乎是工作的正確工具,儘管您可以預編譯每個可能的搜索(源代碼中只有有限的標識符,因此您可以提前計算所有可能的文檔引用)。

或者是否有每個標識符的文檔的任何「規範」部分?那麼也許某種指數會是更好的選擇。

也許你可以進一步闡明你的用例。

編輯:也許文檔的字母索引可能是解決方案的一個步驟。然後,您可以查看源代碼的每個標記的頁面/章節/章節,其中提及了所有或大部分組件。

+0

非常感謝你的回答。你的理解是絕對正確的 - 只是用戶沒有看到代碼格式的源代碼 - 她只是想看到與文檔相關的一系列標識符。對於每個標識符,需要顯示「文檔可能部分的列表」。不幸的是,文檔中沒有「規範」部分 - 確定它是目標。希望這可以解釋一些事情......你能解釋「預編譯每一個可能的搜索」部分嗎?看起來有趣 – Tathagata 2011-06-07 23:05:11