我們使用dtSearch來索引一些外部網頁。它抓取頁面的整個HTML內容。我們如何在搜索結果中顯示乾淨的Google樣式摘錄?
當一個頁面在我們的網站上的搜索結果列表中顯示,我們要顯示一個包含其高亮/加粗搜索詞作爲結果的一部分內容的摘錄(換句話說,每個人都習慣在每個Google結果下看到同樣的事情)。
完成此操作的最佳方法是什麼?你需要解析和刪除HTML標籤嗎?如果是這樣,你如何有效地做到這一點?
我們有一個概念驗證的工作,顯示突出顯示搜索條件的摘錄,但我們必須呈現標籤,或試圖剝離它們(正如我們試過的),並最終得到一些垃圾信息不是真的滿足。
我認爲我們使用dtSearch的事實是偶然的。如果替代搜索工具能夠代表我們完成這種類型的事情,我們會考慮使用它。
我們基本上試圖決定是否需要編寫我們自己的正則表達式來完成這個任務,或者它是一個已知問題已經被某個庫或工具解決了。
我們恰好使用.NET/C#。我認爲這不是問題的核心,但可能會影響我們可以使用的庫。
使用Google?許多網站嵌入谷歌搜索... – vonbrand
谷歌節目的摘錄取決於你搜索什麼..因此,可以有多個同一網站摘錄!以及爲什麼要刪除html標記!還使用'regex'來解析html是**不推薦... – Anirudha
我應該補充說,除了索引外部網頁之外,我們還將索引我們自己的一些數據庫內容。至於使用Google搜索,我不確定搜索自己的數據庫而不是抓取頁面的能力,我也不確定您可以在多大程度上自定義結果的外觀。 –