2013-01-23 104 views
5

我爲新聞網站工作,將所有故事存儲爲XML。我知道,不是最好的方式,但它是這樣。我想要做的是能夠從網站上搜索XML文件。目前我們的搜索功能都是Google提供的(它只搜索Google已經抓取的任何內容)。搜索或索引XML文件

我一直在想的是使用Grep,哪種工作正常,但可能不會擴大太多。另一種將花費更多工作量的方式,但將工作方式更好的方法是將部分XML存儲在關係數據庫中。

考慮到我們後端的設置方式,遷移到不同的存儲模式需要很長時間,所以暫時這就是我們必須處理的。想法?

回答

3

添加一些緩存可能會幫助您擴展grep想法。但是,您可能會考慮一種解決方案,該解決方案不僅可以幫助解決今天的問題,還可以讓您明天接近更好的解決方案。也許設計一個更好的解決方案並逐步實施它將會有所斬獲。

0

如果您承諾使用XML,我會建議使用原生XML數據庫解決方案,如Berkeley DBXML或eXist-db。它們都允許你向它們中發射xquery。 eXist還實現了全文搜索,而不是DBXML,但後者在檢索數據時更快。

1

我也建議使用像BaseX(.org)這樣的XML數據庫系統,因爲它非常快。我建議將每篇文章存儲在一個單獨的文件中。 BaseX支持XQuery 3.0以及全文,更新工具...