2011-03-22 58 views
0

我正在開發一個應用程序,它將從網站上抓取數據。諸如page_url,site_url,last_modified的細節將被存儲在數據庫中,並且page_content將被存儲在文件中。稍後我要搜索文件的內容。我正在嘗試Thinkingsphinx來實現這一點。任何機構有一個想法如何實施它?使用SPHINX/ultrasphinx對索引文件進行索引

回答

1

我不相信Sphinx/ThinkingSphinx適合你,因爲他們打算與數據庫交談。

看看這個線程:http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff/aa4ae8e21c42e67c?lnk=gst&q=files#aa4ae8e21c42e67c

+0

你能建議我一個很好的解決方案然後? – Pravin 2011-03-22 09:49:40

+0

我不知道有我自己。我現在快速瀏覽一下,如果我找到任何東西,我會告訴你。我可以說,Solr /太陽黑子看起來不像選項:) – lebreeze 2011-03-22 09:50:33

+0

獅身人面像下的xmlpipe選項呢?我實際上正在努力實現,但沒有得到如何.. – Pravin 2011-03-22 09:51:49

0

你能切換到Solr全文搜索呢?我聽說它可以像PDF或字

http://lucene.apache.org/solr/tutorial.html[enter鏈接這裏描述]即使指數二進制文件[1]