2

我工作的一個項目的私人物品,將涉及全文的站點內的文章語義搜索快速語義MySQL的搜索引擎(如果它不是可以將其結合起來,用戶可以選擇任一選項)。這些文章是基於訂閱的,只能在登錄後才能搜索;所以他們無法訪問外部搜索引擎或其API。建設從零開始

I read about Sphinx對於全文關鍵字搜索(我打算在這方面實現它),但我不知道如何去建立一個語義搜索引擎。例如搜索「美國總統」應列出包含對美國總統實際姓名的引用的文章,例如喬治華盛頓,比爾克林頓(或威廉傑斐遜克林頓)。

我有一些想法,可能是一種標記系統可以用來關聯各種關鍵詞,例如,將喬治華盛頓總統和總統與比爾克林頓聯繫起來,但由於數據非常龐大,許多此類關係將存在,所以我不知道如何推進這一想法。

請從頭開始就如何建立一個語義搜索引擎(我猜獅身人面像可以處理全文關鍵字搜索)提出建議。否則,請告訴我任何基於互聯網的資源,或者是否已有任何可以融入到我的應用程序中的語言軟件。

P.S.我選擇的數據庫是MySQL(如果另一個數據庫系統更適合這項任務,請給出建議),我更喜歡使用PHP進行編程,但如果我需要學習Python或任何其他更有效執行此任務的語言,我會效率。

我已經搜索到的answers.semanticweb.com

回答

2

我會用Apache Solr。我認爲它比獅身人面像更靈活。 Solr支持全文搜索,我相信有附加語義支持(如siren)。 Solr是Lucene的服務版本。

Solr的支持SynonymFilter:http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#SynonymFilter

這篇文章討論了一些策略,優化內容檢索http://www.lucidimagination.com/devzone/technical-articles/optimizing-findability-lucene-and-solr

+0

謝謝!我剛剛閱讀了SIREn文章。這是否意味着我需要在每篇文章上創建RDF標籤,還是將它自動化? SIREn還使用哪些語言?這兩個問題都沒有在SIREn網站上得到解答。 我想知道是否有可能自動生成RDF標籤...我讀過AR語義http://www.appliedrelevance.com/2011/09/28/ar-semantics-for-apache-solr/ Solr但沒有關於如何得到它的信息。 – Cogicero

+0

根據入門部分,它看起來像警笛是Java。 (我相信Sphinx是C++)。 –

+0

再次感謝,我會接受你的回答,因爲它給你一個好的開始。 雖然我仍然想知道如何獲得AR語義或任何其他自動生成RDF標籤。 – Cogicero