我工作的一個項目的私人物品,將涉及全文和的站點內的文章語義搜索快速語義MySQL的搜索引擎(如果它不是可以將其結合起來,用戶可以選擇任一選項)。這些文章是基於訂閱的,只能在登錄後才能搜索;所以他們無法訪問外部搜索引擎或其API。建設從零開始
I read about Sphinx對於全文關鍵字搜索(我打算在這方面實現它),但我不知道如何去建立一個語義搜索引擎。例如搜索「美國總統」應列出包含對美國總統實際姓名的引用的文章,例如喬治華盛頓,比爾克林頓(或威廉傑斐遜克林頓)。
我有一些想法,可能是一種標記系統可以用來關聯各種關鍵詞,例如,將喬治華盛頓總統和總統與比爾克林頓聯繫起來,但由於數據非常龐大,許多此類關係將存在,所以我不知道如何推進這一想法。
請從頭開始就如何建立一個語義搜索引擎(我猜獅身人面像可以處理全文關鍵字搜索)提出建議。否則,請告訴我任何基於互聯網的資源,或者是否已有任何可以融入到我的應用程序中的語言軟件。
P.S.我選擇的數據庫是MySQL(如果另一個數據庫系統更適合這項任務,請給出建議),我更喜歡使用PHP進行編程,但如果我需要學習Python或任何其他更有效執行此任務的語言,我會效率。
我已經搜索到的answers.semanticweb.com
謝謝!我剛剛閱讀了SIREn文章。這是否意味着我需要在每篇文章上創建RDF標籤,還是將它自動化? SIREn還使用哪些語言?這兩個問題都沒有在SIREn網站上得到解答。 我想知道是否有可能自動生成RDF標籤...我讀過AR語義http://www.appliedrelevance.com/2011/09/28/ar-semantics-for-apache-solr/ Solr但沒有關於如何得到它的信息。 – Cogicero
根據入門部分,它看起來像警笛是Java。 (我相信Sphinx是C++)。 –
再次感謝,我會接受你的回答,因爲它給你一個好的開始。 雖然我仍然想知道如何獲得AR語義或任何其他自動生成RDF標籤。 – Cogicero