1

我正在研究電子圖書館(阿拉伯語書籍)的項目。一個程序,允許用戶將他的書籍導入到系統庫中,並對他的圖書館執行搜索。系統通過用戶可以稍後更新的基本庫(一套書)交付給用戶。阿拉伯語文本文件搜索和索引

爲了處理搜索問題,我想系統在基本搜索關鍵字的DB中有一個初始表。每個搜索關鍵字指向庫中書籍的位置。

在用戶將新書導入庫中時出現此問題。有兩步。 第一次搜索已經進入系統的關鍵字,以查找是否有任何關鍵字出現在書中,並將該位置添加到系統中。 第二,這是主要的絆腳石,是在新書中確定新的搜索關鍵字。

我認爲這個想法非常糟糕和天真,這個想法是把新書分成標記,然後搜索每個標記,對照以前在圖書館找到的所有書。

所以總結一下,如果有任何幫助(工具,庫或數據庫選項)或想法來解決整個系統的第二個問題或另一個想法,我明白了。真的嘗試閱讀和搜索很多解決方案,但徒勞無功。

非常感謝,

回答

1

你想要Lucene.net。您將需要使用阿拉伯語分析儀。

+0

首先非常感謝回覆。其次,我有一些我不明白的觀點。 我對Lucene有什麼瞭解,如果我錯了,請糾正我的錯誤是Lucene是一個庫,它允許我通過給定文檔或給定搜索標記上的文件進行文本搜索。 關於阿拉伯語分析儀,我真的沒有得到它的用途,通過搜索。它將如何使用Lucene。 也對〜6000文件進行文本搜索,不會是一個超負荷? 再次感謝, –

+0

Lucene會構建一個_index_的文檔。這是搜索的索引。您的搜索不限於令牌,您可以搜索短語並執行其他類型的搜索。分析器找到要編入索引的單詞。爲了獲得語言的最佳結果,分析儀需要針對該語言進行設計。例如,專爲英語設計的分析器不會將不同形式的阿拉伯詞識別爲同一個詞。鏈接** guest **發佈了一個關於Lucene如何工作的概述。 –