2013-08-26 45 views
1

我有一個1500萬字的語料庫,我希望將其存儲在數據庫中。然後,我希望能夠找到給定的單詞,它在語料庫中的上下文。例如,對於單詞「朋友」我可能會選擇以下內容,其中我也選擇五個字前後各有「朋友」:在1500萬字的語料庫中查找單詞的句子

... night i went to my FRIENDS house for a cup of tea ... 
... what did you say my FRIENDS cat is sick and ... 
... if you like my FRIENDS dad can pick you up ... 

如何最好的,我會安排我的數據庫有效針對給定的選擇用這種方式說話?當我需要數據庫時,我通常使用sqlite,但在這種情況下可能還有其他更好的東西。

+0

聽起來像您正在尋找[全文搜索](http://en.wikipedia.org/wiki/Full_text_search)。數據庫可能不是最好的選擇。 –

回答

1

如果你想在一個語料庫中找到一個單詞,那麼你需要全文搜索功能。 SQLite實際上提供了擴展等功能,其解釋如下:here

全文搜索將返回與給定查詢匹配的文檔。您首先需要將語料分解成單獨的文檔。通常情況下,這是一項非常簡單的工作 - 文件可能是電子郵件,客戶服務記錄,醫生記錄或報告等等。但是,您沒有描述您的案件中的文件。

我完全不熟悉SQLite的全文擴展。您可能會考慮其他數據庫解決方案,如MySQL,它們也提供全文支持。

相關問題