我的功能可以解析文本並刪除短語,如「a」,「the」,「in」,「on」,「at」等。我應該在哪裏存儲停用詞表?
這些詞的列表可能會在未來修改。而且,在不同列表之間切換(即針對不同語言)也可能是一種選擇。
那麼,我應該在哪裏存儲這樣的列表?
- 50-200字
- 許多讀取每分鐘
- 幾乎沒有寫入(修改) - 例如,一旦在幾個月
我在我的腦海這些選項:
- 裏面的代碼清單(最快的,但它聽起來並不像一個很好的做法)
- 單獨的文件「stop_words.txt」(讀取文件速度有多快?我應該每隔幾秒鐘從同一個文件讀取相同的數據,我稱之爲相同的功能?)
- 數據庫表。如果單詞列表應該幾乎是靜態的,它會非常有效嗎?
我正在使用Ruby on Rails(如果這有什麼區別)。