我想制止的話我相似的程序,然後一個詞幹的單詞和詞幹(去爲搬運工1或2取決於什麼最容易實現的)停止在java中
我在想,既然我從文件中讀取我的文本作爲整行,並將它們保存爲一個長字符串,所以如果我有兩個字符串前。
String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";
現在,我得到了這些字符串
詞幹: 我可以只直接使用詞幹algoritmen它,將它保存爲一個字符串,然後繼續在相似的工作就像我實現詞幹以前那樣在程序中,像運行one.stem();之類的事情?
停止詞: 這是如何工作的? O.o 我只是使用; one.replaceall(「I」,「」);還是有一些具體的方法來使用這個過程?我想繼續使用字符串並在使用相似性算法獲取相似性之前先獲得一個字符串。維基並沒有說太多。
希望你能幫助我!謝謝。
編輯:這是一個學校相關的項目,我正在撰寫關於不同算法之間相似性的論文,所以我不認爲我被允許使用lucene或其他庫來爲我做這項工作。另外我想在嘗試使用Lucene和co之類的庫之前瞭解它是如何工作的。希望這不是一個太大的麻煩^^
等待等什麼你說的是,有已經在搬運工停用詞功能詞幹? O.o對不起,我覺得我沒有得到它。你能解釋一下嗎?我在想,如果波特的詞幹已經有這樣或那樣的功能。使用它會更容易;) – N00programmer 2011-05-25 17:06:53
@ N00 - 詞幹分析器只是將詞彙修剪到詞幹的算法。它沒有停止詞的概念;但使用簡單的哈希映射去除它們非常簡單:將所有停用詞放在哈希映射中,在輸入詞之前,如果它在哈希映射中,則可以放棄它,而不是放棄它。 – tucuxi 2011-05-25 17:21:58
是的,似乎我正在做一個比它更大的交易。謝謝回答。 – N00programmer 2011-05-26 09:36:28