我不得不在Java核心開發一個項目,在這個項目中我要從用戶那裏獲取大約100行文本。現在,我想要將整個文本分成羣集,其中每個羣集都與一個關鍵字相關,例如,假設我有以下文本:java中的文本聚類程序
「Java是一種面向對象的語言,它使用模塊化的類。bla bla bla .. 。
C++也是一種面向對象的語言。唧唧歪歪...
一些關於OOPS概念在這裏......」
現在,如果我給這個整個文字輸入到程序,我希望程序應該創建具有關鍵字名稱的目錄,並且它也應該自己選擇關鍵字。我期待這篇文章中的關鍵詞是Java,Modularisation,C++,OOPS。在這個程序的後期階段,我會處理不同的文本,所以我必須使這個程序足夠聰明,以瞭解哪些詞是關鍵詞,哪些詞不是。這樣它可以處理任何文本。
因此,我查了很多地方,問了很多人,並且只看了很多教程,發現他們大多是聚類數字數據。但是,很少有人正在處理文本聚類。我正在尋找一種可以完成這項工作的算法或方法。
感謝