Smalltalk和tf-idf算法

任何人都可以在Smalltalk中爲自然語言處理顯示一個簡單的實現或使用tf-idf算法的示例嗎？我在包名爲NaturalSmalltalk的包中發現了一個實現，但對於我的需求來說似乎太複雜了。 Python中的簡單實現就像this one。Smalltalk和tf-idf算法

我注意到Hapax中有另一個tf-idf，但它似乎與軟件系統詞彙表的分析有關，而且我沒有找到如何使用它的例子。

來源

2012-07-08 user1000565

我是Visualworks的原始Hapax包的作者。 Hapax是一個通用的信息檢索軟件包，它應該能夠與的任何類型的文本文件一起工作。我剛剛發生過，以至於我曾經用它來分析源代碼文件。

，你要找的是TermDocumentMatrix類，應該有兩種方法globalWeighting:和localWeighting:到您通過根據您的需要的InverseDocumentFrequency，要麼LogTermFrequency或TermFrequency實例。通常，當提到tfidf時，人們的意思是包括對數項頻率。

應該使用一個小例子語料庫來展示TDM類的最佳測試。如果測試尚未被移植到Squeak，請讓我知道，以便我可以爲您提供一個示例。

來源

2012-11-07 19:20:18 akuhn

TextLint是一個基於PetitParser的系統來解析和匹配自然語言中的模式。它不提供你所要求的內容，但是擴展模型來計算詞頻應該不會太困難。

來源

2012-07-08 07:39:14

Smalltalk和tf-idf算法

回答

相關問題