2012-07-08 69 views
3

任何人都可以在Smalltalk中爲自然語言處理顯示一個簡單的實現或使用tf-idf算法的示例嗎? 我在包名爲NaturalSmalltalk的包中發現了一個實現,但對於我的需求來說似乎太複雜了。 Python中的簡單實現就像this oneSmalltalk和tf-idf算法

我注意到Hapax中有另一個tf-idf,但它似乎與軟件系統詞彙表的分析有關,而且我沒有找到如何使用它的例子。

回答

1

我是Visualworks的原始Hapax包的作者。 Hapax是一個通用的信息檢索軟件包,它應該能夠與的任何類型的文本文件一起工作。我剛剛發生過,以至於我曾經用它來分析源代碼文件。

,你要找的是TermDocumentMatrix類,應該有兩種方法globalWeighting:localWeighting:到您通過根據您的需要的InverseDocumentFrequency,要麼LogTermFrequencyTermFrequency實例。通常,當提到tfidf時,人們的意思是包括對數項頻率。

應該使用一個小例子語料庫來展示TDM類的最佳測試。如果測試尚未被移植到Squeak,請讓我知道,以便我可以爲您提供一個示例。

1

TextLint是一個基於PetitParser的系統來解析和匹配自然語言中的模式。它不提供你所要求的內容,但是擴展模型來計算詞頻應該不會太困難。