任何人都可以在Smalltalk中爲自然語言處理顯示一個簡單的實現或使用tf-idf算法的示例嗎? 我在包名爲NaturalSmalltalk的包中發現了一個實現,但對於我的需求來說似乎太複雜了。 Python中的簡單實現就像this one。Smalltalk和tf-idf算法
我注意到Hapax中有另一個tf-idf,但它似乎與軟件系統詞彙表的分析有關,而且我沒有找到如何使用它的例子。
任何人都可以在Smalltalk中爲自然語言處理顯示一個簡單的實現或使用tf-idf算法的示例嗎? 我在包名爲NaturalSmalltalk的包中發現了一個實現,但對於我的需求來說似乎太複雜了。 Python中的簡單實現就像this one。Smalltalk和tf-idf算法
我注意到Hapax中有另一個tf-idf,但它似乎與軟件系統詞彙表的分析有關,而且我沒有找到如何使用它的例子。
我是Visualworks的原始Hapax包的作者。 Hapax是一個通用的信息檢索軟件包,它應該能夠與的任何類型的文本文件一起工作。我剛剛發生過,以至於我曾經用它來分析源代碼文件。
,你要找的是TermDocumentMatrix
類,應該有兩種方法globalWeighting:
和localWeighting:
到您通過根據您的需要的InverseDocumentFrequency
,要麼LogTermFrequency
或TermFrequency
實例。通常,當提到tfidf時,人們的意思是包括對數項頻率。
應該使用一個小例子語料庫來展示TDM類的最佳測試。如果測試尚未被移植到Squeak,請讓我知道,以便我可以爲您提供一個示例。
TextLint是一個基於PetitParser的系統來解析和匹配自然語言中的模式。它不提供你所要求的內容,但是擴展模型來計算詞頻應該不會太困難。