如何在文本中找到搭配? 搭配是一組經常異常出現的單詞序列。 python有內置的func bigrams返回單詞對。如何在文本中找到搭配,python
>>> bigrams(['more', 'is', 'said', 'than', 'done'])
[('more', 'is'), ('is', 'said'), ('said', 'than'), ('than', 'done')]
>>>
剩下的是根據單詞的頻率找到更頻繁發生的bigrams。任何想法如何把它放在代碼中?
你將不得不定義*更經常*。你的意思是統計意義嗎? – 2010-11-08 22:12:55
Python沒有這樣的內建,也沒有任何標準庫中的那個名字。 – 2010-11-08 22:17:35
請使用nltk庫http://nltk.googlecode.com/svn/trunk/doc/api/nltk.collocations-module.html – 2010-11-08 22:17:59