我有來自不同來源的大量名字。句子聚類
- 我需要提取所有組(名稱的一部分),它們從一個到另一個重複。 在下面的例子程序應該找到:郵政,辦公室,郵局。
- 我需要獲得人氣。
所以我想提取一個按照熱門程度排序的短語列表。
這裏是名稱的一個例子:
Post Office - High Littleton
Post Office Pilton Outreach Services
Town Street Post Office
post office St Thomas
基本上需要找出一些算法或更好的庫,能得到這樣的結果:
Post Office: 16999
Post: 17934
Office: 16999
Tesco: 7300
...
下面是完整的example of names。
我寫了一個代碼是罰款單的話,而不是句子:
from textblob import TextBlob
import operator
title_file = open("names.txt", 'r')
blob = TextBlob(title_file.read())
list = sorted(blob.word_counts.items(), key=operator.itemgetter(1))
print list
「我想得到它們之間的任何相關性,並將所有結果按句子(從名稱中提取)」分組?嘗試編輯和釋義 – garg10may
你想計算n-gram或一個句子的出現次數嗎?這是兩件獨立的事情。 –
@SemihYagcioglu我想得到的句子,這是所有名字中最受歡迎的句子: 只有組,其中包含超過1名;僅包含文本數據的組,僅包含 ;它可能包含幾個單詞的句子; 只有輸入應該是 - 名稱列表 –