我有一個twitter日誌數據,我必須對文件進行排序,以顯示 每個用戶轉推的推文排名。Python:對文件進行排序
這是代碼。
import codecs
with codecs.open('hoge_qdata.tsv','r', 'utf-8') as tweets:
tweet_list = tweets.readlines()
tweet_list.pop(0)
facul={}
for t in tweet_list:
t=t.split('\t')
if not t[0] in facul:
facul[t[0]]=[]
facul[t[0]].append(t)
t[-2]= int(t[-2])
def cmp_retweet(a,b):
if a[-2]<b[-2]:
return 1
if a[-2]>b[-2]:
return -1
return 0
for f in sorted(facul.keys()):
facul[f].sort(cmp = cmp_retweet)
print ('[%s]' %(f))
for t in facul[f][:5]:
print ('%d:%s:%s' %(t[-2], t[2], t[-1].strip()))
我幾乎得到了正確的答案,但我必須讓這個不會 顯示未轉推鳴叫..
這就是答案我應該得到(這僅僅是一個部分我有一個麻煩):
[jin_nkzw]
325:46936947935035392:RT @shimshamshimmy: SFCの學生と教職員の方へ、安否確認に協力してください。SFC-SFSで伝えてください。 https://vu8.sfc.keio.ac.jp/sfc-sfs/
,但是這是我得到的...
[jin_nkzw]
325:46936947935035392:RT @shimshamshimmy: SFCの學生と教職員の方へ、安否確認に協力してください。SFC-SFSで伝えてください。 https://vu8.sfc.keio.ac.jp/sfc-sfs/
0:8356641661:麴町のNICTで會議。ビルの目の前に、今朝のテレビでやってた「ふゆざくら」が咲いていた。
0:4979124091:@sfc_orf リンゴの木は會場俯瞰図(斷面)からタッチパネルが生えているということで、「斷面の觸覚」という名前が浮かびました。「斷面の觸感」と言葉が近すぎて誤植と思われますかね〜
0:11422290558:いまになって、@who_meさんをフォローしていなかったことに気づく
0:7940726154:秋葉原で1000円程度で手配できるおいしいお弁當といったら何でしょう?
的格式是.. 轉推的次數:編號:內容
我無法計算出如何抹掉這些推文。
你就不能檢查,如果'T [ -2] == 0'打印之前? – mgilson