我在波斯文件中有一些文件。他們都包含了很多句子,然後是一個「標籤」,然後是一個波斯語單詞,再次是一個「標籤」,然後是一個英文單詞。英語單詞顯示每個句子課程。我必須計算所有課程中波斯語句子中每個單詞的數量。例如,「激情」類中出現過多少次「دانشگاه」,在「鹹」類中出現過多少次。 (一些文件有兩個以上的類)。我寫的代碼在文件中只計算一次字。正如我上面所描述的那樣,我怎樣才能改變它返回單詞count? (提示:我只需要句子中的單詞數量,而不是「tab」之後的波斯語和英語單詞)。在一個文件的所有類別中計數單詞
from collections import Counter
corpus = []
with open("T.txt", encoding='utf-8') as f:
for line in f:
t = line.strip().split("\t")
corpus.append (t)
for row in corpus:
wordcount = Counter(row[0].split())
print (wordcount)
https://www.dropbox.com/s/r88hglemg7aot0w/F.txt?dl=0
結果是如上述的畫面。但我想的東西應該像下面所有的話: 激情{ 「دانشگاه」:1,...} 鹹{ 「دانشگاه」:0,...}
有你有問題的特定部分? –