我正在從python中的文本文件中拆分單詞。我收到了包含索引的行(c)和字典(word_positions)的數量。然後我創建一個零矩陣(c,index)。下面是代碼:填充python矩陣
from collections import defaultdict
import re
import numpy as np
c=0
f = open('/Users/Half_Pint_Boy/Desktop/sentenses.txt', 'r')
for line in f:
c = c + 1
word_positions = {}
with open('/Users/Half_Pint_Boy/Desktop/sentenses.txt', 'r') as f:
index = 0
for word in re.findall(r'[a-z]+', f.read().lower()):
if word not in word_positions:
word_positions[word] = index
index += 1
print(word_positions)
matrix=np.zeros(c,index)
我的問題:我如何填充矩陣能夠得到這樣的:matrix[c,index] = count
,其中c
- 是行號,index
-the索引位置和count
-The數連續計數單詞
目前還不清楚是什麼你正在嘗試做的。你能添加更多的解釋/一個簡單的例子嗎? – Amoss
如果你有一個行(字符串格式)名稱'lines',你可以通過使用'len(lines.split())'(通過在每個空白處分割字符串所得到的數組的長度) – HolyDanna
我在文本中有22行和254個獨特的單詞。所以這將是我的矩陣的大小,然後我只需要計算每個單詞的行數爲每個索引的獨特單詞,我有。現在更清晰了 – HalfPintBoy