情感分析中的一項常見任務是獲取熊貓數據框單元格內的單詞數量,並根據該數量創建一個新列。我該怎麼做呢?如何計算熊貓數據框單元格中的單詞總數並將它們添加到新列中?
回答
比方說,你有你已經使用
df = pandas.read_csv('dataset.csv')
生成的數據幀DF你會然後通過執行以下操作字計數添加新列:
df['new_column'] = df.columnToCount.apply(lambda x: len(str(x).split(' ')))
記住分裂的空間很重要,因爲你正在分裂新詞。在執行此操作之前,您可能需要刪除標點符號或數字並將其縮小爲小寫。
df = df.apply(lambda x: x.astype(str).str.lower())
df = df.replace('\d+', '', regex = True)
df = df.replace('[^\w\s\+]', '', regex = True)
from collections import Counter
df['new_column'] = df['count_column'].apply(lambda x: Counter(" ".join(x).split(" ")).items())
這需要您將'count_column'中的每個文本單元格分割成單詞列表。 (如果'count_column'中的每個單元格都包含一個單獨的字符串,則這會計算字符數。)另外,如果我錯過了某些顯而易見的內容,對不起,爲什麼'Counter(''.join(x).split(''))'? 'Counter(x)'沒有達到相同的結果嗎? **編輯:**加入然後拆分的一個原因是爲了確保您分解列表中包含多個空格分隔的單詞的任何字符串。 –
@PeterLeimbigler如果按空格分割,你會如何計算字符? –
在字符串上運行'''.join(a_string_variable)'會在字符串中的每個字符之間插入一個空格。 –
- 1. 如何將中間總和列添加到熊貓數據框?
- 2. 將計算列添加到熊貓數據框中
- 3. 將單詞轉化爲熊貓數據框中的新列
- 4. 如何將熊貓數據框中的前2個單詞分組並計數?
- 5. 計算熊貓數據框中的單個詞
- 6. 將重複計數列添加到熊貓數據框中
- 7. 將計算列添加到熊貓數據透視表中
- 8. 將熊貓數據框添加到列
- 9. 將行和列總和應用於熊貓數據框中的單元格
- 10. 如何在熊貓數據框中按單詞分組統計
- 11. 如何壓扁單個熊貓數據框並將它們疊加以實現新的數據框?
- 12. 如何計算熊貓數據框中單元的項目數量(或長度)?
- 13. 從單列熊貓數據框中生成單詞雲
- 14. 不計算大熊貓數據框中所有列的總和
- 15. 熊貓數據框中添加列GROUPBY
- 16. 熊貓數據框計算
- 17. Xlsxwriter合併單元格 - 格式化熊貓數據框
- 18. 從Excel分析單個單元格到數據框熊貓
- 19. 降低熊貓數據框列中的每個單詞
- 20. 將json元素添加到熊貓數據框中
- 21. 計算熊貓數據框中的新列
- 22. 將計算列分組並添加到我的數據框中
- 23. 熊貓數據框 - 計算基於列
- 24. 將列添加到Shiny中的反應數據框中並更新它們
- 25. 熊貓:搜索並將值添加到多列單元
- 26. 熊貓:如何計算每一行中各個單詞的數據幀
- 27. 將列表添加到熊貓空數據框中
- 28. 將熊貓系列添加到數據框中,保留索引
- 29. 熊貓數據框中,彙總並把數據在下一列
- 30. 計算數組中的元素並將它們添加到對象中
爲什麼不使用NLTK字標記生成器? – Dark
這是一個選項。 – muninn