輸出到csv沒有停止詞

所以我有這個代碼在這裏搜索一個叫做「聲稱」的csv文件，看它是否包含在csv文件「sexualHarassment」中找到的任何單詞，並將這些結果打印到新的csv文件。這部分工作很好。輸出到csv沒有停止詞

我遇到麻煩的部分是刪除停用詞。我有第三個csv文件，其中包含一列停用詞。我無法弄清楚如何讓這些輸出沒有停用詞。謝謝。

這裏是我的代碼：

import csv 

    with open("claims.csv") as file1, open("sexualHarassment.csv") as file2, 
    open("stopwords.csv") as file3, open("output.csv", "wb+") as file4: 
     writer = csv.writer(file4) 
     key_words = [word.strip() for word in file2.readlines()] 
     stop_words = [stop.strip() for stop in file3.readlines()] 
     for row in file1: 
      row = row.strip() 
      for key in key_words: 
       if key in row: 
        writer.writerow([key, row])

來源

2014-07-10 Abtra16

爲了回答您的標題的問題：是的，可以。不過，不知道它與帖子正文的關係。 – Kevin

我頭腦裏有一個不同的問題，道歉 – Abtra16

您是試圖從每一行中刪除停用詞，還是根本不打印行？ – TheSoundDefense

是的，你可以。

至於問題主體。

for key in keywords: 
    row = row.replace(key, "")

編輯：

for key in stopwords: 
    row = row.replace(key, "")

編輯結束

我不知道這是否是你的意圖，但除非你願意，你可以使用replace函數從該行刪除所有關鍵字可能會重複添加相同的行（如果每行存在多個關鍵字），您可能需要執行類似於

 for key in key_words: 
      if key in row: 
       writer.writerow([key, row]) 
       break # would not recommend using breaks but that's more personal taste

或

 flag = False; 
     for key in key_words: 
      if key in row: 
       flag = True; 
     if flag: 
      writer.writerow([key, row])

來源

2014-07-10 17:47:24

謝謝，這實際上幫助我刪除了重複項（之後我會這樣做）。但是在參考答案的第一部分時，我並未嘗試刪除關鍵字，我試圖刪除停用詞 – Abtra16

for @Daniel Kogan – Abtra16

Sry，只是用停用詞替換關鍵字 –

如果你想從一個較長的字符串中刪除單詞的列表，你可以使用replace功能，像這樣：

row = "stop go stop stop2 yellow stop3 hi" 
stop_list = ["stop","stop2","stop3"]  # You'd get this from the file. 
for stop_word in stop_list: 
    row = row.replace(stop_word,"") 
print row         # Output: " go yellow hi"

這基本上迭代在每一個停用詞上，並用""代替它，有效地將其刪除。

不要問我在哪裏提出的例子詞，因爲我不知道。

來源

2014-07-10 17:46:57 TheSoundDefense

輸出到csv沒有停止詞

回答

相關問題