我是Python和本論壇的初學者,請原諒模糊的描述或錯誤。從文件中讀取文本,然後寫入其他文件,並在文本中重複標記
我在讀取/寫入文件時遇到問題。我想要做的是從文件中讀取文本,然後找到多次出現的單詞,將它們標記爲repeated_word然後將原始文本寫入另一個文件,但重複單詞用星號標記在他們周圍標誌。
我發現很難理解我將如何比較單詞(沒有標點符號等),但仍然能夠將單詞的原始上下文寫入文件。
我被推薦使用一些正則表達式,但我不知道如何使用它。另一種方法是迭代文本字符串並標記和標準化,通過遍歷每個字符進行排序,然後在每個單詞之外創建某種類型的av對象或元素。
我很感謝任何人如何解決這個問題。主要的問題不在於如何查找重複的單詞,而是如何標記它們,然後將它們寫入文件的上下文中。有些編碼的幫助將非常感謝,謝謝。
編輯 我已經更新了我的代碼到目前爲止。如果有什麼你會認爲「壞編碼」,請評論它。
爲了解釋白名單課程,作業分爲兩個部分,一個是我應該標記單詞的地方,另一個是關於白名單,其中包含「允許重複」的單詞,因此不會被標記。
我已經閱讀了大量關於正則表達式的東西,但我仍然無法弄清楚如何使用它。
非常感謝你。我想我理解使用的方法,但是我仍然對如何使用正則表達式模塊感到非常不安。另外,用這種方法,這些單詞是否可以獲得任何指數或某種位置?這很好,因爲我應該能夠改變間隔的長度(這個單詞需要在所選擇的單詞數量的間隔中重複,以便將其視爲重複)。 – newbie
這可能是另一個問題。您可能希望查看'enumerate'函數以訪問單詞索引,但當您這樣做時,問題會變得更加複雜。 –