我正在讀取從CSV文件複製的文本文件。當我在python中讀取文件時,會看到大量不必要的重複行,如下所示。我如何去掉這三個不需要的行,包括在每個文本的開頭和結尾處的\ cf0和\ cell \ row?在閱讀python中的文本文件時刪除重複的字符行?
或者我應該直接從csv文件本身讀取文本?該文本僅位於CSV文件的其中一列中。
\itap1\trowd \taflags1 \trgaph108\trleft-108 \trbrdrl\brdrnil \trbrdrr\brdrnil
\clvertalc \clshdrawnil \clbrdrt\brdrs\brdrw20\brdrcf2 \clbrdrl\brdrs\brdrw20\brdrcf2 \clbrdrb\brdrs\brdrw20\brdrcf2 \clbrdrr\brdrs\brdrw20\brdrcf2 \clpadl100 \clpadr100 \gaph\cellx8640
\pard\intbl\itap1\pardeftab720
\cf0 i have been using your product and it has been helping me a lot to solve business problem,\cell \row
\itap1\trowd \taflags1 \trgaph108\trleft-108 \trbrdrl\brdrnil \trbrdrr\brdrnil
\clvertalc \clshdrawnil \clbrdrt\brdrs\brdrw20\brdrcf2 \clbrdrl\brdrs\brdrw20\brdrcf2 \clbrdrb\brdrs\brdrw20\brdrcf2 \clbrdrr\brdrs\brdrw20\brdrcf2 \clpadl100 \clpadr100 \gaph\cellx8640
\pard\intbl\itap1\pardeftab720
\cf0 I am very happy with your products. Very easy to use.\cell \row
\itap1\trowd \taflags1 \trgaph108\trleft-108 \trbrdrl\brdrnil \trbrdrr\brdrnil
\clvertalc \clshdrawnil \clbrdrt\brdrs\brdrw20\brdrcf2 \clbrdrl\brdrs\brdrw20\brdrcf2 \clbrdrb\brdrs\brdrw20\brdrcf2 \clbrdrr\brdrs\brdrw20\brdrcf2 \clpadl100 \clpadr100 \gaph\cellx8640
\pard\intbl\itap1\pardeftab720
\cf0 Many improvements with income tracker, and other time saving elements. Newer look, easier navigation. I believe there definitely is a time savings from past versions.\cell \row
下面是CSV文件的一個片段:
page_url Review_title Product_id Rating Publish_date Review_Description
www.blabla.com Great! 777777 5 01/01/14 Excellent upgrade! Was not disappointed!
我只是複製從Review_Description列文本粘貼他們都在一個文本文件中。
這裏是我的Python代碼只是讀取文件:
text_file=open("my_text.txt", "r")
lines=text_file.readlines()
print lines
是的,它可能會更好跳過的行和列的CSV比到CSV解析成一些其他形式,然後嘗試恢復原來的結構,你扔掉,所以你可以跳過它的一部分。你能告訴我們一個CSV的片段和你當前的解析代碼嗎? – abarnert
已包含csv文件的片段和我簡單的讀取文件代碼。 – jxn