2017-03-22 76 views
-1

所以我很新的python,可能會問一個簡單的問題。我正在尋找一種方法,可以從docx文件中提取章節名稱,節名稱和文本,並將其傳輸到表中,其中第一行包含章節名稱,第二行包含節名稱,第三行包含文本從這一章開始。我想在某些時候添加的另一件事對文本的每個新段落都有一個新的界限。我想到下面的步驟,但我真誠地懷疑是否是正確的方式去:Python,文本挖掘,docx到表(CSV)

  1. 打開的Word文檔

    表1.A讀字文件

    1.b.定義標題,副標題,腳註&頭

  2. 創建新的文件

    2.A.與9行

  3. 名稱每一行

  4. 請填寫預定義的文本標題創建表:法律文件

    「部分標題章第分段文章編號文章文本 文章標題參考」

  5. 定義類別的排名

    5.a.給排名表中,第1行中包含文件名

    5.B:第2行中包含章節名稱,列3節的名稱等

  6. 從開始

    讀取word文檔的第一定義的排序

    6.a .:複製定義好的排名的文字

    6.b.追加到複製文本文件到正確的行

我已經看着docx和xlml,但我想知道它是否會給我我要找的結果。

+5

最有用的建議是你「開始」/「嘗試」的東西。然後一旦你陷入某個特定的地方,你就會回來。見[問]。 –

回答

0

您需要docx和CSV或openpyxl模塊。你也需要努力。找出一種方法來區分你想要存儲在CSV中的東西,然後把這個檢測和存儲放到一個循環中,當沒有其他事情可做時,它會感應並停止。這是你通過這類問題得到的最多建議。