2010-05-10 102 views
2

這是一個PDF文件,其中包含特定考試的標記列表。 http://www.megaupload.com/?d=T9VM6P9E從PDF中提取表格數據並對其進行排序

我特別感興趣的第一個列表,但不幸有2112條目。而且它們的格式不正確。我需要對所有這些條目進行排序(基於最後2列中的標記 - 能力和計算機中的標記總和),以瞭解我的排名是什麼。

我試圖在MS Word和Excel中複製,但如果你嘗試它,你可以看到它不會幫助。在將它粘貼到一個純文本文件中後,我嘗試使用正則表達式(在Notepad ++中)對其進行格式化,在C中編寫代碼以正確分隔每個字段'\ t'(以便稍後我可以將它們正確地複製到Excel工作表中),但不一致性使我失敗(某些條目產生多行,「名稱」沒有固定的字段數)。

有人可以提出任何想法,將PDF格式的第一個列表以原始文件的形式複製到電子表格中嗎?

我非常需要對此進行排序,任何幫助將不勝感激。 :)

回答

0

我曾經負責構建一個解析器,該解析器可以從表格和非表格數據中以多種不同編碼方式提取數據,並混合使用rtl和ltr文本。該項目付出了相當大的努力,但用簡單的英文表,您應該能夠立刻剖析PDF。在adobe.com上查找PDF規格,如果是絕望的開始挖掘。

此外,您還需要先使用pdftk.exe來解壓縮文件。

快捷方式,我是援助: http://www.adobe.com/devnet/pdf/pdf_reference.html

這是我說的是快捷方式:http://www.codeproject.com/KB/cs/PDFToText.aspx

+0

謝謝desertverge,但你能夠規定確切的程序?我不太熟悉PDF文件格式和東西... 我試過pdftk解壓縮它,但它說它無法打開PDF文件。我實際上正在盡我所能對列表進行排序,所以沒有多少時間閱讀文檔。稍後會看到它。不管怎麼說,還是要謝謝你。 :) – Ninad 2010-05-10 15:46:58

0

嗯,我有點管理它。我首先將它複製到一個純文本文件,刪除所有的字母,只留下序號和相應的標記,用空格或製表符分隔。然後使用OpenOffice電子表格中的「導入」,告訴它分隔符是空格和製表符(如果需要,將它們組合在一起)和賓果遊戲!我獲得了我的等級。

但我仍然想知道是否可以複製整個表。所以保持這個問題的開放。

+0

這是一次性交易還是想定期建立一個工具來做到這一點? – 2010-05-10 15:56:49

+0

嗨ninad,我正在做同樣的方式,就像你如何解釋上面,但我面臨的問題是當我提取一個只有數字的行,數字的位置正在洗牌!對於我處理的每個pdf文件,這個數字的位置是隨機變化的, – 2014-08-02 07:27:04

1
  1. 對於有關爲什麼PDF文件格式應該永遠不會被託管提取,結構化數據認爲是合適的背景,看到這篇文章:

  2. 對於一個驚人的開源工具家族,每週從PDF獲取表格數據(除非他們是掃描頁面),每週都會變得更好更好 - 矛盾點'1'。以上! - 看到這些鏈接:

+0

我發現Tabula感謝你的回答,它對我來說非常好。 – Esteis 2015-02-01 16:17:42

相關問題