2011-09-09 29 views
4

我有一堆報告,我每天都在手動編譯,而且這是永久的,所以我正在考慮將整個過程自動化。我將從以下方面獲取數據:(1)HTML,(2)CSV/XLS,(3)PDF。我主要只使用PHP從CSV/HTML中獲取數據,並想知道是否有任何可靠的庫或從PHP中的PDF獲取表數據的方式?將數據從PDF轉換爲CSV? Python vs PHP?

我也剛剛開始學習Python,看到用PDFMiner與Scrapy一起嘗試這樣做可能是個好主意。這會更好嗎?或者還有其他選擇嗎?

請讓我知道。謝謝!

回答

3

Beautiful Soup是另一個很好的替代方法,PDFminer一直是我發現的最好的PDF解析器。我主要使用pdf2txt.py,然後根據需要重新格式化。

+0

謝謝。我會看看美麗的湯。 – tr3online

+0

你知道任何PHP解決方案嗎?或者這幾乎沒有意義?我對python不是很有信心。 – tr3online

+0

我不知道任何PHP解決方案,但我也不使用PHP,所以我的猜測/網絡搜索與您的一樣好。 – Stedy

2

如果你有一臺Linux服務器命令行訪問嘗試pdftotext命令

$ pdftotext file.pdf 

如果你幸運的話,你會得到的東西,你可以工作。無論如何,根據PDF文本可能會出現奇怪的原始格式表,我的經驗。祝你好運。

+0

我嘗試使用PDFminer前端,它使它非常好。足以使用。我有命令行訪問Linux服務器。是pdftotext標準? – tr3online

+0

是的,你應該可以在大多數的Linux股票發行版上調用它。它出現在股票CentOS和該操作系統相當簡單。 http://en.wikipedia.org/wiki/Pdftotext – Adam