pdf-scraping

7熱度

1回答

我在尋找一個API或程序（最好Python的和開源的），這讓我下載一個谷歌圖片搜索的第一ñ圖片，讓我們說自行車。如果它能從普通搜索下載第一個n .pdf文件，它也會有所幫助。由於並不是所有的圖片和.pdf文件都在谷歌上找到，並且因爲還有很多其他的搜索引擎，所以可以從Yahoo或Bing刮取結果的程序會非常方便。有沒有這樣的程序，或者是否有谷歌的API讓我每天進行超過100次搜索？編輯：路過的人可

0熱度

1回答

使用pdfminer通過URL解析PDF時使用pdfminer

我試圖解析這個文件，但沒有從網站下載它。我已經在硬盤上運行這個文件，我可以毫無問題地解析它，但運行它跳轉的腳本。 if not document.is_extractable: raise PDFTextExtractionNotAllowed 我認爲我整合了網址錯誤。 import sys import getopt import urllib2 import datetime i

-2熱度

3回答

最好的語言來提取pdf文本，並將其列在行標題下

我基本上想要的是在行標題下的PDF數據或簡化我所說的，我想從PDF文件創建一個數據庫。每個PDF由25 -40頁取決於選民的數量。 A page of pdf file I am talking about 我想從箱子中提取數據（或者不管你說什麼他們）到Access/EXCEL/SQL使各盒名稱下名稱列關係出現關係列等出現在其他數據下但是我不知道應該學習哪種編程語言才能做到這一點。我嘗試過搜

0熱度

1回答

PDF數據提取

有沒有辦法讓我通過突出顯示所需的字段來掃描PDF圖像並從圖像中提取數據？我們每天掃描數以千計的房地產行爲的PDF圖像，並希望能夠自動完成數據錄入過程。我們面臨的問題是沒有兩個行爲是相同的。

0熱度

1回答

在PDF /網站上查找字詞

Web瀏覽器和PDF閱讀器使用什麼算法在巨大的基於文本的文檔中搜索給定單詞？爲了澄清，當我閱讀電子書並按下Ctrl-F並輸入搜索詞時，它會相當快地找到匹配的詞。正在使用哪種算法，以及正在使用哪種數據結構來存儲書籍/網站的整個文本？

1熱度

1回答

爲什麼iTextSharp的GetTextFromPage返回的字符串越來越長？

我正在使用nuGet（5.5.8）中的最新iTextSharp lib來解析pdf文件中的一些文本。我面臨的問題是，GetTextFromPage方法不僅從它應該返回的頁面返回文本，還返回前一頁中的文本。這是我的代碼： var url = "https://www.oslo.kommune.no/getfile.php/Innhold/Politikk%20og%20administrasjon/

-1熱度

1回答

如何從網站下載鏈接的pdf文件？

我想從網站下載數百個pdf文檔。我已經嘗試過諸如SiteSucker和類似的工具，但它不起作用，因爲文件和鏈接到它們的頁面之間似乎存在一些「分離」。我不知道如何以更好的方式來描述這一點，因爲我對網站編程或拼寫知之甚少。關於這可能是什麼以及如何繞過它的任何建議？更具體地說，我試圖下載聯合國決議的PDF文件，存儲在頁這樣的一個：在聯合國網站上http://www.un.org/depts/dhl/r

4熱度

1回答

我想刮一個印地語（印度語言）pdf文件與Python的

我寫了Python代碼，從PDF文件中刪除所有的數據。這裏的問題是，一旦被刮掉，這些詞會失去語法。如何解決這些問題？我附上了代碼。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.la

0熱度

1回答

解碼從PDF文件內部剝離的JPEG圖像

我有代碼將jpgs解壓縮成適用於JPEG文件的位圖，但是當我將代碼提供給JPEG時，我直接從PDF中剝離了XObject我收到了錯誤。 Adobe閱讀器顯示的圖像很好，所以我不認爲它已損壞。我已閱讀JPEG和PDFs文檔，並且未發現任何明顯問題。我的問題是，這是否有什麼不同的嵌入在一個PDF流和一個正常的JPEG內的「JPEG」？如果是的話，它是什麼？注：我可以手動打開PDF文件，複製圖像

0熱度

1回答

準xml提取2個開始標記的文本

我已經從pdf中提取了一些數據。它具有幾乎像XML的數據，看起來像這樣 "(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-field-3 (5) Da