pdf-scraping

    7熱度

    1回答

    我在尋找一個API或程序(最好Python的和開源的),這讓我下載一個谷歌圖片搜索的第一ñ圖片,讓我們說自行車。如果它能從普通搜索下載第一個n .pdf文件,它也會有所幫助。由於並不是所有的圖片和.pdf文件都在谷歌上找到,並且因爲還有很多其他的搜索引擎,所以可以從Yahoo或Bing刮取結果的程序會非常方便。有沒有這樣的程序,或者是否有谷歌的API讓我每天進行超過100次搜索? 編輯:路過的人可

    0熱度

    1回答

    我試圖解析這個文件,但沒有從網站下載它。我已經在硬盤上運行這個文件,我可以毫無問題地解析它,但運行它跳轉的腳本。 if not document.is_extractable: raise PDFTextExtractionNotAllowed 我認爲我整合了網址錯誤。 import sys import getopt import urllib2 import datetime i

    -2熱度

    3回答

    我基本上想要的是在行標題下的PDF數據或簡化我所說的,我想從PDF文件創建一個數據庫。每個PDF由25 -40頁取決於選民的數量。 A page of pdf file I am talking about 我想從箱子中提取數據(或者不管你說什麼他們)到Access/EXCEL/SQL使各盒 名稱下名稱列 關係出現關係列等出現在其他數據下 但是我不知道應該學習哪種編程語言才能做到這一點。我嘗試過搜

    0熱度

    1回答

    有沒有辦法讓我通過突出顯示所需的字段來掃描PDF圖像並從圖像中提取數據?我們每天掃描數以千計的房地產行爲的PDF圖像,並希望能夠自動完成數據錄入過程。我們面臨的問題是沒有兩個行爲是相同的。

    0熱度

    1回答

    Web瀏覽器和PDF閱讀器使用什麼算法在巨大的基於文本的文檔中搜索給定單詞?爲了澄清,當我閱讀電子書並按下Ctrl-F並輸入搜索詞時,它會相當快地找到匹配的詞。正在使用哪種算法,以及正在使用哪種數據結構來存儲書籍/網站的整個文本?

    1熱度

    1回答

    我正在使用nuGet(5.5.8)中的最新iTextSharp lib來解析pdf文件中的一些文本。我面臨的問題是,GetTextFromPage方法不僅從它應該返回的頁面返回文本,還返回前一頁中的文本。這是我的代碼: var url = "https://www.oslo.kommune.no/getfile.php/Innhold/Politikk%20og%20administrasjon/

    -1熱度

    1回答

    我想從網站下載數百個pdf文檔。我已經嘗試過諸如SiteSucker和類似的工具,但它不起作用,因爲文件和鏈接到它們的頁面之間似乎存在一些「分離」。我不知道如何以更好的方式來描述這一點,因爲我對網站編程或拼寫知之甚少。關於這可能是什麼以及如何繞過它的任何建議? 更具體地說,我試圖下載聯合國決議的PDF文件,存儲在頁這樣的一個:在聯合國網站上http://www.un.org/depts/dhl/r

    4熱度

    1回答

    我寫了Python代碼,從PDF文件中刪除所有的數據。這裏的問題是,一旦被刮掉,這些詞會失去語法。如何解決這些問題? 我附上了代碼。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.la

    0熱度

    1回答

    我有代碼將jpgs解壓縮成適用於JPEG文件的位圖,但是當我將代碼提供給JPEG時,我直接從PDF中剝離了XObject我收到了錯誤。 Adob​​e閱讀器顯示的圖像很好,所以我不認爲它已損壞。我已閱讀JPEG和PDFs文檔,並且未發現任何明顯問題。 我的問題是,這是否有什麼不同的嵌入在一個PDF流和一個正常的JPEG內的「JPEG」?如果是的話,它是什麼? 注:我可以手動打開PDF文件,複製圖像

    0熱度

    1回答

    我已經從pdf中提取了一些數據。它具有幾乎像XML的數據,看起來像這樣 "(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-field-3 (5) Da