pdftotext

    1熱度

    2回答

    嗨我是一個天真的用戶,當它來到Solr。請指導我以下障礙。 1)Solr的索引PDF文檔 解決方案試圖 我用蒂卡-應用0.9.jar來提取輸入PDF文件,文本文件中的內容。現在我正在嘗試編寫一個Java代碼來將文檔索引到Solr。 2)後他們到遠程服務器 我需要發佈任何文件或索引到中央遠程服務器。這個可以使用curl命令。 Registers Balaji。

    3熱度

    3回答

    我寫了一個小型python腳本來解析/提取PDF中的信息。我在本地機器上測試過它,我有python 2.6.2和pdftotext版本0.12.4。 我想在我的虛擬主機服務器(dreamhost)上運行這個。它有python版本2.5.2和pdftotext版本3.02。 - : 但是當我嘗試運行該腳本,我得到的pdftotext線以下的錯誤「‘’無法打開文件錯誤」(我有一個簡單的扔掉的腳本以及檢

    2熱度

    3回答

    我必須將PDF轉換爲文本,目前我正在使用pdftotext.exe。這有時會弄亂結果文本,所以我不能使用它。 是否有另一個免費工具,我可以從另一個程序調用?我更喜歡命令行工具。

    0熱度

    1回答

    乾草處理圖像的數據或其他東西。 也許你們可以在我的項目中幫助我。 即時通訊使用pdfcreator作爲虛擬打印機打印到文件的一些圖像。 可以是pdf可以是任何類型的圖像。但我需要從中提取數據。 可以這樣做嗎?即時通訊使用C#。

    3熱度

    2回答

    我正在使用pdftotext開源工具將PDF轉換爲文本文件。如何將文本文件保存爲UTF-8格式,以便我可以保留文本文件中的所有重音字符。我使用下面的命令將內容提取到文本文件,但無法看到任何重音字符。 pdftotext -enc UTF-8 book1.pdf book1.txt 請幫我解決這個問題。 由於提前,

    2熱度

    1回答

    我正在嘗試使用pdftohtml,但我發現偶爾難以正確解析表格。它將來自兩列的文本分組到單個單元格中,這使得我試圖解析所得到的數據徒勞! 請注意,這隻會在PDF中出現一次或兩次,並且相當難以預測。 我試過最新版本的pdftohtml(包括0.40a測試版),但無濟於事。 是否有人知道任何可能值得嘗試的Linux兼容等價物? 感謝, 山姆

    0熱度

    3回答

    我使用Foxit SDK從Pdf文檔中提取文本。 一切都還好,但是當我用其他語言而不是英文提取pdf時,我沒有得到正確的輸出。 我也用過javaBox中的PDFBox,但是這給了我最差的輸出,Foxit SDK的輸出比PDFBox更好。 有沒有可以解決問題的其他庫? 或者還有其他解決方案。

    1熱度

    1回答

    我目前使用PDFBox的和a.pdf內讀取 這是在文件夾1 我首先列出所有的文件夾中找到的PDF文件下發現了一個PDF文檔。 然後我檢查每個文件的頁數。 現在我想在頁腳下面的文件的最後添加一個可以被打印機識別的圖像,以便裝訂頁面,因爲它會意識到它已到達文件結尾。 我已經到達,直到獲取文件列表和頁數。 我用什麼命令去到最後一頁的末尾並寫在那裏。 我應該變換.pdf文件轉換爲文本或 我應該能夠使用PD

    2熱度

    1回答

    我從使用pdftotext從pdf創建的文本文件中使用python提取文本。它是2000年的文件之一,在這個特定的文件中,一行關鍵詞以歐盟爲結尾。該行的其餘部分對於肉眼是空白的,下面的行也是空白的。 該程序通常剝離行尾的任何尾隨空白,並忽略隨後的空白行。 在這種情況下,它保存了在「EU」之間的文本文件中打印出來的空白,以及類似的HTML(Simile Exhibit)。 我也打印到命令行,在這裏我

    0熱度

    2回答

    我正在linux中編寫一個python程序,並在其中運行pdftotext可執行文件以轉換pdf文本。我目前使用的代碼如下。 pdfData = currentPDF.read() tf = os.tmpfile() tf.write(pdfData) tf.seek(0) out, err = subprocess.Popen(["pdftotext", "-", "-"], std