從PDF表格提取PDF表單字段名稱

我正在使用pdftk填充PDF表單並使用XFDF文件。但是，對於這個項目，我不會預先知道哪些字段會出現，所以我需要分析PDF本身以查看需要填寫哪些字段，相應地向用戶提供一個接口，然後從中生成一個XFDF文件填寫PDF表格。從PDF表格提取PDF表單字段名稱

如何獲取字段名稱？最好是命令行，.NET或PHP解決方案。

來源

2010-01-24 Christopher Done

克里斯托弗，如果您找到了解決方案，我鼓勵您發佈它並將其標記爲答案，以便其他人可以從中受益。或者你可以選擇刪除鏈接來刪除你的問題。 – 2010-01-24 17:26:24

會做。乾杯。 – 2010-01-24 17:41:10

我可以讓我的客戶端使用Acrobat與PDF一起導出XFDF文件（其中包含字段名稱），從而完全避免了此問題。

來源

2010-01-24 17:41:18

我用下面的代碼，使用ABCpdf從WebSupergoo，但我想大多數圖書館有可比類：

protected void Button1_Click(object sender, EventArgs e) 
    { 
     Doc thedoc = new Doc(); 
     string saveFile = "~/docs/f1_filled.pdf"; 
     System.Text.StringBuilder sb = new System.Text.StringBuilder(); 
     thedoc.Read(Server.MapPath("~/docs/F1_2010.pdf")); 
     foreach (Field fld in thedoc.Form.Fields) 
     { 
      if (!(fld.Page == null)) 
      { 
       sb.AppendFormat("Field: {0}, Type: {1},page: {4},x: {2},y: {3}\n", fld.Name, fld.FieldType.ToString(), fld.Rect.Left, fld.Rect.Top, fld.Page.PageNumber); 
      } 
      else 
      { 
       sb.AppendFormat("Field: {0}, Type: {1},page: {4},x: {2},y: {3}\n", fld.Name, fld.FieldType.ToString(), fld.Rect.Left, fld.Rect.Top, "None"); 
      } 
      if (fld.FieldType == FieldType.Text) 
      { 
       fld.Value = fld.Name; 
      } 

     } 

     this.TextBox1.Text = sb.ToString(); 
     this.TextBox1.Visible = true; 
     thedoc.Save(Server.MapPath(saveFile)); 
     Response.Redirect(saveFile); 
    }

這確實兩件事情： 1）填充一個文本框的所有表單域的庫存，在頁面上顯示他們的姓名，字段類型，他們的頁碼和位置（順便說一下，0,0是左下角）。 2）用輸出文件中的字段名稱填充所有文本字段 - 打印輸出文件，並且所有文本字段都將被標記。

來源

2010-04-30 16:36:34

簡單！您正在使用PDFTK已經

# pdftk input.pdf dump_data_fields

它將輸出字段名，字段類型，它的一些特性（如什麼是下拉列表或文本對齊選項），甚至一個工具提示文本（我認爲是非常有用）

我唯一缺少的是場座標...

來源

2010-09-16 19:19:15 TEHEK

這應該是選定的答案。或者，如果您有Adobe Professional，則可以單擊表單>管理表單數據>導出數據將數據導出到FDF文件。然後打開FDF文件並獲取與填充值關聯的字段名稱。 – Furbeenator 2013-11-13 19:19:21

太棒了，它非常幫助我（失去了一天尋找解決方案） – Epsiloncool 2014-07-14 14:02:34

這個命令去哪裏？它是否可用於免費版本的pdftk？ – 2015-05-20 22:53:54

一個很晚回答我，雖然我的解決方案是不是PHP，但我希望它可能會派上用場的人應該尋找Ruby的解決方案。

第一種是使用PDFTK提取所有字段的名字在那麼我們就需要清理的垃圾文字，有一個良好的可讀哈希：

def extract_fields(filename) 
    field_output = `pdftk #{filename} dump_data_fields 2>&1` 
    @fields = field_output.split(/^---\n/).map do |field_text| 
    if field_text =~ /^FieldName: (\w+)$/ 
     $1 
    end 
    end.compact.uniq 
end

其次，現在我們可以使用任何XML解析，構建我們的XFDF：

# code borrowed from `nguyen` gem [https://github.com/joneslee85/nguyen] 
# generate XFDF content 
def to_xfdf(fields = {}, options = {}) 
    builder = Nokogiri::XML::Builder.new(:encoding => 'UTF-8') do |xml| 
    xml.xfdf('xmlns' => 'http://ns.adobe.com/xfdf/', 'xml:space' => 'preserve') { 
     xml.f(:href => options[:file]) if options[:file] 
     xml.ids(:original => options[:id], :modified => options[:id]) if options[:id] 
     xml.fields { 
     fields.each do |field, value| 
      xml.field(:name => field) { 
      if value.is_a? Array 
       value.each { |item| xml.value(item.to_s) } 
      else 
       xml.value(value.to_s) 
      end 
      } 
     end 
     } 
    } 
    end 
    builder.to_xml 
end 

# write fdf content to path 
def save_to(path) 
    (File.open(path, 'w') << to_xfdf).close 
end

中提琴，這是主要的邏輯。如果您在Ruby中查找輕量級庫，我強烈建議您給nguyen（https://github.com/joneslee85/nguyen）gem試試。

來源

2012-06-27 00:20:16

這爲我工作：

然後，當文件被用密碼加密的，這是怎麼了，你可以從它

pdftk 1.pdf input_pw YOUR_PASSWORD_GOES_HERE dump_data_fields output test2.txt

這花了我2個小時得到正確的閱讀，所以希望我節省您的時間:)

來源

2015-09-22 20:28:58

C＃/ iTextSharp的

public static void TracePdfFields(string pdfFilePath) 
    { 
     PdfReader pdfReader = new PdfReader(pdfFilePath); 
     MemoryStream pdfStream = new MemoryStream(); 
     PdfStamper pdfStamper = new PdfStamper(pdfReader, pdfStream, '\0', true); 

     int i = 1; 
     foreach (var f in pdfStamper.AcroFields.Fields) 
     { 
      pdfStamper.AcroFields.SetField(f.Key, string.Format("{0} : {1}", i, f.Key)); 
      i++; 
      //DoTrace("Field = [{0}] | Value = [{1}]", f.Key, f.Value.ToString()); 
     } 
     pdfStamper.FormFlattening = false; 
     pdfStamper.Writer.CloseStream = false; 
     pdfStamper.Close(); 

     FileStream fs = File.OpenWrite(string.Format(@"{0}/{1}-TracePdfFields_{2}.pdf", 
      ConfigManager.GetInstance().LogConfig.Dir, 
      new FileInfo(pdfFilePath).Name, 
      DateTime.Now.Ticks)); 

     fs.Write(pdfStream.ToArray(), 0, (int)pdfStream.Length); 
     fs.Flush(); 
     fs.Close(); 
    }

來源

2016-09-27 09:33:46 gallit

從PDF表格提取PDF表單字段名稱

回答

相關問題