2014-01-16 53 views
2

任何人都可以幫助我在php中從docx文件中提取文本嗎? 或者是否有任何Linux的命令?

我可以從pdf和doc中提取文本,所以docx到pdf或文檔轉換在PHP(或Linux命令)也適用於我。如何從docx文件中提取文本?

+1

https://github.com/PHPOffice/PHPWord – PeeHaa

+0

http://stackoverflow.com/questions/1501623/reading-docx-office-open-x ML-在-PHP –

回答

0

使用OpenTBS

包括它..不喜歡在這之後..

include_once('tbs_class.php'); 
include_once('../tbs_plugin_opentbs.php'); 
$TBS = new clsTinyButStrong; 
$TBS->Plugin(TBS_INSTALL, OPENTBS_PLUGIN); 
$TBS->LoadTemplate('filename.docx'); 
echo $string = $TBS->Source; // your docx content is now in this variable 
1

這是很容易從中提取的docx文本,你甚至不需要依賴(除壓縮模塊,你應該激活)

<?php 

function read_docx($filename) { 
    $striped_content = ''; 
    $content = ''; 

    $zip = zip_open($filename); 

    if (!$zip || is_numeric($zip)) 
     return false; 

    while ($zip_entry = zip_read($zip)) { 

     if (zip_entry_open($zip, $zip_entry) == FALSE) 
      continue; 

     if (zip_entry_name($zip_entry) != "word/document.xml") 
      continue; 

     $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry)); 

     zip_entry_close($zip_entry); 
    }// end while 

    zip_close($zip); 

    $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content); 
    $content = str_replace('</w:r></w:p>', "\r\n", $content); 
    $striped_content = strip_tags($content); 

    return $striped_content; 
} 


echo read_docx("textExample.docx"); 

由於Muhammad's question