我使用XHTMLConverter將.docx轉換爲html,以便預覽文檔。有什麼辦法只從原始文檔轉換幾頁?我會很感激任何幫助。使用Apache POI將部分.dox文檔轉換爲html
0
A
回答
1
您必須解析完整的.docx文件。不可能只讀取其中的部分內容。否則,如果你想知道如何選擇一個特定的頁碼,我不敢告訴你(至少我相信)這個詞不存儲頁碼,因此在庫中沒有任何功能可以查詢指定的頁面。 (I已經在另一個論壇上讀到過,它實際上可能是錯誤的信息)。 PS:Excel的POI包含.getSheetAt()
方法(這可能有助於你的研究)
但也有其他的方法來_1的存取您的網頁。例如,您可以閱讀docx文檔的行並搜索頁面編號(如果您的文本包含這些編號,可能會崩潰)。另一種方法是尋找這將是更準確的網站的標題:
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
這應該給你指定的頁面的標題。同樣的,頁腳:
HeaderStories headerStore = new HeaderStories(doc);
String footer = headerStore.getFooter(pageNumber);
如果這麼想的工作。我沒有真正進入該API ....
這裏一個很草率的解決方案一個小例子:
import java.io.*;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class ReadDocFile
{
public static void main(String[] args)
{
File file = null;
WordExtractor extractor = null;
try
{
file = new File("c:\\New.doc");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
HWPFDocument document = new HWPFDocument(fis);
extractor = new WordExtractor(document);
String[] fileData = extractor.getParagraphText();
for (int i = 0; i < fileData.length; i++)
{
if (fileData[i].equals("headerPageOne")){
int firstLineOfPageOne = i;
}
if (fileData[i]).equals("headerPageTwo"){
int lastLineOfPageOne = i
}
}
}
catch (Exception exep)
{
exep.printStackTrace();
}
}
}
如果此去,我會建議你創建你的頭一個String[]
和將for-loop折射到單獨的getPages()
方法。因此你的循環將如下所示:
List<String> = new ArrayList<String>(Arrays.asList("header1","header2","header3","header4"));
for (int i = 0; i < fileData.length; i++)
{
//well there should be a loop for "x" too
if (fileData[i].equals(headerArray[x])){
int firstLineOfPageOne = i;
}
if (fileData[i]).equals(headerArray[x+1]){
int lastLineOfPageOne = i
}
}
您可以創建一個對象(INT pageStart,INT PageStop),至極將是你的方法的產物。
我希望它幫你:)
相關問題
- 1. 使用Apache POI將Word轉換爲HTML
- 2. 使用Apache Poi將doc文件轉換爲html
- 3. 如何使用Apache POI將.XLS轉換爲.HTML文件?
- 4. 使用Apache POI將byteArray轉換爲XSSFWorkbook
- 5. 使用Apache POI在Java中將.doc轉換爲.html
- 6. 使用Apache POI庫將Excel電子表格轉換爲HTML
- 7. Java:使用apache POI如何將ms word文件轉換爲pdf?
- 8. 將HTML轉換爲Google文檔轉換
- 9. 使用Apache POI從Word文檔中讀取部分
- 10. 使用Apache POI將.docx轉換爲html並獲取不到文本
- 11. 用PHP將TEI文檔轉換爲HTML
- 12. Apache POI - 將.html電子表格轉換爲.xls電子表格
- 13. 快速將Word文檔轉換爲HTML
- 14. 如何使用Apache POI將HSSFWorkbook轉換爲XSSFWorkbook?
- 15. 使用Apache poi將csv轉換爲xls/xlsx?
- 16. 使用IKVM.Net將Apache POI .jar轉換爲.dll
- 17. 如何將.docx轉換爲使用apache poi的html,其中還包括圖像
- 18. 如何使用APACHE POI或其他方式將MS PowerPoint 2003/2007轉換爲HTML?
- 19. 使用Apache POI將HTML格式化的單元格值轉換爲Excel 1
- 20. 將文檔轉換爲html和pdf
- 21. 如何將HTML轉換爲PDF文檔
- 22. 使用Apache POI更新MSWord文檔
- 23. 使用Apache POI編輯Word文檔
- 24. 將字符串轉換爲HTML文檔
- 25. 將HTML標記轉換爲RTF文檔
- 26. 將GET HTML響應轉換爲文檔
- 27. 。將HTML轉換爲word文檔
- 28. 將大型HTML文檔轉換爲PDF
- 29. 在html中使用docx4j將html轉換爲word文檔
- 30. 我想將我的xml文檔轉換爲使用apache mod xslt的html網頁
我只是檢查,醫生在HeaderStories(DOC)必須HWPFDocument,它不與.DOCX工作,但感謝你的回答! – Alexandr