2013-08-26 151 views
-1

如何使用Apache豬拉丁編程用來閱讀the.doc文件地圖減少如何讀取.doc或.docx文件


A =負載「./pig/test.docx」; B = foreach生成扁平(TextLoader((chararray)$ 0))作爲單詞;

C =組字B;

D = foreach C生成COUNT(B),組;

將D存儲到'./wordcountone';


+1

如果你真的只是在做這樣的事情字計數興趣,並不需要所有的Word文件的額外固有的標記,最好的解決辦法幾乎肯定會找到一個軟件將它們轉換爲純文本文件。 –

回答

0

您需要爲您的豬腳本創建自定義加載函數。 首先用java解析簡單的.doc或.docx,一些例子可以在這裏找到:How read Doc or Docx file in java?但我相信你會在google上發現更多。

一旦您知道如何從Word文檔獲取數據,您需要實現豬功能。

定製豬裝載機的示例(一步一步),可以發現here

相關問題