-1
如何使用Apache豬拉丁編程用來閱讀the.doc文件地圖減少如何讀取.doc或.docx文件
A =負載「./pig/test.docx」; B = foreach生成扁平(TextLoader((chararray)$ 0))作爲單詞;
C =組字B;
D = foreach C生成COUNT(B),組;
將D存儲到'./wordcountone';
如何使用Apache豬拉丁編程用來閱讀the.doc文件地圖減少如何讀取.doc或.docx文件
A =負載「./pig/test.docx」; B = foreach生成扁平(TextLoader((chararray)$ 0))作爲單詞;
C =組字B;
D = foreach C生成COUNT(B),組;
將D存儲到'./wordcountone';
您需要爲您的豬腳本創建自定義加載函數。 首先用java解析簡單的.doc或.docx,一些例子可以在這裏找到:How read Doc or Docx file in java?但我相信你會在google上發現更多。
一旦您知道如何從Word文檔獲取數據,您需要實現豬功能。
定製豬裝載機的示例(一步一步),可以發現here
如果你真的只是在做這樣的事情字計數興趣,並不需要所有的Word文件的額外固有的標記,最好的解決辦法幾乎肯定會找到一個軟件將它們轉換爲純文本文件。 –