字符串我有2個問題:如何機器間傳輸文件在Hadoop和搜索使用豬
我有記錄的大文件,有幾百萬的。我需要將這個文件從一臺機器傳輸到hadoop羣集機器。我想在hadoop中沒有scp命令(或者在那裏?)如何將文件傳輸到hadoop機器?另外,一旦文件在我的hadoop集羣上,我想搜索包含特定字符串的記錄,比如'XYZTechnologies'。如何做到這一點是豬?一些示例代碼將會給我一個很好的啓動。
這是我第一次使用Hadoop/Pig。所以請原諒我,如果這是一個「太基本」的問題。
編輯1
我試了一下Jagaran建議,我得到了以下錯誤:
2012-03-18 04:12:55,655 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1000: Error during parsing. Encountered " "(" "("" at line 3, column 26.
Was expecting:
<QUOTEDSTRING> ...
而且,請注意,我想在記錄中的任何地方搜索字符串,所以我正在使用PigStorage('\ n')AS(Y:chararray)讀取選項卡分隔的記錄作爲一個列:
A = load'/ user/abc/part-00000'
複製到HDFS:http://stackoverflow.com/q/1533330/179529 豬並不意味着對搜索,用於掃描大量的數據進行操作(ETL) – Guy 2012-03-17 08:55:54