0
我有一個hadoop流媒體程序,其中reader.readline()如果傳入的行太大(超過20M左右),會出現OutOfMemoryException。有沒有辦法告訴hadoop不通過超過一定大小的記錄?太大的記錄是百萬分之一。我寧可不使用跳過壞記錄選項...Hadoop數據流丟失非常大的記錄
我也試過使用此代碼http://code.google.com/p/owasp-esapi-java/issues/attachmentText?id=183&aid=-7134623167843514645&name=BoundedBufferedReader.java而不是reader.readline(),但它太慢了,我認爲,因爲它只讀取一個字符在一次。
我添加了一個似乎減輕了問題的交換,但我原來的問題仍然存在。 –