2014-05-18 442 views
1

任何人都可以告訴我可能導致此問題的原因是什麼? 我試圖用post.jar發佈一個文件xml;我COPT服務器日誌下面Solr錯誤#500 IOE

118208 [qtp760665089-18] ERROR org.apache.solr.servlet.SolrDispatchFilter û nul 
l:java.lang.RuntimeException: [was class java.io.CharConversionException] Invali 
d UTF-8 middle byte 0x6c (at char #139212, byte #136949) 
     at com.ctc.wstx.util.ExceptionUtil.throwRuntimeException(ExceptionUtil.j 
ava:18)at com.ctc.wstx.sr.StreamScanner.throwLazyError(StreamScanner.java:731) 
     at com.ctc.wstx.sr.BasicStreamReader.safeFinishToken(BasicStreamReader.j 
ava:3657)at com.ctc.wstx.sr.BasicStreamReader.getText(BasicStreamReader.java:809) 
at org.apache.solr.handler.loader.XMLLoader.readDoc(XMLLoader.java:397) 
at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java 
:246) 

[...] 

Caused by: java.io.CharConversionException: Invalid UTF-8 middle byte 0x6c (at c 
har #139212, byte #136949) 
     at com.ctc.wstx.io.UTF8Reader.reportInvalidOther(UTF8Reader.java:313) 
     at com.ctc.wstx.io.UTF8Reader.read(UTF8Reader.java:204) 
     at com.ctc.wstx.io.ReaderSource.readInto(ReaderSource.java:84) 
     at com.ctc.wstx.io.BranchingReaderSource.readInto(BranchingReaderSource. 
java:57)... 

回答

1

你有1個或多個非法(如不支持UTF-8)你的文檔中的字符:

http://www.coderanch.com/t/433718/XML/Invalid-UTF-middle-byte-error

我會拿在文檔的密切關注並考慮剝離/過濾僅UTF-8

此之前的計算器答案有用於濾除非UTF-8字符的夫婦在Perl和Java代碼片斷:

How to remove bad characters that are not suitable for utf8 encoding in MySQL?

+0

我意識到這是一個非法的非UTF8字符,但我不知道我該如何解決..你能幫我嗎?我如何過濾只有UTF8? – diegodalbosco

+0

我會添加一個鏈接到幾個解決方案來篩選出來。 –