我有來自Twitter的UTF-8文本數據(所以我很髒)。當輸入到mysql(數據庫字符集是utf8)時,一些文本會被垃圾回收。我想辦法把它在之前清理數據。如何清理MySQL的UTF-8數據
Insert ignore search_tweets set id_str = 'pass1',text = 'RT @youpon_info: Youponです!この度はキャンペーン參加ありがとうございました。たくさんの方々にキャンペーンに參加して頂きました。' ;
Insert ignore search_tweets set id_str = 'fail',text = 'RT @youpon_info: Youponです!この度はキャンペーン參加ありがとうございました。たくさんの方々にキャンペーンに參加して頂きました。また次のキャンペーンをすぐに予定しております!もう少' ;
Insert ignore search_tweets set id_str = 'pass2',text = 'また次のキャンペーンをすぐに予定しております!もう少' ;
fail.text = pass1.text + pass2.text
,他們都進去來的MySQL的罰款了。失敗出來
RT @youpon_info: Youponã§ãï¼ãã®åº¦ã¯ãã£ã³ãã¼ã³åå ãããã¨ããããã¾ãããããããã®æ¹ã
我已經做了這個直接的MySQL調用,雖然最初它都是在Ruby數據映射器和直接調用完成。
我想知道如何清理數據,以便它進出MySQL的相同。如果可能的話,一個紅寶石解決方案會很好,但只要知道如何清理它就會很好。
我有varchar(255)所以增加到511足夠的3字節沒有運氣,但在1023 - 4字節每個可能的字符(推文是最多140字符)它工作的感謝。 –
@ Grant M:我相信我在'net'上看到過一些食譜,如何讓MySQL失敗而不是默默地篡改數據。可能值得在您的項目中尋找幷包括一個以避免這種意外(有很多情況下,默認行爲是截斷/剪切/轉換數據)。 –
請注意,推文現在可達280個字符。 –