2012-07-04 88 views
3

這聽起來很愚蠢,但您知道如何構建文本語料庫嗎?我到處搜索,現在已經有了語料庫,但我想知道他們是如何構建它的?例如,如果我想用正面和負面推文構建語料庫,那麼我只需要創建兩個文件?但那些文件的內部呢?不要把它(((( in this example他存儲POS和NEG鳴叫在RedisDB。構建您自己的文本語料庫

回答

4

但是關於內這些文件的呢?

這主要取決於你所使用的庫。XML (有各種標籤)是常見的,是每行一個句子。棘手的部分是在第一時間獲取數據。

例如,如果我想建立正面和負面的鳴叫

語料庫

這是否意味着您想知道如何將推文標記爲正面和負面?如果是這樣,你正在尋找什麼叫做文本分類或語義分析。

如果你想找到一堆推文,我會檢查其中的一個頁面(只是從我自己的快速搜索)。

Clickonf5:http://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/

的Quora:http://quora.com/What-is-the-best-tool-to-download-and-archive-Twitter-data-of-certain-hashtags-and-mentions-for-academic-research

谷歌羣組:http://groups.google.com/forum/?fromgroups#!topic/twitter-development-talk/kfislDfxunI

有關如何創建一個語料庫一般的學習,我會由理查德·肖檢查出Handbook of Natural Language Processing Wiki

+0

你讓它聽起來很簡單。適當的語料庫應該是平衡的,有代表性的,沒有錯誤的;當然,分類器(或一組分類器)的輸出可能是一個開始,但您無法真正避免手動的質量保證。 – tripleee