這聽起來很愚蠢,但您知道如何構建文本語料庫嗎?我到處搜索,現在已經有了語料庫,但我想知道他們是如何構建它的?例如,如果我想用正面和負面推文構建語料庫,那麼我只需要創建兩個文件?但那些文件的內部呢?不要把它(((( in this example他存儲POS和NEG鳴叫在RedisDB。構建您自己的文本語料庫
3
A
回答
4
但是關於內這些文件的呢?
這主要取決於你所使用的庫。XML (有各種標籤)是常見的,是每行一個句子。棘手的部分是在第一時間獲取數據。
例如,如果我想建立正面和負面的鳴叫
語料庫
這是否意味着您想知道如何將推文標記爲正面和負面?如果是這樣,你正在尋找什麼叫做文本分類或語義分析。
如果你想找到一堆推文,我會檢查其中的一個頁面(只是從我自己的快速搜索)。
Clickonf5:http://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/
谷歌羣組:http://groups.google.com/forum/?fromgroups#!topic/twitter-development-talk/kfislDfxunI
有關如何創建一個語料庫一般的學習,我會由理查德·肖檢查出Handbook of Natural Language Processing Wiki。
相關問題
- 1. 創建您自己的語言
- 2. 構建您自己的NLP API
- 3. 在NLTK中創建自己的語料庫的優勢
- 4. 如何在Python Natural Language Toolkit中創建自己的語料庫?
- 5. 使用您自己的API來構建您的網站
- 6. 創建您自己的HRESULT?
- 7. 從文本語料庫中分離非結構化語句
- 8. 來自twitter的語料庫
- 9. 如何構建IMS開源語料庫工作臺和NLTK可讀語料庫?
- 10. 要求自己構建自己的類
- 11. 如何爲斯坦福標記器創建自己的訓練語料庫?
- 12. 自動更正文檔語料庫
- 13. R從多個XML文件中構建一個xml語料庫
- 14. 如何使用一組文本文件創建語料庫 - python?
- 15. 是否有自動文本摘要的語料庫?
- 16. 使用類放大文本語料庫
- 17. 如何構建您自己的MeanJS Docker鏡像?
- 18. 示例/用例構建您自己的ControllerFactory?
- 19. Codeigniter根據您自己的需要構建驗證類
- 20. 將Google/Yahoo搜索嵌入網站或構建您自己的
- 21. 構建您自己的分析器:如何捕獲事件?
- 22. 在Android上構建您自己的源代碼
- 23. 如何構建您自己的傳輸級別協議?
- 24. ASP.NET - 構建您自己的路由系統
- 25. 構建您自己的Google Wave聯合會
- 26. XMLCorpusReader未創建語料庫
- 27. 構建自己的API
- 28. 構建我自己的類?
- 29. 構建iOS自己的雲
- 30. Hadoop創建您自己的程序
你讓它聽起來很簡單。適當的語料庫應該是平衡的,有代表性的,沒有錯誤的;當然,分類器(或一組分類器)的輸出可能是一個開始,但您無法真正避免手動的質量保證。 – tripleee