我有幾百條推文供我使用,我正在尋找將每個推特用戶分類爲男性和女性,方法是獲取他們的真實姓名並查看他們的至少2條推文。我已經編制了從他們的個人資料中獲取每個人的真實姓名,並且我現在正在考慮對他們的推文文本進行分類,以嘗試對用戶是M還是F做出更強烈的肯定。我在網上查找和搜索了文本的示例分類,但我不太確定從哪裏開始。我還發現一些非常有用的數據在這個鏈接Twitter Text With Gender Download. 任何關於如何分類男性或女性撰寫鳴叫文本的建議將非常感激!我有點撞到一堵磚牆。分類推特文字性別
分類推特文字性別
回答
我沒有任何其他的文字數據集是由男性或女性寫的,以幫助訓練分類器。
這是你的障礙。要麼你需要使用這樣的數據集進行監督式學習,例如使用感知器學習者;或者您需要執行無監督學習,例如k-均值聚類,並嘗試查找可以(有點任意地)聲明爲男性或女性信號的羣集。在無人看管的方法中區分性別在實踐中幾乎是不可能的,至少在沒有其他一些現有的信息,先驗或功能地圖的基礎上可以建立。
你需要一個訓練集,這是一個明顯的陳述。沒有其他辦法。正如您在前一個問題Using Naive Bayes Classification to Identity a Twitter User's Gender中已經指出的那樣,您可以手工創建它們,也可以在半監督時尚中使用外部規則(如真實姓名)創建訓練集。
最簡單的方法是使用現有的鳴叫數據接受培訓,性別標籤的分類,我建議: http://clic.cimec.unitn.it/amac/twitter_ngram/
其他資源: 博客性別:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar
非常感謝您爲我找到這個數據集!我衷心感謝。我一定會看看這個。 – Tastybrownies
您可能還需要採取看看這個REST API基於第一個名字,它返回性別:http://www.thomas-bayer.com/restnames/
你可以看看我的Python性別檢測項目https://github.com/muatik/genderizer
它試圖檢測作者的性別,查看他們的姓名和/或示例文本(例如tweets)。
genderComputer是@Bogdan Vasilescu試圖從他們的名字(主要是名字)和位置(國家)推斷出一個人的性別的Python腳本。該工具將來自different countries的信息與關於小數字的信息,來自gender.c
,an open source C program for name-based gender inference的數據相結合。
- 1. 失敗推特性分支
- 2. 推文分類
- 3. 將推特信息分類爲正面和負面推文
- 4. 推特按鈕,分享推文
- 5. 多類別文檔分類
- 6. 將推文分類爲
- 7. WEKA分類類別的可能性
- 8. Mahout推薦類別
- 9. Python,OpenCV:使用ORB特徵和KNN對性別進行分類
- 10. Git推特別提交
- 11. 預分類訓練的推特評論分類
- 12. Magento每個類別的特定屬性
- 13. 分類文本根據相似性不同類別
- 14. RavenDB分面搜索:如何構建類別特定屬性的特效
- 15. 詞性分析(POS)標籤文本分類的特徵選擇
- 16. 字典分類與特里
- 17. 特定類別
- 18. 推特新推文功能?
- 19. 轉推特定推文
- 20. Python腳本,推特推特轉發特定推文
- 21. 特別多字符串分割C#
- 22. 在文本文件中分別計算不同類別的文字
- 23. 按性別分類的Android資源
- 24. 博客作者的性別分類
- 25. magento屬性,類別和分層導航
- 26. 推斷類型的別名
- 27. 驗證特定類別的ActiveRecord字段
- 28. 將文本分類爲多個類別
- 29. 將文本分類爲類別
- 30. 特別分割Java
機會,k-均值或任何其他聚類會破壞性別接近0,這不是一個好建議。這隻會發現**任何**的數據分離,說話者的性別是非常微妙的事情,這必須經過精心培訓/設計,聚類**不會**工作。 – lejlot
@lejlot同意,考慮到數據的性質可能是一個很長的時間。 – DuckMaestro
好吧,我很高興地發現了一些可能對我有用的文件。我編輯了我原來的帖子,將其包含在上面。它有條件和用戶ID與估計男性或女性。 – Tastybrownies