2013-08-24 29 views
2

我有幾百條推文供我使用,我正在尋找將每個推特用戶分類爲男性和女性,方法是獲取他們的真實姓名並查看他們的至少2條推文。我已經編制了從他們的個人資料中獲取每個人的真實姓名,並且我現在正在考慮對他們的推文文本進行分類,以嘗試對用戶是M還是F做出更強烈的肯定。我在網上查找和搜索了文本的示例分類,但我不太確定從哪裏開始。我還發現一些非常有用的數據在這個鏈接Twitter Text With Gender Download. 任何關於如何分類男性或女性撰寫鳴叫文本的建議將非常感激!我有點撞到一堵磚牆。分類推特文字性別

回答

5

我沒有任何其他的文字數據集是由男性或女性寫的,以幫助訓練分類器。

這是你的障礙。要麼你需要使用這樣的數據集進行監督式學習,例如使用感知器學習者;或者您需要執行無監督學習,例如k-均值聚類,並嘗試查找可以(有點任意地)聲明爲男性或女性信號的羣集。在無人看管的方法中區分性別在實踐中幾乎是不可能的,至少在沒有其他一些現有的信息,先驗或功能地圖的基礎上可以建立。

+0

機會,k-均值或任何其他聚類會破壞性別接近0,這不是一個好建議。這隻會發現**任何**的數據分離,說話者的性別是非常微妙的事情,這必須經過精心培訓/設計,聚類**不會**工作。 – lejlot

+0

@lejlot同意,考慮到數據的性質可能是一個很長的時間。 – DuckMaestro

+0

好吧,我很高興地發現了一些可能對我有用的文件。我編輯了我原來的帖子,將其包含在上面。它有條件和用戶ID與估計男性或女性。 – Tastybrownies

6

你需要一個訓練集,這是一個明顯的陳述。沒有其他辦法。正如您在前一個問題Using Naive Bayes Classification to Identity a Twitter User's Gender中已經指出的那樣,您可以手工創建它們,也可以在半監督時尚中使用外部規則(如真實姓名)創建訓練集。

最簡單的方法是使用現有的鳴叫數據接受培訓,性別標籤的分類,我建議: http://clic.cimec.unitn.it/amac/twitter_ngram/

其他資源: 博客性別:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar

+0

非常感謝您爲我找到這個數據集!我衷心感謝。我一定會看看這個。 – Tastybrownies

2

你可以看看我的Python性別檢測項目https://github.com/muatik/genderizer

它試圖檢測作者的性別,查看他們的姓名和/或示例文本(例如tweets)。

+0

很酷的概念,但經過測試,名稱很好,但只使用文本看起來相當不準確。'我是兩個孩子的母親'給'無'; ''我是三個孩子的母親'給'男'; ''我是五個孩子的母親'給'女'; '我喜歡在商場購物'給'無',甚至'我是女醫生'給'男'。 – KubiK888

+0

是的,我沒有聲稱它的準確性達到了理想的水平,主要是因爲它需要用英文文本https://github.com/muatik/genderizer/issues/1進行培訓。 – Muatik

+0

聽起來不錯,你能簡單地告訴我如何用你的軟件包對現有的微博數據集進行培訓嗎? – KubiK888