2012-06-06 45 views
1

我正在學習數據挖掘。我的夢想是開發一個系統,它接收一個小文本(幾句話),並傳遞一個字典,其中包含文本中的短語和數據庫中最相關的標記。爲了解決娛樂在兒童肥胖問題上的擔憂,華特迪士尼公司計劃於週二宣佈,所有在其兒童產品上刊登廣告的產品都將在明年2月份上市。重點突出的電視頻道,廣播電臺和網站必須遵守嚴格的全新營養標準。「一個包含維基百科轉儲的數據提取項目

輸出:

"LOS ANGELES" : [USA, California, Los_Angeles, city], 
"The Walt Disney Company": [Walt_Disney, Corporation, USA, movies, entertainment], 
"childhood obesity" : [childhood, illness, health], 
"all products advertised": [product, advertisement, 
"television channel": [TV, broadcast, advertisement], 
"radio station": [Radio, broadcast, advertisement], 
"web sites": [Web, broadcast, advertisement] 

我已經下載了英語和西班牙語維基百科轉儲。到目前爲止,我設法使用python,lxml和nltk提取所有標題和標題中的單詞。現在,我正在開發一個程序,以查找垃圾箱中的文章,外部網站的鏈接等之間的鏈接網絡。此外,我正在考慮提取信息框。另外,我將在本週發佈github中的python代碼。現在,我正在評論和測試它。

你能給我什麼建議?你認爲這個建議是否可行?

+0

我建議讓那些對該項目感興趣的人能夠輕鬆地從維基媒體轉儲中下載30M的小塊。這些東西太龐大,不需要人們下載,如果他們只是空洞的好奇... – sarnold

+0

是的,這是可行的,但很難優化。與維基百科開發者討論irC#mediwiki – nischayn22

+0

如果您想了解某些文章的鏈接和類別,那麼可以使用特殊轉儲。儘管(SQL),它們使用不同的格式。 – svick

回答

3

我建議您查看DBpedia,而不是手動處理原始維基百科轉儲。 DBpedia收穫維基百科並將其結構化,以使關係易於查詢。

還有其他項目,例如維基百科, Semantic MediaWikiFreebaseWordNet也可能是一個有用的信息來源。它是顯示單詞之間多種類型關係的詞典/辭典。