我想從所謂的紐約時報首頁上刮掉所有英文單詞。我寫在Python這樣的事情:使用Python刮英文單詞
import re
from urllib import FancyURLopener
class MyOpener(FancyURLopener):
version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
opener = MyOpener()
url = "http://www.nytimes.com"
h = opener.open(url)
content = h.read()
tokens = re.findall("\s*(\w*)\s*", content, re.UNICODE)
print tokens
這工作不錯,但我得到的HTML的關鍵字,如「IMG」,「SRC」和英語單詞。有沒有一種簡單的方法來從Web Scaping/HTML獲取英文單詞?
我看到this後,它似乎只是談論刮擦的機制,沒有提到的工具談論如何過濾掉非語言元素。我對鏈接,格式等沒有興趣。只是簡單的話。任何幫助,將不勝感激。
我剛剛意識到這已被回答,使用BeatifulSoup和NYTimes作爲一個例子甚至在這裏http://stackoverflow.com/questions/1936466/beautifulsoup-grab-visible-webpage-text – user423805
是的,我想要奧巴馬和基本上,我想要所有可見的單詞,而不是簡單的「英語」單詞。對困惑感到抱歉。我不想要字典查找,我也可以將這些代碼用於其他語言。 – user423805