我有一個問題從HTML表中分析單詞。我需要單獨從其他內容(「引理」列)的話來說:從HTML表中分離單詞並將它們保存在txt文件中
頁面俄羅斯的原始版本 - http://hsu.su/st2
英語(GOOGLETRANSLATE) - http://hsu.su/155
我聽說PHP簡單的HTML DOM解析器http://simplehtmldom.sourceforge.net/但我無法弄清楚如何解決這個問題與他。
我有一個問題從HTML表中分析單詞。我需要單獨從其他內容(「引理」列)的話來說:從HTML表中分離單詞並將它們保存在txt文件中
頁面俄羅斯的原始版本 - http://hsu.su/st2
英語(GOOGLETRANSLATE) - http://hsu.su/155
我聽說PHP簡單的HTML DOM解析器http://simplehtmldom.sourceforge.net/但我無法弄清楚如何解決這個問題與他。
<?php
include_once('simplehtmldom/simple_html_dom.php');
$html = file_get_html('http://dict.ruslang.ru/freq.php?act=show&dic=freq_news_comp&title=%D1%EB%EE%E2%E0%F0%FC%20%E7%ED%E0%F7%E8%EC%EE%E9%20%E3%E0%E7%E5%F2%ED%EE-%ED%EE%E2%EE%F1%F2%ED%EE%E9%20%EB%E5%EA%F1%E8%EA%E8');
$myFile = "file.txt";
$fh = fopen($myFile, 'w') or die("can't open file");
$table=$html->find('table',1);
foreach($table->find('td') as $td)
fwrite($fh, $td->plaintext);
fclose($fh);
?>
下載simplehtmldom ..
複製它在同一文件夾
確保代碼inluded路徑指向正確的類
make文件。 txt文件在同一文件夾中。
並運行代碼...
你有
' '
額外的,你可以從PHP字符串函數刪除..
** Rajat SinghalI **真誠地感謝您的寶貴幫助! – user1103744 2012-01-08 11:49:47
不客氣.. :) – 2012-01-08 12:34:02
查看PHP函數strip_tags()。從您提供的相同的鏈接
'strip_tags'將刪除標籤。這將使OP仍然面臨着如何從現在非結構化文本中獲取數據的問題。 – Gordon 2012-01-07 15:31:41
看到http://stackoverflow.com/questions/3577641/best-methods-to-parse-html – Gordon 2012-01-07 14:58:13