我正在嘗試構建一個新聞中心應用程序,我的目標是從其他新聞頻道中提取新聞文章,對其進行總結,並以無偏見的方式呈現子彈形式。 我已經開始運行算法,我需要的是從其他網站收集數據的代碼,如NDTV,CNN等。 請給我一個如何執行此操作的描述。代碼,鏈接,示例和屏幕截圖會有很大的幫助。 謝謝! (Y)如何從其他網站爲應用程序收集數據?
0
A
回答
1
webscraping是你的方式; 你可以得到你需要你的新聞報道或一切與scrapy,beautifulsoup或selenium它們是Python模塊用於獲取HTML頁面的數據(文本),之後您可以將數據保存到任何你想要如數據庫; 最好使用rss頁面作爲頭條新聞,並考慮這些事情。
0
有一個稱爲QueryList
(http://git.oschina.net/jae/QueryList)一個PHP lib中,它使用phpQuery
內部,並使用一些CSS選擇濾波器陣列抓取在某些URL的具體內容。
的文檔是在中國(我不認爲這是一個英文版本),但它是非常簡單的使用方法:
<?php
// include the lib
require_once('QueryList.class.php');
// url to fetch content
$url = 'http://www.example.com/index.html';
// filter rules using css selector grammar
$regArr = array(
'time' => array('td:nth-child(2)', 'text'),
'summary' => array('td:nth-child(3) td:nth-child(3)', 'text'),
'imgSrc' => array('h1 > a > img', 'src')
);
// optional, firstly find `.divbox > table`, then find the things defined by $regArr in each `.divbox > table`
$regRange = '.divbox > table';
// do the query
$result = QueryList::Query($url, $regArr, $regRange);
// the result will be an array like:
/** Array
* (
* [0] => Array
* (
* 'time' => ,
* 'summary' => ,
* 'imgSrc' =>
* )
* [1] => Array
* (
* 'time' => ,
* 'summary' => ,
* 'imgSrc' =>
* )
* ...
*)
*/
echo '<pre>';
print_r($result->jsonArr);
echo '</pre>';
,你還可以定義排除模式和$ regArr一個回調函數,我認爲這將符合你的要求。
相關問題
- 1. 從其他網站接收數據
- 2. 從其他網站上託管的表單收集數據
- 3. 如何從Android應用程序接收數據並將其發佈到網站
- 4. 如何從其他網站
- 5. 從網站表單接收數據到c#應用程序
- 6. 從其他應用程序登錄到asp.net網站,然後接收文件流
- 7. 爲ios應用程序收集網絡數據
- 8. 如何使用SNMP從其他機器收集數據?
- 9. rails 4:如何從應用程序收集點擊流數據
- 10. 如何從嚮導應用程序收集和存儲數據?
- 11. 從主應用程序切換到其他網站
- 12. 從php其他網站提取數據
- 13. 從其他網站提取數據
- 14. 從其他網站獲取的數據
- 15. 從其他網站獲取數據
- 16. 從其他網站獲取數據表
- 17. Azure網站作爲其他Azure網站的虛擬應用程序/目錄
- 18. 如何使用ajax從其他網站加載數據?
- 19. 如何從其他應用程序
- 20. 如何從其他應用程序
- 21. 如何從其他Android應用程序
- 22. 如何從其他應用程序
- 23. 網站/工具/應用程序收集的網頁設計
- 24. 使用cakephp從其他網站獲取響應數據
- 25. 如何從網站發送svg數據到android應用程序
- 26. 如何從網站檢索數據到iPhone應用程序
- 27. 如何從網站獲取數據並將其放到應用程序中?
- 28. 連續將數據從一個應用程序發送到其他應用程序的其他應用程序?
- 29. 從其他網站
- 30. 從其他網站
大多數新聞頻道都會有某種RSS Feed,這可能是您最好的選擇 –
您可以使用** python **。 –