2014-01-23 73 views
0

我正在尋找一種簡單的方法來抓取某些關鍵字的網頁。我有一個單詞列表,如{Apple,Banana,Pear,Pineapple},我有一個鏈接列表。我需要在每個頁面上搜索我的單詞列表並返回每個鏈接上顯示的單詞。例如,對於鏈路:使用php解析網頁

http://www.xyz.com

我應該搜索該網頁,並返回二進制變量0 1 1 0,其中每個相應的二進制變量對應於存在或不存在各對應的搜索關鍵中的矢量名單。我很難找到一種方法來搜索網頁,因爲我是新手到PHP。什麼是最好的方式來刮一個網頁,以取回頁面上的相關文本(即沒有HTML標籤或CSS或JavaScript元數據等)?我已經嘗試了curl和get_file_contents,但他們返回了相當醜陋的網頁表示。任何人都可以請提供一個片段,返回頁面上的文本,所以我可以搜索返回的文本?

在此先感謝!

之一的捲曲不工作的主要例子是頁面https://plus.google.com/107630561301274451844/about?gl=us&hl=en

我試圖找到它的關鍵字IL並返回非relavent文字對我來說,內進行搜索。

回答