2014-01-08 56 views
0

我正在嘗試從Common Crawl閱讀「英文」網頁。我在亞馬遜界面上運行這些Hadoop作業。請看下面的代碼,這是Mapper部分。我沒有減速器。Hadoop:只閱讀「英文」頁面

#!/usr/bin/php 
<?php 

$word2count = array(); 
$counter = 0; 
$closeit = false; 

while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) { 
    $counter++; 
    $line = strtolower(trim($line)); 
    echo "$line\n"; 
    if($counter > 100) 
    { 
    $closeit = true; 
    } 
} 

    echo "mapper1\n"; 


?> 

在這裏,此代碼將讀取文章的前100行。我怎樣才能改變這個,這樣只會讀取「英文」文章?除此之外,我應該使用哪些數據集?

請幫忙。

回答