0
我正在嘗試從Common Crawl
閱讀「英文」網頁。我在亞馬遜界面上運行這些Hadoop
作業。請看下面的代碼,這是Mapper部分。我沒有減速器。Hadoop:只閱讀「英文」頁面
#!/usr/bin/php
<?php
$word2count = array();
$counter = 0;
$closeit = false;
while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) {
$counter++;
$line = strtolower(trim($line));
echo "$line\n";
if($counter > 100)
{
$closeit = true;
}
}
echo "mapper1\n";
?>
在這裏,此代碼將讀取文章的前100行。我怎樣才能改變這個,這樣只會讀取「英文」文章?除此之外,我應該使用哪些數據集?
請幫忙。