この前試しに利用したときSimpleTag::setで正規化を図る時と図らないときで
件数に違いが出ていた件について再チャレンジしてみました。
せつないぶろぐ » rhacoのSimpleTagを試してみました
結果は件数に相違があるページは見つけられませんでした。
前回はGoogleのトップページで違いが合ったように思えたのですが
今回は問題なく両方とも15件取得できました。
利用したrhacoのバージョンは同一なので前回検証したしたソースが悪かったのかもしれません。
作者の方ご心配かけました。
前回は別々のタイミングで同一のHTMLを取得していたのですが
今回は同一のタイミングで取得してみました。<これが原因だったかも
一応ソースを載せておくと
<?php require_once("./tag/data/SimpleTag.php"); $html = file_get_contents("http://www.google.co.jp/webhp?hl=ja"); $tag = new SimpleTag(); if (!$tag->set($html, "body")) { echo "SimpleTag->set()エラー1"; exit; } echo "[".count($tag->getIn("a"))."]<br>"; $tag = new SimpleTag(); if (!$tag->set($html, "body"), true) { echo "SimpleTag->set()エラー2"; exit; } echo "[".count($tag->getIn("a"))."]<br>";
結果
[15] [15]
お騒がせ致しましたm(..)m
あと検証中に0件になるURLがあってびっくりしたんだけどこれはHTML側が悪そう。
だってbodyタグが2件あるんだもん。