ちょっちグーグル画像検索リンク抽出(今だけ)

1 Star2 Stars3 Stars4 Stars5 Stars (まだ評価されていません)
Loading...

2018-01-14 13.54.21.jpg

php5.6
ライブラリ Goutte
説明:コマンドラインから巨人ぐーぐるさんの画像検索に検索内容を投げHTMLを抽出後、
HTML解析を行い画像リンクだけを抽出するものです。コメントを外しダウンロードディレクトリを
作成すればダウンロードが可能ですが、あくまでもローカルで動かす事を前提としています。
尚、機械学習の為に画像収集するには少し数が少ないですね・・・(水増し)orz。

gazou_gline.php

<?php
date_default_timezone_set('Asia/Tokyo');
include '/composer/vendor/autoload.php';
use Goutte\Client;
$p=count($argv)>=2?$argv[1]:"cat";
$client = new Client();
$client->setHeader('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36');
$crawler = $client->request('GET',"https://www.google.co.jp/search?hl=fr&tbm=isch&source=hp&biw=1920&bih=959&q={$p}&oq={$p}&gws_rd=cr&dcr=0");
$img = $crawler->filter('div.rg_bx.rg_di.rg_el.ivg-i')->each(function($element){
if(preg_match("/\"ou\":\".*\"\,\"ow\"/",$element->text(),$link)){
$url = str_replace(array('"ou":"','","ow"'), "",$link[0]);
$ext = pathinfo($url, PATHINFO_EXTENSION);
$name = pathinfo($url,PATHINFO_FILENAME);
echo $url."\n";
if(preg_match('/((jpg)|(jpge)|(png)).*/',$ext)){
//$data = file_get_contents($url);
//file_put_contents('./download/dl_'.$name.".".$ext,$data);
//echo '<img src="'.'./download/dl_'.$name.".".$ext."\">\n";
}
}
});


1 Star2 Stars3 Stars4 Stars5 Stars (まだ評価されていません)
Loading...
      この投稿は審査処理中  | 元のサイトへ