スクレイピング

1/14ページ

企業動向にアンテナを張るためにQiita Organizationのキュレーションサイトを作った。

Qiita Organization の登録企業に関するはてブエントリのキュレーションサイトを作りました。 Qiita orgs Curationといいます。 提供する機能 Qiita Organization 登録企業関連のはてブエントリを一覧表示します。 企業HP、QiitaOrganization、はてブ検索へのリンク ブクマ数の少ないエントリも表示されるので網羅的に企業動向を知ることができます。 将来的な転職を見据えて日々様々な […]

tseを使って未投稿があるQiita Advent Calendarをさらす

はじめに この記事は、クローラー/Webスクレイピング Advent Calendar 2016 8日目の記事です。 出遅れてしまってすみませんでしたorz ここでやること 自分が出遅れたことは棚に上げて、他のAdvent Calendarにも未投稿者がいないかどうか調べてみようと思います。 Pythonによるテキスト整形ツールtseとbeautifulsoup4を使って、Qiitaからデータを抽出します。 tseとは? 詳しくはPyC […]

AWS Machine Learningでtotoを当てる(当たるとは言っていない)

はじめに 5億円は欲しいけどサッカーの予想なんて難しくてできない〜オフサイドとか知らない〜(><) なんてお困りのみなさん! web画面をぽちぽちするだけでも簡単に機械学習できちゃうAWS MLを使って、サッカーのサの字も知らないまま試合結果を予想して、僕と一緒に5億円を目指しましょう! まずは過去のデータ準備 AWS MLに学習させるために、過去の試合結果データをcsv形式で準備する必要があります。 データを探す 公式ペー […]

ウェブページの構成単語をword2vecしてkmeansしてみた(APIもあるよ)

はじめに 先日、色んなサイトのTF-IDFを調べてみたという投稿をしましたが、今回はサイトの構成単語をWord2VecしてKmeansして、サイトの特徴的な単語が取れないか実験してみました。Word2Vecは日本語Wikipediaで作りました。Word2VecもKmeansもdeeplearning4jを使っています。 やってみる せっかくなので、先日と同じ記事を分析してみましょう。 Qiitaの場合 いまさら聞けないLinuxとメモ […]

OpenJTalkでPHP.netのマニュアルを音声ファイルにしてBGMにするまで

PHPの勉強をするためにいろいろやったことのひとつです。 車通勤をしていたとき、技術系のpodcastを聴いていたけれど聴くpodcastもなくなり、30分の通勤時間を勉強にあてがうことはできないのかなぁと思い、ちょうどそのときPHPを勉強していたこともあり、PHP.netのWebマニュアルを音声ファイルしてBGMとして聴こうと思い立ちました。 以下は車で聴けるようになるまでやったことです。 環境構築 PHP.netをスクレイピングして […]

Webスクレイピング&クローリングにおけるトレードオフ

さいしょに インターネットは情報の宝の山だ!Webスクレイピング+クローリングを駆使して、データ分析をしよう!と思った人は多いのではないでしょうか?私もその一人です。 機械学習に使うためのデータ収集、データサイエンスの勉強のために等、データを簡単に入手する手段として、Webスクレイピング+クローリングの勉強をすることにしました。 本記事では、Webスクレイピング、クローリングについて勉強して感じたことをまとめています。 Webスクレイピ […]

色んなサイトのTF-IDFを調べてみた(APIも公開したよ)

はじめに 最近使っているスクレイピングのライブラリJsoupと形態素解析器kuromojiを使って色んなサイトのTF-IDFを調べてみました。DF (Document Frequency) は日本語Wikipediaの記事をDocumentと見なしました。kuromojiにはipadic+Neologdを辞書として用いています。 とにかくやってみる Qiitaの場合 まずは本日(2016/12/26 18:30)のQiitaのランキング […]

アドベントカレンダーのいいねをスクレイピングで数える

この記事はエイチームブライズアドベントカレンダー1日目の記事です。 はじめに 今年はエイチームグループの各社がアドベントカレンダーを実施しています。 せっかくなのでどこが一番よい記事を提供できたのか、グループ間で競い合いたいというイベントにもなっています。 というわけで、いいねの数を数えるようにしてみましょう。 レギュレーション 対象のアドベントカレンダー 我らがエイチームブライズ エイチーム引越し侍 エイチームライフスタイル 集計対象 […]

【Python3】ログイン機能付サイトでスクレイピング【requests】【BeautifulSoup】

Pythonによるスクレイピング&機械学習 Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみようより 学習ログ。 第二章。 前回 この本の第一章では、 APIの基本的な呼び方 Beautifulsoupを用いた、基本的なWebページでのスクレイピングの仕方 について記述してありました。 ので、Beautifulsoupの基本的 […]

Python Webスクレイピング実装例

前書き コードをできるだけ書かず、手間のかかるフレームワークやミドルウェアを使わず、手軽さ重視で定期実行に対応した(cronで雑にまわせる)スクレイピングを実装する。 自然言語処理・機械学習の検証のため必要に迫られて実装したもの。似たような要件の方に少しでも役立てば、というところ。 概要 題材は何でもいいのですが、日刊工業新聞Webサイトからトップニュースのタイトルと本文(有料記事等の読めない部分は諦める)を抜き出してsqliteに記録 […]

1 14