ビッグデータ

1/8ページ

Cortana Intelligence Suiteを構築(第5回)- Azure Machine Learningを使ってデータを予測してみる(サインアップ&データの準備編)

概要 今回はCortana Intelligence Suiteを構築(第4回)で出力した東京メトロの各路線の運航情報データと、気象庁の気象データを組み合わせて、天気、曜日をもとに予測される各路線の遅延時間を算出する機械学習モデルを、Azure Machine Learningで構築してみます。 事前に準備するもの Azure サブスクリプション Cortana Intelligence Suiteを構築(第4回)で出力したデータ 設定 […]

Coursera Machine Learning (10): 大規模機械学習

 機械学習を学ぶのに最も適した教材と言われる、Machine Learning | Coursera を受講しているので、復習も兼ね学んだ内容を簡潔にまとめてみようと思います。  第十弾は、大規模機械学習 (Large Scale Machine Learning)です。ビッグデータを扱わなくなったときにどうしたらいいか、ざっくり学んでいきます。 過去の記事 Coursera Machine Learning (1): 機械学習とは?単 […]

裁判所がfaxをやめるだけなのか?

最近若干話題の #裁判のIT化 ですが、個人的には社会科学とコンピューターサイエンスの総合芸術だと思っています。久しぶりに、内閣官房に設置された「裁判手続き等のIT化検討会」の「取りまとめ」1を読んでみたところ、そのような思いをますます強くしました。この機会に改めて #裁判のIT化 にはどのような可能性があるのか、10個考えてみました。 1. 訴訟記録が紙ではなくなる。 一言で言えば、「訴訟記録の全面的な電子化」されます。結構いろいろ変 […]

Pythonでビッグデータ検索エンジンを実装する方法について

検索は、ビッグデータの世界で共通の要件です。 SplunkとELKは、それぞれ非オープンソースとオープンソースの分野のリーダーです。 この記事では、大規模なデータ検索の基本原則を理解しようとする、非常に小さなPythonコードで基本的なデータ検索機能を実装しています。 ブルームフィルタ 最初のステップは、 Bloomフィルタを実装することです。 ブルームフィルタは、ビッグデータの世界で一般的なアルゴリズムであり、目的はターゲットではない […]

Apache Beam with Google Cloud Dataflow(over 2.0.x系)入門~基本的なGroupByKey編~

Apache Beam with Google Cloud Dataflow(over 2.0.x系)入門~基本的なGroupByKey編~ Apache Beamの5つのCore Transformの内の1つ、GroupByKeyの基本的な使い方について記す。 CoGroupByKeyなどについては別の機会に書けたらなと思う。 Apache Beam や Cloud Dataflowの基本についてはこちら 公式のBeam Progra […]

Apache Beam 入門(1) ~テキスト読み書き~

全体の目的 Apache Beam の簡単なプログラムを作成して,仕組みを理解していく 今回の目的 ローカルのテキストファイルを読み込んでそのまま書き出すプログラムを作成する 本編 環境 IntelliJ IntelliJ IDEA 2017.3.3 (Ultimate Edition) Build #IU-173.4301.25, built on January 16, 2018 Licensed to kaito iwatsuki […]

Javaプログラマーは何年もの間、給与を引き上げたいですか?

序文 Java開発の何年もの間、大きなデータに素早く移行する方法 共有遷移体験ルート Javaプログラマにとっては、大きなデータの主流プラットフォームであるHadoopはJava開発に基づいているため、Javaプログラマは大きなデータ開発からよりスムーズな言語環境に移行しています。大きなデータプロジェクトでJava言語をマスターすることには、いくつかの利点があります。 もちろん、Hadoopのコアとなる価値は、分散ファイルシステムと分散 […]

弾性サーチの一貫性解析(3) – データ

はじめに「Elasticsearch Distributed Consistency Principlesの解剖学」シリーズでは、Elasticsearchの分散一貫性原則の詳細な分析を行い、その実装方法、原則、および既存の問題(バージョン6.2に基づく)を紹介します。 最初の2つの記事では、ES内のクラスタの構成、マスター選定アルゴリズム、およびメタの更新プロセスについて説明し、選挙やメタ更新の整合性の問題を分析します。 この記事では […]

どのようにHBaseの書き込みが速すぎることによって引き起こされる様々な問題を避けるために

最初に、書き込みプロセス全体を簡単に見直します client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to filesystem writeプロセス全体は、クライアントがAPIを呼び出すことから始まります。データはprotobufを介して […]

1 8