やったもん勝ち

主にプログラミングのこと。生産性向上の某とかも。

2017-11-19から1日間の記事一覧

AWS EMRを使ったhiveのチュートリアル

やりたいこと 以下のような3つの項目を持ったjsonファイルがあります。 id, cookie, date 基本的にはidはcookieと一対一の関係にありますが、たまにあるcookieに対して同じidが振られていることがあります。 つまり、cookieは完全にユニークですが、idには重…

AWSのEMRを使ってHiveの基本的な使い方を確認しておく備忘録

Hiveとは? Hiveとは? Hive(ハイブ)とは、オープンソースの大規模分散計算フレームワークHadoop上で動作するデータウェアハウス(DWH)向けのプロダクトです。 Hiveとは | クラウド・データセンター用語集/IDCフロンティア とあります。 大規模なデータ処…