やったもん勝ち

主にプログラミングのこと。生産性向上の某とかも。

備忘録

AWS EMRを使ったhiveのチュートリアル

やりたいこと 以下のような3つの項目を持ったjsonファイルがあります。 id, cookie, date 基本的にはidはcookieと一対一の関係にありますが、たまにあるcookieに対して同じidが振られていることがあります。 つまり、cookieは完全にユニークですが、idには重…

AWSのEMRを使ってHiveの基本的な使い方を確認しておく備忘録

Hiveとは? Hiveとは? Hive(ハイブ)とは、オープンソースの大規模分散計算フレームワークHadoop上で動作するデータウェアハウス(DWH)向けのプロダクトです。 Hiveとは | クラウド・データセンター用語集/IDCフロンティア とあります。 大規模なデータ処…

rubyの配列、ハッシュ、シンボルあたりを整理する備忘録

ハッシュ、シンボル、配列あたりがごちゃごちゃしているので、まとめる。 備忘録です。 配列 シンプルな配列 array = [1,2,3,4,5] [1, 2, 3, 4, 5] 要素を追加したり、色々なメソッドを使えます。 array.push(10) [1, 2, 3, 4, 5, 10] 色んなものが配列の要…

rubyで配列、ハッシュに対する処理をするreduceについてのまとめ備忘録

reduceとは reduceはinjectの別名。 配列やハッシュを次々に処理していくときに使えるやつ。 早速例示して使ってみる。 まず配列について # 初期値なしで、配列の中身を順に足していく。 [1,2,3,4,5].reduce() {|sum, i| sum + i } 15 # 初期値を設定できる …

rubyで配列、ハッシュに対する処理をするmapについてのまとめ備忘録

rubyのmapなどについて使い方をまとめてみます。 map 配列やハッシュの各値に対して同じ操作をしていく。 配列について # 各値を2倍にする [1,2,3,4,5].map {|i| i*2} [2, 4, 6, 8, 10] # 何もしない [1,2,3,4,5].map{|i| i} [1, 2, 3, 4, 5] # 全部1にする …