AWSのデータ分析サービスを整理してみる - ナビタイムも導入

AWSのデータ分析サービスを整理してみる - ナビタイムも導入

  • マイナビニュース
  • 更新日:2017/11/13
No image

●AWS S3からAmazon Athenaまで、カギとなるデータ分析サービスを紹介

アマゾン ウェブ サービス(AWS) ジャパンは11月10日、 AWSのデータレイクのアーキテクチャと最新導入事例に関する説明会を開催した。説明会では、AWSのサービスを導入しているナビタイムジャパンの事例が紹介された。

○大規模なデータ分析で求められるデータレイク

初めに、アマゾン ウェブ サービス ジャパン 技術本部エンタープライズソリューション部 部長の瀧澤与一氏が、データ活用に有用な同社のデータレイクのアーキテクチャ、データ分析に関するサービスを紹介した。

データレイクとは、データを蓄積するための基盤であり、瀧澤氏はその特徴として「多様なデータを一元的に保存」「データが失われない」「容量制限からの解放」「APIですぐにアクセスできる」を挙げた。

こうした特徴から、データレイクは「幅広いソースに由来する複数のデータタイプを管理し、構造化・非構造化データを集中リポジトリに保存したい」といった、昨今のデータストレージおよび分析ソリューションにおけるニーズに応えることができるという。

AWSでは、データ分析のフローを4つのカテゴリー「収集」「データレイク(保存)」「分析」「可視化」に分けて考えている。それぞれのカテゴリーについて、サービスを提供している。

瀧澤氏は、データ分析に関するサービス群のうち、カギとなる4つのコンポーネントについて紹介した。

○データ分析においてカギとなる4つのサービス

1つ目のコンポーネントが、データレイクの役割を果たす「Amazon S3」だ。同社のさまざまなサービスがS3に保存されたデータにアクセスできる。

瀧澤氏は、S3による構築したデータレイクのメリットとして「上限がないためサイジング不要」「99.99999999999%の耐久性」「安価」「APIを介したアクセス」を挙げた。ちなみに、S3の東京リージョンの価格は、スタンダードプランが1GB当たり0.025ドル、標準-低頻度アクセスプランは1GB当たり0.019ドルだ。

残りの3つのサービスは、分散処理が可能なデータ分析サービス「Amazon Redshift」「Amazon EMR( Elastic MapReduce)」「Amazon Athena」となる。最も新しいサービスが「Amazon Athena」だ。以下のように、それぞれマネージドされる環境、準拠している標準技術、分散処理が異なる。

「Amazon Redshift」はフルマネージドのデータウェアハウス(DWH)サービス。データサイズは2PBまで拡張可能で、超並列、カラムナ型DBエンジンで高速なSQL処理が行える。利用した分だけ料金を支払えばよいため、従来のDWHの10分の1のコストで実現できるという。

また今年には、S3上に置いたファイルを外部テーブルとして直接参照可能にするサービス「Redshift Spectrum」の提供が始まった。同サービスによりS3上のファイルを高速に処理することができる。

「Amazon EMR」は、Hadoopフレームワークを提供し、Apache Spark、HBase、Presto、Flink といった他のフレームワークの実行を可能にする。数クリックでセットアップを完了できるという。

「Amazon Athena」は、S3に保存したファイルに直接SQLを実行できる環境で、高速な動作を特徴とする。また、サーバ管理は不要で、ファイルを置いて、SQLを書くだけで利用できるという。

可視化に関しては、同社の「Amazon EC2」にサードパーティのBIツールを組み合わせたり、BIサービス「Amazon QuickSight」を使ったりと、用途に応じて選択可能となっている。

●Amazon Athenaを活用したナビタイムの交通データ分析サービス

○GoogleのBigQueryからAmazon Athenaに移行

続いて、「Amazon Athena」を導入しているナビタイムジャパンが説明を行った。まず、同社 ACTS事業 クラウド担当の田中一樹氏が、同サービス導入の経緯を説明した。

田中氏によると、同社が扱っている主なログには「位置情報」「プローブデータ」「経路検索条件データ」があるが、これらを分析する際は「個人情報に配慮すること」が重要になるという。これらのログは現在、S3に保管されており、S3からログを取得して分析を実施している。

現在のログ分析基盤は「Amazon Athena」が利用されているが、ここに至るまで、オンプレミス、AWS、GoogleのBigQueryの利用を経ている。

オンプレミスの環境はHadoopと「Apache Hive」を活用。同環境では「アクセスログの集計に数時間から数日かかっていた」「失敗したら再度やり直し」といったデメリットがあったため、AWSに移行することにしたという。

AWSへの移行で、S3にデータを保存する際にマスク処理を行ってKMSで暗号化してセキュリティが向上したほか、アクセスログの集計も数時間で行えるようになった。

その反面、田中氏は「当然ながら、AWSは使った分だけ料金がかかったので、コストが増えてしまった。また、失敗したらやり直しという課題は解決されなかった」と話した。

これらの課題を解決すべく、検討されたのが「BigQuery」だ。S3はそのまま利用し、GoogleのCloud Storageにデータを転送して、BigQueryを導入した。その結果、アクセスログの集計は数秒から数分と劇的に速くなり、集計に要するコストも数10分の1になり、失敗してもすぐにやり直しが可能になったという。

しかし、先述したように、S3からCloud Storageへのデータ転送を行うようになったことで、データがインターネット網を通過することになり、暗号化したデータを復号する手間がかかるようになった。さらに、BigQueryはアカウントを持って入ればどこからでもアクセスできるうえ、AWS Identity and Access Management(IAM) のように権限を詳細に管理できるツールがなかったことから、「社内のコンプライアンス担当から、セキュリティの不備を指摘され、BigQueryの利用をやめざるをえなくなった」と田中氏。

そこで、「Amazon Athena」を利用することになった。その結果、AWSからGoogleへのデータ転送、Cloud Storageへのデータ保存が不要になったほか、Athenaへのアクセスを社内からのみに限定、利用できるログをS3のバケットとIAMポリシーで限定することで、セキュリティも確保することが可能になったという。ただ、田中氏は「Athenaは十分高速だが、スピードではBigQueryには劣るので、今後に期待したい」と語った。

○Athenaがあるから実現した「道路プロファイラー」

「Amazon Athena」を用いた交通分析システム「道路プロファイラー」については、交通コンサルティング事業 データサイエンティストの加賀谷駿氏が説明した。

交通コンサルティング事業部では、ナビゲーションシステムで培ってきたデータ・技術・ユーザー基盤を生かし、交通・移動に関するデータ提供・分析・コンサルティングを行っている。

道路プロファイラーでは、同社のアプリ「車の走行実績データ」と「アプリ利用者の属性情報」と用いて、車の移動に特化した集計を行うことができる。例えば、「断面交通流」では、車がどこから来て、どこに行くのかを可視化することが可能で、車種や居住地もあわせて分析することで、広告戦略に役立つことができるという。

久保田氏は、「道路プロファイラー」は安価・高速・簡単なビッグデータの集計を実現しているが、それは「Amazon Athenaのおかげ」と述べた。

例えば、Athenaは分析量に応じて、サーバの使用量を自動で調節するため、複数のサーバで処理を分散させて高速に処理できる。また、「Amazon Athena」は利用しない間はサーバを別な利用者と教諭できるため、AWS EMRと比べてコストを80%削減できたという。

この記事をお届けした
グノシーの最新ニュース情報を、

でも最新ニュース情報をお届けしています。

外部リンク

IT総合カテゴリの人気記事

グノシーで話題の記事を読もう!
航続距離800kmで充電時間わずか1分! フィスカーが全固体電池の特許を申請
壊れたiPhoneケーブル使用で14歳少女、睡眠中に感電死(ベトナム)
意外と知らないAmazonで安く買うテクニック
潜水艦の時代は終わる? 英国議会報告書が警告
自分のスマホをAmazon Alexa搭載のスマートスピーカーにできるアプリが国内初登場
  • このエントリーをはてなブックマークに追加