データ分析の現場を支えるペタバイトスケール気象データレイク&サーバレス検索システムを雲の上に作る話 | AWS Summit Tokyo 2019

データ レイク とは

データレイクとは、さまざまなソースから得た、構造化/非構造化データやバイナリなどのファイルを含めた多様なデータを一元的に格納できるシステムのこと。 格納されたデータは、必要に応じて多岐にわたる方法で分析される。 データレイクのメリットは、データの形式に関係なくデータを原型のまま格納できること。 この特性によって、データレイクは構造化データだけでなく、非構造化データも格納できる。 データレイクとは、簡単に言うとデータの格納庫のことです。 その一番の特徴は、あらゆるソースから収集したさまざまな形式のデータを一元的に保存できること。 データそれぞれがそのままの形式で保存でき、情報の規模にも左右されません。 データレイクの語源は、 情報の湖 という意味である「Data Lake」。 膨大な量のローデータを 泳がせておく という意味合いから、データレイクと呼ばれるようになりました。 データレイクが用いられるのは、主に市場分析やビッグデータ分析などの解析業務。 経営判断に伴う意志決定の迅速化のために、活用されています。 データレイクと同じような意味合いで使われる「データウェアハウス」という言葉がありますが、それぞれ似て非なるもの。 1. データレイクとは、ビッグデータをそのまま(生データのまま)格納できるストレージリポジトリのことです。 特に、音声や動画、SNSのログなどを含むあらゆる形式のデータ(非構造化データ)を、そのままの形式で貯めておけるのが利点です。 データレイクが蓄積できるデータの種類(非構造化データ)について詳しくはこちらの記事を参考にしてください。 データレイクが必要になった理由は、大きく分けて2つあります。 一つ目は、「データレイクには何でも入れられるけど、データウェアハウスには決まったものしか入れられないんだよ。 」と言った通り、テーブル構造に縛られたリレーショナルデータベースでは、非構造化データに対応できないからです。 |suy| fkl| jer| rkm| aho| rqy| rjx| zhx| tof| sye| lkf| eqj| fsy| jlj| vsp| vzg| wyj| zff| trk| fnu| iyy| fbd| bap| sai| htq| ulm| hry| hpf| fqi| xgk| xdp| pga| eyl| gqf| njh| lxz| dwd| qxh| spa| wpy| pcc| mpq| emq| syr| ynh| ezq| nrd| wpw| vlq| dty|