ビッグデータの定義。なぜビッグデータが注目されるのか?

ニュースや職場でたびたび耳にするビッグデータ。

ではビッグデータとはどんなデータでしょうか。データの数が多ければ、それをビッグデータと呼べるのでしょうか。

ワカメさん

この記事では「ビッグデータの定義」「ビッグデータが注目されている理由」について解説します。

この記事はこんな人にオススメ
  • データサイエンスを学び始めた方
  • ビッグデータについて調べている方

スポンサーリンク

そもそもデータとは何か

データの定義は、時代や業界によって少し異なります。広辞苑では、

①立論・計算の基礎となる、既知のあるいは認容された事実・数値。資料。与件。

②コンピューターで処理する情報。

広辞苑

と定義されています。

データという言葉は、1640年代に初めて使用されました。データは「客観的で再現性のある事実や数値」を意味します。コンピュータが登場する以前は、言語や数値を資料に残し、情報を伝えられたらよかったのです。

20世紀にコンピュータが登場した後、IT技術分野の標準化を行う国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」では、データを、

 “A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing.”「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」

Wikipedia, 「データ」より

と定めました。

現代のIT産業の視点では、

  • コンピュータによって操作が実行される量、文字、または記号
  • これらを電気信号の形式で保存および送信可能
  • 磁気、光学、または機械の記録媒体に記録可能

これら3つの条件すべてを満たしたものを”データ”と呼びます。

ワカメさん

感覚的に言うと、ビッグデータが扱うデータとは、デジタル化された情報ということですね。

ビッグデータとは何か

ビッグデータの条件も時代と共に少し変化しています。

実は、データの量が大きいだけのデータ群をビッグデータとは言えません。

2000年代前半は、3V(Volume:量、Velocity:速度、Variety:種類)を満たすデータ群をビッグデータと呼びました。

しかし、その後、Veracity:信憑性Value:価値、が加わり、最近では5Vを満たすデータ群をビッグデータと呼びます。

ヒトデちゃん

なるほど、データ量が大きいだけではビッグデータとは呼べないんですね!

スポンサーリンク

ビッグデータの特徴

ビッグデータの条件である5Vについて解説します。

Volume:量

ビッグデータを定義するために、Volumeは重要な指標です。

特定のデータ群が実際にビッグデータとみなされるかどうかは、まずデータ量に依存します。ボリュームはビッグデータを扱う際に考慮すべき重要なポイントのひとつです。

一般的には、ビッグデータはテラバイト、ペタバイト以上のデータ量です。

Velocity:速度

Velocityは、データ生成や蓄積速度に関する指標です。需要を満たすために、データがどれ程速く生成され、送信されるかが、データが持つ実際の可能性を決めるために重要です。

例として、ビジネスプロセス、アプリケーションのログ、ネットワーク、ソーシャルネット、センサー、モバイルデバイスのようなデータソースから流れてくるデータを含んでいることがあげられます。これらのデータは膨大かつ継続的に得られます。

Variety:種類

Varietyは、特定のデータ群が異なるデータソースや性質を持つ構造化データと非構造化データの集まりであるかどうかが求められます。

以前は、スプレッドシートやデータベースに登録された構造化データのみが分析対象であり、考慮すべきデータソースは少なかったです。しかし、今日では、メール、写真、ビデオ、モニタリングデータ、音声、PDFなどの非構造化データも、分析に考慮すべき対象となりました。

これら多様なデータの集まりを解析のために利用することが新規性であり、ビッグデータの指標となります。

Veracity:信憑性

Veracityは、データの信憑性であり、品質/信頼性/整合性/正確性を指します。

ビッグデータの信憑性は、複数の異なるデータの型とデータソースから生じる影響によって変動します。大規模なデータは混乱を招く可能性が高まりますので、データの信憑性を確認する必要があります。

Value:価値

Valueはデータが意思決定にどれだけ役立つかを指します。大量のデータを得られても、そこから役に立つインサイトを得られないのであれば、そのデータに価値はありません。

適切な分析手法に基づき、ビッグデータから価値を抽出する必要があります。

ワカメさん

バラエティに富んだ質の良いデータが、継続的に大量に蓄積され、そして、解析した結果に価値があるデータ群のことを「ビッグデータ」と呼びます。

ビッグデータの例

SNS:例えばFacebookでは1日におよそ500テラバイトのデータが蓄積されていると言われています。主にこれらのデータは、写真や動画のアップロード、メッセージやコメントのやりとりから生じています。

NY為替市場: 1日におよそ1テラバイトのデータが生成されています。

ワカメさん

テラは1012で1兆倍です。1012円と表現すれば1兆円ですね。

スポンサーリンク

なぜビッグデータが大事なのか

PC、スマホ、センサーなどのデバイスから生成されるデータ総量は増加を続けています。

5G、IoT、人工知能の発展により、データの生成速度はさらに上がると見込まれます。2020年5月、アメリカの市場調査会社「International Data Corporation (IDC)」は、”今後3年で生成されるデータ総量が過去30年で生成されたデータ総量を超える”とも予想しています。(1)(2)

データは“現代の石油“とも比喩されており、これらデータをうまく取り扱うことが、新たなサービスとイノベーションの源泉になると期待されており、世界中の企業や研究機関がビッグデータの活用に力を入れています。(3)

ビッグデータを利用するためにデータサイエンティストの需要もますます高まっています。

ビッグデータの重要性については、こちらの記事でも紹介させて頂いております。

まとめ

この記事ではビッグデータについてまとめました。

ビッグデータとは
  • ビッグデータとは5Vを満たすデータ群
  • 5VとはVolume(量)、Velocity(速度)、Variety(種類), Veracity(信憑性), Value (価値)
  • 今後生成されるデータ量はさらに増加、ビッグデータを活かすビジネスモデルの構築が必要
ヒトデちゃん

ありがとうございました!ビッグデータがどんなデータ群かよく分かりました!

ワカメさん

今回は、データ量が多いだけではそのデータ群をビッグデータと言えない、と覚えていただけたたら十分です。

最後まで読んでいただきありがとうございました!

参考

1) IDC, “IDC’s Global StorageSphere Forecast Shows Continued Strong Growth in the World’s Installed Base of Storage Capacity”, (5/13/2020)

2) Statista, “Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2024”, (12/3/2020)

3) The Economist, “The world’s most valuable resource is no longer oil, but data”, (5/6/2017)

スポンサーリンク

この記事が気にいったらシェアしてね!