データサイエンスを学ぶには?初学者にオススメの学習方法

「データサイエンスの教材や情報がいっぱいありすぎて、何から手をつけていいかわからない…」

ワカメさん

この記事では、「データサイエンスに必要な学習分野」「学習方法」についてまとめます。

この記事がカバーする内容
  • データサイエンスはどんな知識・スキルを必要とするのか
  • データサイエンスを学ぶためにどんな学習方法があるか
スポンサーリンク

データサイエンスに必要な知識

ヒトデちゃん

データサイエンスは何を勉強したらいいのでしょうか?

データサイエンスは「コンピュータサイエンス」「数学・統計」を学ぶ必要があります。

データサイエンスに必要なスキル

コンピュータサイエンス

データサイエンスで使用する代表的なプログラミング言語に、PythonRがあげられます。他には、MATLABJulliaも候補にあげられます。

プログラミング言語は、データのクリーニング、計算の実行、特徴を捉えるためのデータ可視化、を実行するために必要なスキルとなります。

また、データベース構造の基本的な概念を学ぶ必要があります。

MySQLのようなリレーショナルデータベース管理システムから、SQLを使って必要なデータを抽出するスキルも必要です。Hadoopのようなビッグデータを高速で処理するためのツールを扱う必要もあります。

数学・統計

大きく分類すると、数学は線形代数最適化、統計は確率変数確率分布推定検定を習得する必要があります。

数学と聞いて抵抗を感じるかもしれませんが、数学の知識は、データサイエンスにとても大切です。例えば、線形代数は機械学習を理解して扱うために必要です。

正確に計算するというより、理論を理解することに注力したほうがいいです。

ワカメさん

高校・大学時代、私も線形代数が何の役に立つのか、分かっていませんでしたが、データサイエンスに興味を持ったおかげで、30歳を超えてから線形代数の面白さに気づくことができました。

効果的な学習方法

以下の2パターンが学習方法として考えられます。

  1. 学習とデータ解析を並行して行う
  2. 一通り勉強した後にデータ解析を行う

「学習とデータ解析を並行して行う」ことをオススメします。

忘却曲線(1)から示されるように、私たちは勉強した内容の半分以上を1日後には忘れてしまうからです。

参考書やネットから知識をつけるだけでは、スキル習得に繋がりません。スキルを身につけるためには、実際に手を動かす必要もあります。

したがって、勉強したことをデータ解析してみる → 分からないことがあれば調べ直す、プロセスを繰り返すことが、知識・スキルの習得にもっとも効果的です。

参照(1): Wikipedia, “忘却曲線”, (12/20/2020 アクセス)

オススメの学習教材

ヒトデちゃん

何かオススメの学習教材はありますか?

基本的な内容を勉強するためにオススメの教材として下記があげられます。

学習教材・環境
  • オンライン学習
  • ナレッジコミュニティ
  • 大学
  • Kaggle

オンライン学習

オンライン学習はどんどん人気になっています。今後、さらに工夫を凝らした新たなコンテンツが登場すると考えられ、オンライン学習はさらに人気になるでしょう。

今回は、edXをオススメのオンライン学習サイトとして紹介させて頂きます。

edX

マサチューセッツ工科大学(MIT)とハーバード大学によって創立されたMassive open online course(MOOC)のプラットフォームです。世界中の学生に多岐な分野にわたる大学レベルの授業を無料で提供しています。

20年12月時点で、学生数はなんと3300万人にのぼり、3000以上のコースが無償で提供されています。

edXのデータサイエンスに関するコースは、こちらのサイトから提供されています。
“Data science course on edX”

メリット
世界の有名大学が教えるデータサイエンスコースを受講できます。海外の大学の授業の雰囲気を知るには、いい機会になると思います。

また、PythonのコースはIBMからも提供されています(“Python Basics for Data Science“)。こちらも無料で受講できますので、Pythonを初めて学ぶ方にはオススメです。

また、コース修了証明書を有償で発行できます。海外ではLinkedInのプロファイルに、修了証明書を記載でき、資格として認定されます。日本でも、こうしたデジタルコースの修了証明書を資格として取り扱おうとする動きはあるので、今後の動向に注目です。(2)

デメリット
英語で配信されているため、英語が苦手な方は、抵抗を感じるかもしれません。視点を変えれば、アカデミックイングリッシュも学ぶことができ、一石二鳥です。

オンラインで修士号取得が可能なコースも提供されていますが、そういったコースは有償なので、コース概要を受講前にしっかり確認する必要があります。

参照(2): 日経XTEC, “学びの証し「オープンバッジ」、その秘めたる可能性とは”, (3/24/2020)

ナレッジコミュニティ

プログラミングに関する知識共有コミュニティで、様々な種類のプログラミング言語に関する質問が投稿・回答されています。ここでは、Stack Overflowteratailを紹介します。

Stack Overflowとteratail
活躍されているエンジニアの方が、投稿した質問に対して、丁寧に回答してくれます。登録は無料です。2020年時点で、世界最大コミュニティのStack Overflowの会員数がおよそ1400万人、teratailの19年の会員数がおよそ10万人、と発表されています。(3)(4)

メリット
初心者がつまづくような問題は、すでに多く質問されており、検索すれば、ほとんどは解決されます。

ユーザーのアクティビティも高く、レスポンスはとても速いです。対応が丁寧な方も多い印象で、何度かお世話になりました。

また、teratailの回答率は90%近くあり、比較的はやく回答を得られやすいです。

デメリット
注意事項として、投稿の際、抽象的な質問は避け、具体的に質問することを気に掛ける必要があります。相手のことを考えて質問すれば、特に問題は起きないと思います。

教育視点のエンジニアの方が多い印象で、答えが直ぐ欲しいタイプの方には向いてないかもしれません。

そういった方は、例えば、有償のオンラインコースを受けるか、優秀な方を自分で見つけ、気軽に回答を得られる方法を作るほうがいいでしょう。

Stack Overflowは英語圏のユーザーも含まれているため、英語での質問・回答が多いです。

英語が苦手と感じるなら、teratailの使用がいいでしょう。

参照(3): StackExchange, (2020/12/20アクセス)
参照(4): PRETIMES, “月間約150万人のITエンジニアが利用する「teratail」技術コミュ二ティ向け新機能をリリース”, (4/18/2019)

大学

データサイエンティストの育成が課題という背景もあり、最近、日本でもデータサイエンスを学ぶための専門コースが増えています。

提供されるコースカリキュラムは、データサイエンスに必要な知識・スキルを体系的に学べるように設計されています。

メリット
強制的にやらなければならない環境に置かれるため、勉強の自己管理が苦手な方にとっては、集中してスキルを身につけられる環境と言えます。

また、大学には、データサイエンス以外の学部があります。そのため、コミュニティやイベントをうまく利用すれば、他の分野の情報も得ることができます。

大学が提供するサービスも自由に使用できますので、例えば、読みたい文献や参考資料を図書館から簡単に手に入れることもできます。

デメリット
他の学習方法に比べ、費用が高くなる傾向にあります。

また、課題・テストをこなしていくための勉強時間の確保も必要となり、社会人の方であれば、仕事、キャリア、家族、についても考える必要があります。

自分の目的に適した大学を探す必要があります。エンジニア方面のデータサイエンティストを目指しているのであれば、研究に特化した大学へ進学することをオススメします。

一方、アメリカ・イギリス・オーストラリアの大学には、企業へのインターンが含まれているマスターコースもあります。

同じデータサイエンスコースでも、提供される内容が大学によって異なるため、よく調べる必要があります。

Kaggle

Kaggleは、データサイエンスプロジェクトに取り組んでいくために必要なスキルを学べるコースを、無料で提供しています。

データ解析に必要なスキル学びたいなら、Kaggleのコースにトライするのもオススメです。Kaggleのホームページはこちらになります。

Kaggleとは
世界中のデータサイエンティストが、機械学習・データ分析の腕を競っている世界最大のプラットフォームです。Kaggleのユーザーを「Kaggler」と呼び、2017年には、登録者数が100万人を超えたと発表されています。(5)

メリット
無料でコースの受講が可能です。また、モデリング、解析に大事な部分をピックアップしてくれており、よくまとまった教材だと思います。

デメリット
現在のところ、Kaggleも英語のみの提供です。英語に抵抗がある方にとっては、ハードルが高いかもしれません。

また、コースのレベルが初学者向けですので、一定以上のスキルを持っている方にとっては物足りない内容に感じるかもしれません。

参照(5): Wikipedia, “Kaggle”, (12/20/2020アクセス)

まとめ

  • データサイエンスのために必要な分野は「コンピュータサイエンス」と「数学・統計」
  • 学習とデータ解析は並行して行う
  • 学習方法は、オンライン学習、ナレッジコミュニティ、大学、Kaggleがあげられる
ヒトデちゃん

たくさんありますね!ありがとうございました。
私はまず無料のオンライン学習を試してみたいと思います!

ワカメさん

最近は本当にたくさんの学習方法があります。自分にあった方法にが見つかることを願ってます!

最後まで読んでいただき、ありがとうございました!

スポンサーリンク

この記事が気にいったらシェアしてね!