身の回りに限って言えば、若い世代を中心に、データサイエンスへ興味を持ち、自学自習に励む方が増えてきている気がします。
一方、勉強を進めていけば、大学のデータサイエンスコースはどんなことを学ぶか、気になることもあるのではないでしょうか。
- 海外のデータサイエンスコースではどんな内容を学ぶか
- 単位取得のために何を満たす必要があるか
- その講座の学びがどんなことに繋がるか
目次
データサイエンスコースの講座
UQのデータサイエンスコースってどんなコースでしたっけ?
コース名がデータサイエンスコースであっても、大学ごとでカリキュラムは異なります。
UQのコースは、高度な分析技術・スキルと特定産業における必要不可欠な知識を学ぶことができるオーストラリアで最も包括的なデータサイエンスマスターコースを提供しています。(1)
このコースでは、各々の能力や目標に合わせて、データサイエンスに必要な知識・スキルを伸ばすことができます。
提供されているコースは、UQのコースリストから確認できます。
受講している身としては、このコースの満足度は高いです。
また、この業界の変動が大きいだけあって、新しいコース(講座)が次々と追加されています。
2021のSemester2からは”Digital Health Software Project”というコースが提供されるようで、ちょっと興味があったり…。
以下、Semester1のデータサイエンスコースで学んだ内容をまとめます。
DATA7201: Data Analytics at Scale
概要
この講座の目的は、ビッグデータを扱うためのインフラ設計、分析手法、サポートシステムに関する知識・スキルの習得機会を通して、以下の人材を育成することです。
- 現状のビッグデータを使ったチャレンジと課題を理解している
- ビッグデータのデータアーキテクチャー、システム、アルゴリズムの違いを理解している
- 専門外のステークホルダーにデータサイエンスのパフォーマンスを最大化するための提案ができる
- ビッグデータに対して適切な分析を判断・実施できる
- ユースケースに対して、最適なビッグデータ用のインフラ設計ができる
学習内容
この講座で学ぶ代表トピックです。
- Basic
- Scale-up & Scale-out
- CAP Theorem
- GFS, BigTable, Map/Reduce
- HDFS, Hbase
- Spark
- Hive, Pig, Zookeeper, YARN, TEZ
- OLAP & OLTP
- Stream
- Storm, Kafka, Spark Streaming, Flume
- Graph
- Pregel, Giraph, Spark GraphX
- Applications
- Recommender System
- Opinion Mining
- Health Data Analytics
成績は以下2点から評価されます。
- プロジェクトレポート: 50%
- 期末試験: 50%
プロジェクトを実施するための環境は、大学側が事前に準備しています。
学生は、準備された環境を自由に利用し、自分で立てたプロジェクト目標の達成に向けて、データパイプラインの設計、分析の実施、結果報告に取り組みます。
どんなことに役立つか?
プロジェクト目標に対して、どのようなデータパイプラインの設計が必要か具体的に考え、提案、推進する力は、データサイエンティストとして活躍するために必須です。(この講座、必修ですし)
ビッグデータを扱うことがデータサイエンスの役目の一つだとすれば、データ環境を整えない限り、データサイエンスの力は活かせません。
しかしながら、現状、データ環境が整っていない企業は山のようにあります。
どうすればデータサイエンスを活かすための理想的な環境を導入できるかを検討するために、この講座での体験・学びは役立つと思います。
化学系出身の私にとっては知らない単語ばかりですぞ!
ポケモンみたいにシステムにも属性やタイプみたいなのがあって、目的のためにどんなパーティーを組むか?みたいに考えると楽しく学べると思えます!ドラクエでもいいですよ : )
DATA7202: Statistical Methods for Data Science
概要
この講座の目的は、講座、実技、課題を通して、以下の人材を育成することです。
- 目標に対して適切な分析方法を選択できる
- それぞれの分析方法のメリットとデメリットを理解できる
- シミュレーションを実施できる
- データ分析に必要なツールを扱うことができる
- データの分析結果を適切に解釈し、次のアクションを決断できる
- 統計的な分析結果を簡潔・的確に説明できる
学習内容
この講座で学ぶ代表トピックです。
- Statistical Inference: 推測統計学
- Stochastic modeling: 確率的モデリング
- Statistical / Machine learning model: 統計/機械学習モデル
- Dynamic simulation: 動的シミュレーション
分析方法を書き出すと多くなるので、復習を兼ねて、別の記事で理論と一緒にまとめあげていきます。
この講座に期末試験はなく、成績は計4回のアサイメントで評価されます。
アサイメントは、「利用した分析手法の理論と結論をまとめたレポート」と「ソースコード」を提出します。
どんなことに役立つか?
テキストに載っているような内容は一通りカバーしており、見習いデータサイエンティストを卒業と言えるレベルの知識・スキルは身につきます。その結果、自分で一通りの基本的なデータ分析を実施できるようになります。一方、このコースは深層学習をカバーしていません。
もし深層学習に興味があれば、深層学習だけに特化した講座は提供されています。そちらの講座を受講することで深層学習を学べます。
DATA7901: Data Science Capstone Project 1
概要
この講座の目的は、科学、行政、産業が抱える課題の解決を目標とした協働プロジェクトを通じて、以下の人材を育成することです。
- 効果的な言葉・文章を使うことで、明確にデータサイエンスの問題を定式化できる
- 様々なデータソースからの情報を統合し、プロジェクトの計画を立てることができる
- 有効な視覚効果と発表スキルにより聴衆を惹きつけ、首尾一貫した説得力ある議論ができる
- 倫理および法的側面を考慮して、技術的に実現可能なデータサイエンス解決策を設計できる
- 実際の問題に対して、適切なデータサイエンスの手法を特定できる
- 専門家とステークホルダーの双方に適したプロジェクトの詳細を提案できる
学習内容
この講座は、1年かけて取り組むプロジェクトです。成績を評価する指導教官が2名がつきます。
1名は、ステークホルダーの立場として、UQビジネスコースの講師です。この講師からは「ビジネスレポートの書き方」と「効果的なプレゼンスキル」を学びます。
もう1名は、専門家の立場として、プロジェクトの責任者がつきます。責任者は大学の教員、ラボの研究者、企業の研究者です。プロジェクトを進めるために、頻繁にコミュニケーションを取ることになります。
プロジェクトは、Semester開始前〜開始直後の期間に以下4つの枠組みから希望するプロジェクトを選びます。
- Theme Project:この講座で事前に準備されたテーマを選択して取り組むプロジェクトです。
- Industry Project:企業と連携して取り組むプロジェクトです。募集・選考はSemesterが始まる3ヶ月ほど前から始まり、履歴書、面接をパスする必要があります。奨学金を支給する企業もあります。
- Frontier Project:先端研究のプロジェクトです。大学のラボで研究します。募集・選考はSemesterが始まる1ヶ月前あたりから始まり、履歴書、面接をパスする必要があります。
- Innovation Project:自身の経験に基づき、自分で自由にプロジェクトテーマを立案します。
成績は以下の3点で評価されます。
- 2回のアサイメント: 10%
- プロポーザルレポート: 60%
- プレゼンテーション: 30%
アサイメントは800〜1000字程度のライティングです。レポートを書く前に、講座で学んだビジネスライティングスキルが身についているか確認されます。
わたしはFrontier Projectを担当しています。やってることはラボの活動と変わりません。基本的には、(1)関連論文の読み込み、(2)現状課題の特定、(3)解決策の提案、(4)計画の立案、です。
どんなことに役立つか?
データサイエンスコースの集大成を担う講座であるため、データサイエンティストに必要な知識・スキルを総動員する貴重な経験になります。
プロジェクト内容が異なるため、得られる内容は人それぞれですが、この講座で個人的に満足したポイントを3点だけ例にあげます。
1点目は「英語ビジネスレポートのライティングスキル」です。これまで書いてきたアカデミックライティングとは異なるライティングスタイルの学習は、良いスキル習得機会でした。
2点目は「専門家と非専門家への同時対応」です。例えば、学会やラボでの発表の聴衆は、基本的には似た知識・興味を持つ方のため、専門用語が使えます。
しかし、データサイエンスプロジェクトの場合、意思決定者に非専門分野の方が加わります。そうした状況においては、難しい専門用語や説明は避ける必要があります。
プロジェクト達成のために、大事な目的と結果を簡潔明瞭に双方に共有するスキルは、どの分野の仕事でも役立つスキルです。それを英語で学べたことは、自身の経験値として大きかったです。
3点目は「海外でのプチ就活体験」です。CV、LinkedIn、面接を準備し、指導頂いた経験は、新鮮で楽しかったです。また、最近の海外の就活事情・ラボ配属の流れがよく分かって良い経験になりました。
データ分析やデータベースの知識・スキル以外に身につけなければいけないスキルは多いです。
ライティングスキルを学んだと言っても、わたしの文章が理想に届いていないことは分かっているので、ブログを書きながら精進します。「知っている」と「できる」は別物ですね!
INFS7450: Social Media Analytics
概要
この講座の目的は、講義、実技、課題、試験を通じて、以下の人材を育成することです。
- ソーシャルメディアアナリティクスにおける基本コンセプトと知識を理解している
- ネットワークの特徴を決定、計測するためのモデルを扱うことができる
- アルゴリズムとモデルの原理を理解し、実装できる
- ソーシャルメディアのデータから得られたパターンを説明、分析、議論できる
- ソーシャルメディアの分析アルゴリズムの性能を評価できる
学習内容
この講座で学ぶ代表トピックです。
- Graph Basics
- Node Measures
- Geometric Measures
- Spectral Measures
- Path-based Measures
- Network Models
- Influence and Homophiliy
- Network Effects and Cascading Behaviours
- Community Detection and Evaluation
- Link Prediction
- Neighbourhood-based Methods
- Random Walk-based Methods
- Community-based Methods
- Network Embedding
成績は以下の3点で評価されます。
- 2回のアサイメント: 30%
- 4回のオンラインクイズ: 20%
- 期末試験: 50%
どんなことに役立つか?
ソーシャルメディアアナリティクスと聞いて、まず思い浮かぶのはWebマーケティングでしょう。
今や企業もSNSを使ったマーケティングは重要と認識しているため、重宝されるスキルであることは間違い無いです。
一方、ソーシャルメディアアナリティクスはネットワーク分析をSNSに応用したものです。土台となるネットワーク分析技術は、インターネット、流通、生命科学、etc…の分野でも利用されています。
また、分析モデルの一つであるグラフニューラルネットワーク(GNN)は、近年、化合物分類への応用も始まっており、注目を集めています。
グラフ理論を理解することは、他の分野での解析スキル向上、活躍の機会を広げることに繋がると期待できます。
まとめ
- Data Analytics at Scale: ビッグデータ分析を実施するためのデータパイプライン設計やツールを扱うための知識・スキルの習得を目指す
- Statistical Methods for Data Science: データ分析を1人で実施するための理論の理解とスキル習得を目指す
- Capstone Projects1: データサイエンスプロジェクトを成功に導くためのスキル習得を目指す
- Social Media Analytics: ソーシャルメディアアナリティクスを実施するための理論・スキル習得を目指す
この記事は以上です。
このブログは振り返りのようなものですが、いつか後から続く人の参考になれば嬉しいです!最後まで読んで頂きありがとうございました。
この記事では、クイーンズランド大学(UQ)の「データサイエンス・マスターコースが提供する講座から学べる知識・スキル」を紹介します。
今回は管理人が2年目のSemester1で受講した4つの講義をまとめます。
*「年度」「コースコーディネーター」の変更に伴い、講座の内容も変わることがあります