大学のデータサイエンスコースではどんなことを学ぶの?
講座で学んだ知識・スキルが後々どんなことに役立つの?
- 海外大学のデータサイエンスコースではどんな内容を学ぶか
- 単位取得のためにどんなアサイメントがあるか
- 学びがどんなことに繋がるか
目次
データサイエンスコースの講座
各大学のデータサイエンスコースは、カリキュラムが異なりますが、各々の能力や目標に合わせて、データサイエンスに必要な知識・スキルを伸ばすことを目的とした講座(コース)を提供しています。
DATA7002:Responsible Data Science
概要
この講座では、データソースに関する倫理的・技術的なフレームワークについて考える機会を提供し、データを扱う卒業生が、将来、直面するであろう倫理的・法的・技術的な問題に対応する力を養います。
学習内容
この講座で学習する代表的なトピックの抜粋です。
- Data Science Ethics:データサイエンスの倫理
- Legal Issues:法的問題
- Intellectual Property Rights:知的財産権
- Privacy:プライバシー
- Data Breach:データ流出
- Cybersecurity:サイバーセキュリティ
- Statistical Significance:統計的優位性
- Socially Responsible Machine Learning:機械学習の社会的責任
- 3つの小テスト
- 700字程度のレポート3つ
- 4000字程度のエッセイ
- チームプロジェクトでの発表
を通じて、講座の理解度を評価します。
この年のエッセイは、”Chicago 17th“のスタイルで書くことが要求されました。
論文を書いた経験がないと、ネイティブでも高いスコアは得られていませんでした。はやいうちから資料を集め、エッセイの構成を練っておく必要があります。
どんなことに役立つか?
データ・AIの利用が注目されているとは言え、倫理的・法的・技術的な問題が現実に起きています。
今後、技術の進化に伴い、倫理や法がどのように変化していくか、あるいは、技術の暴走を回避するために、倫理と法はどうあるべきか。
それを正しく予測することは誰にもできませんが、本講座で学ぶ内容は、データを扱う者として、これらの衝突を可能な限り回避し、データサイエンスが関わるプロジェクトをマネジメントすることに役立ちます。
倫理に関する英単語は難しかったですが、各国の倫理・価値観や政策の違いも学ぶことができ、とても有益な講座でした。
INFS4203/7203:Data Mining
概要
この講座では、データマイニングで使用される代表的なアルゴリズムを学びます。
前年までは実技はRでしたが、Pythonの汎用性の高さ、ライブラリーの充実から、Pythonに切り替わりました。
学習内容
この講座で学習する代表的なトピックの抜粋です。
- Association Analysis:アソシエーション分析
- Clustering:クラスタリング
- Anomaly Detection:異常検知
- Classification:分類
- Text Mining:テキストマイニング
- Web Mining:ウェブマイニング
この講座は、
- 実技と知識を問う5つの課題
- 中間テスト
- 期末テスト
で評価されます。
通常はコードを書いたらコンピュータが計算しますが、関数電卓を使って計算させる問題もありました。
一部の学生から「計算はコンピュータがするため、学生が時間をかけて計算する必要はない」というようなクレームが入っていましたが、個人的にはアルゴリズムを正しく理解するためのプロセスとしてよかったのではないかと思います。
ただ、計算量が多かったので、正直に言うと、2度とやりたくないです。改めてコンピュータの便利さに気づかされました。
どんなことに役立つか?
学習した内容は、データに対して適切な解析アプローチを選択し、最適なパラメータを検討することに役立ちます。
MATH7502:Mathmatics for Data Science 2
概要
この講座は、大きなデータセットに対して、統計手法、データモデリング、データ分析を実施するために必要な数学を学びます。
この講座ではプログラミング言語に”Julia“を使用します。Juliaについてはこちらの記事でも紹介しています。
学習内容
この講座で学習する代表的なトピックの抜粋です。
- Gaussian Elimination:ガウスの消去法
- LU Factorization:LU分解
- Taylor Series Expansion with Jacobians:テイラー展開
- Linearly Independence:線型独立
- Vector Space:ベクトル空間
- The Gram-Schmidt Process:グラム・シュミットの正規直交化法
- QR Facrtorization:QR分解
- Projection:射影
- Moore-Penrose Inverse:ムーア・ペンローズ逆行列
- Eigenvalue:固有値
- Diagonalisation:対角化
- Quadratic Forms:二次形式
- Hessian Matrix:ヘッセ行列
- Clustering:クラスタリング
- Perceptron:パーセプトロン
- Least Square:最小二乗法
- Regularisation:正則化
- Multi-variate Gaussian Distribution:多変量ガウス分布
- Cholesky Factorization:コレスキー分解
- Gradient Discent:最急降下法
- Singular Value Decomposition:特異値分解
- Principle Component Analysis:主成分分析
この講座は、
- 3つのテスト
- 2つの課題
- プロジェクトワーク
の結果で評価されます。
テストは数学の理解力を確認するための問題を解きます。
課題はデータサイエンスに必要な数学の理解力と数理モデルを実装したコードを提出します。
プロジェクトワークは、学習した分析方法のなかから3つを選択し、それぞれの分析方法の理論をまとめたレポートを3通、自分で準備したデータセットに分析方法を実装したコードを3つ提出します。
どんなことに役立つか?
このコースで身につけた知識は、データサイエンスに使用される多くの分析方法の理解に繋がります。解析のために適切な分析方法を検討する力に繋がります。
STAT7203:Applied Probability & Statistics
概要
データサイエンスのための基本的な確率・統計の知識を学びます。このコースの実技はR、Matlabを使用します。
学習内容
この講座で学習する代表的なトピックの抜粋です。
- Basic Probability Theory:基礎確率理論
- Distributions:分布
- Sampling:サンプリング
- Explanatory Data Analysis (EDA):探索的データ解析
- Estimation:推定
- Hypothesis Test:仮説検定
- Regression:回帰
この講座は、
- 実技を問う課題が2つ
- 中間テスト
- 期末テスト
の結果から評価されます。
どんなことに役立つか?
統計・確率の知識もデータサイエンスに欠かせません。ここで身につける知識は、確率モデルや統計的データ分析に取り組む際に役立ちます。探索的データ解析、推定、仮説検定、線形回帰などの正しい理解は、データから適切な解を導くために大切です。
まとめ
いかがでしょう。データサイエンスでどんなことを学ばなければいけないかイメージできたでしょうか。
今回の記事をまとめます。
- Responsible Data Science:データサイエンスに関わる倫理・法・技術的課題について学習
- Data Mining:データマイニングに関する各分析方法の特徴・理論・コードを学習
- Mathematics for Data Science 2:データサイエンスに必要な数学的知識とJuliaを学習
- Applied Probability & Statistics:データサイエンスに必要な確率・統計を学習
大学を卒業してから数学にまったく触れていないので、勉強についているか不安なのですが・・・
私も数学と統計に苦手意識を持っていました。でも、データサイエンスを学びたいと思ってからは、「数学が実社会のこんなところで利用されているのか」と発見の連続で、この学問の面白さに気づくことができました。
まずは挑戦してみてください。きっと社会人になってから学ぶ楽しさを感じられると思います。
この記事では、クイーンズランド大学(UQ)のデータサイエンス・マスターコースが提供する講座から学べる知識・スキルを紹介します。
今回は管理人が1年目のSemester2で受講した4つの講義をまとめます。
*「年度」「コースコーディネーター」の変更に伴い、講座の内容も変わることがあります