マーケティング、経営、人工知能(AI)、医療、生産、物流、工学など、様々な分野でデータサイエンスの活用が期待されています。
しかし、これだけデータサイエンスの活用の範囲が広いと、データサイエンティストがまるでスーパーマンのように聞こえますが、データサイエンティストを雇用すれば、抱えている課題は本当に解決するのでしょうか?
また、分野が変わっても、データサイエンティストの役割は変わらないのでしょうか?
- データサイエンティストの役割は何か
- ディシジョンサイエンティストとは何か
- モデリングサイエンティストとは何か
目次
データサイエンティストの役割
まずデータサイエンティストの役割について触れます。
データサイエンティストの一般的な役割は、
- ビッグデータを使って最適化・予測・統計解析を行う
- インサイトを発見する
- もし〜すれば、何が起こるか?
- 今後の戦略において何が最適なシナリオか?
- 次に何が起こると考えられるか?なぜそれが起きると考えられるか?
- どのトレンドが今後も継続するか?
- 意思決定をサポートする
です。
大事なポイントとしては、
- ビッグデータを使った解析
- 未来を予測するための解析
- 価値ある決断への提案
の3点です。
データサイエンティストはスーパーマン?
この記事の問いに戻ります。
- データサイエンティストを雇用すれば、抱えている課題は解決するのでしょうか?
- 分野が変わっても、データサイエンティストの役割は変わらないのでしょうか?
答えはNoです。
データサイエンティストのドメイン知識がプロジェクトにマッチしなければ、要求に応えることは難しいです。
プロジェクトの目的が変われば、データサイエンティストの役割も変わります。
詳しい方にとっては、すでに耳にタコでしょうが、ドメイン知識とプロジェクトのマッチングがいかに大事か例をあげて説明します。
ある自動車会社は、自社の販売戦略のために、新しくデータサイエンティストを1名採用したいと考えています。
AさんとBさん、2名のデータサイエンティストが応募してきました。
面接の結果、AさんもBさんもデータサイエンティストに必要な数学・統計、コンピュータの知識・スキルは同じレベルでしたが、ドメイン知識が異なることが分かりました。
Aさんは自動車のマーケティングに、Bさんは画像からのセンシング技術にそれぞれ精通しています。
この場合、あなたならどちらを採用しますか?
販売戦略がプロジェクトの目的なので、私なら自動車のマーケティングに詳しいAさんですね!
冷静に考えるとその通りです。逆に、採用募集が自動運転技術開発のプロジェクトなら、Bさんが採用されるでしょう。
現在、データサイエンティストの人材不足という背景があり、ドメイン知識を気にせず、とにかくデータサイエンティストを採用しようという風潮があります。
しかし、データサイエンティストを採用しても、プロジェクトの目的とドメイン知識がマッチングしていないため、データサイエンス本来のコンセプトが活かされていないケースが起きています。
データサイエンティストの分類
ミスマッチの原因のひとつは、データサイエンティストの定義が広すぎることです。
では、プロジェクトの目的に応じて、データサイエンティストを分類できるのでしょうか。
すでにデータサイエンティストを抱えている企業や機関では、次の課題として「データプラットホームの整備」と「データサイエンティストの適切な採用と配置」を議論しています。
データサイエンティストは21世紀で最もセクシーな仕事である
Harvard Business Review, “Data Scientist: The Sexiest Job of the 21st Century”, October 2012
有名な言葉ですね。この言葉をバズらせたHarverd Business Reviewからは、18年にデータサイエンティストの分類に関する記事が出ています。
この記事によると、データサイエンティストは「ディシジョンサイエンティスト」と「モデリングサイエンティスト」の2タイプに分類されます。
具体的にこのふたつはどう違うのでしょうか?
ディシジョンサイエンティスト
ヒトの意思決定をサポートするデータサイエンティストは「ディシジョンサイエンティスト」に分類されます。
- 誰が結果を利用するか:ヒト
- 何を成果物として求められるか:ダッシュボード、プレゼン、メモ、意思決定をサポートする予測モデル、分析に基づき投資先や優先事項を決定する機会、推奨を含めた検証結果のレポート
- 何を成功とするか:組織の意思決定の改善
- 必要なスキル:統計、検証、分析思考、技術者と非技術者の両方と協働できるコミュニケーションとコラボレーションスキル、スクリプト言語とクエリ言語の知識(e.g. Python、R、SQL)、理想的にはコンピュータサイエンスのバックグラウンド
- 仕事上のメインパートナー:意思決定者(エグゼクティブ、ビジネスリーダー、プロダクトマネージャー)、データエンジニア、データ生成アプリケーションに関するソフトウェアエンジニアの責任者
モデリングサイエンティスト
コードを開発することで製品やビジネスを改善するデータサイエンティストは「モデリングサイエンティスト」に分類されます。
- 誰が結果を利用するか:マシン
- 何を成果物として求められるか:モデル、トレーニングデータ、アルゴリズム
- 何を成功とするか:開発コードによる製品やビジネスの直接的な改善
- 必要なスキル:コンピュータサイエンス、機械学習、プロダクションコードを書くスキル、技術者と非技術者の両方と協働できるコミュニケーションスキル
- 仕事上のメインパートナー:バックエンドエンジニア、プロダクトマネージャー(最適化を決定する責任者)、技術共有する他のモデリングサイエンティスト、どの特徴量を考慮すべきか、どのデータセットを使うべきか相談できるディシジョンサイエンティスト
コンサル型:ディシジョンサイエンティスト、エンジニア型:モデリングサイエンティストということです。タイプによってデータサイエンティストの役割と成果物が変わります。
今後のデータサイエンスの動向
現状、世界的にデータサイエンティストは不足しています。
しかし、大学のデータサイエンスコースが増加し、企業での人材育成も進んでいるため、この問題はいづれ解決されるでしょう。
この記事で一番伝えたいことは、データサイエンスを勉強しながらでもいいので、
- 何のドメイン知識を自身の強みとするか
- それはディシジョンサイエンティストか、モデリングサイエンティストか
- データサイエンスを学んで何がしたいか
をしっかり考えておくことです。
データサイエンティストになった後のキャリアプランが考えられていれば、後々、困らないと思います。
IT教育は小学校からスタートしていますので、プログラミング、統計・数学を学び、機械学習を扱えるだけでは、データサイエンティストとして生きていくことに苦労するでしょう。
これからデータサイエンティストを目指す方には、Qiitaの@ssl_ds_spsさんの記事も参考になると思います。「これからデータサイエンティストを目指す人は要注意」(2020/8/5更新)
まとめ
ディシジョンサイエンティストとモデリングサイエンティストの違いはイメージできたでしょうか。
この記事の内容をまとめます。
- データサイエンティストの定義が広く、ジョブマッチングに課題
- ディシジョンサイエンティストとモデリングサイエンティストの2タイプに分類
- 両者の役割、目的は異なる
- ディシジョンサイエンティストはヒトの意思決定の改善を目的とする
- モデリングサイエンティストは開発コードによって製品・ビジネスの改善を目的とする
用語が増えただけに感じるかもしれませんが、データサイエンティストとしてリクルートされているにも関わらず、企業によっては業務内容が思わぬものだったりすることもあるので、この分類にスッキリしました。
新規参入者にとっては、どちらのデータサイエンティストを目指すかの指標にもなるのではないかと思います。
最後まで読んでいただきありがとうございました!
参考資料
(1) Harvard Business Review, “Data Scientist: The Sexiest Job of the 21st Century”, October 2012
(2) Harvard Business Review, “The kinds of Data Scientist”, November 06 2018
(3) Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data (1st. ed.). Wiley Publishing
この記事では、そんな疑問を解決してくれた「ディシジョンサイエンティスト」と「モデリングサイエンティスト」について説明します。