データサイエンスコース在籍中にオススメされた&使用した書籍

「データサイエンス 本」でGoogle検索すると、山のようにヒットする参考書たち。大学の蔵書検索データベースも同様で、データサイエンスコースに入学したばかりの頃は「どれから読めばいいの!?」といった感じでした。

タイトル、カバーするトピック、著者、図・表のデザイン、文章の量、etc…。実際に書籍を手に取り、読んでみようと決断するまでの基準はヒトそれぞれ。皆さんは何に重きを置いて本を選択していますか。

ワカメさん

この記事では「データサイエンスコースでオススメ、実際に使用した書籍の一部」を紹介します。

この記事がカバーする内容
  • どんな書籍がデータサイエンスコースでオススメされていたか
  • それぞれの書籍がどんな内容をカバーしているか
スポンサーリンク

分析・解析関係でオススメされた書籍

ヒトデちゃん

統計分析、機械学習などの勉強に関しては、どんな書籍を使っていましたか?

ワカメさん

ぶっちゃけると、一言一句を精読したわけじゃないですが、オススメされた書籍のなかで、特によく使ったもの、面白かったものを紹介します。

書籍1

タイトル: An Introduction to Statistical Learning with Application in R

著者: Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani

概要: データサイエンスで扱う分析・解析手法を幅広くカバーしています。この本が扱うプログラミング言語はRです。第二版は、新たに以下のトピック: Deep learning、Survival analysis、Multiple testing、Naive Bayes and generalized linear models、Bayesian additive regression trees、Matrix completion、が追加されています。(1)

この書籍の日本語翻訳版は、朝倉書店から出版される「Rによる統計的学習入門」です。中国語、イタリア語、韓国語、モンゴル語、ロシア語、ベトナム語にも訳されており、世界中で広く販売されています。

書籍2

タイトル: Data Science and Machine Learning: Mathematical and Statistical Methods

著者: Dirk P. Kroese, Zdravko Botev, Thomas Taimre, Radislav Vaisman

概要: 書籍が扱うトピックは、書籍1と大きな違いはないです。違いは、扱うプログラミング言語がPythonという点です。もし、Pythonを使った機械学習の勉強が目的なら、この書籍をかってみても良いかもしれません。この書籍で紹介されるアルゴリズムのソースコード、問題の一部解答は、GitHubで公開されています。(2)

書籍3

タイトル: Statistics with Julia: Fundamentals for Data Science, Machine Learning and Artificial Intelligence

著者: Yoni Nazarathy, Hayden Klok

概要: この書籍が扱うプログラミング言語はJuliaです。この書籍で紹介されているJuliaのソースコードは、GitHub上に公開されています。(3) 統計とJuliaを一緒に勉強したい方にとっては、オススメの1冊かもしれません。

書籍4

タイトル: Introduction to Applied Linear Algebra: Vectors, Matrices, and Least Squares

著者: Stephen BoydLieven Vandenberghe

概要: 実社会での線形代数の利用例を少し紹介しながら、ガッツリと基本的な理論を解説しています。ソースコードは一切登場しませんが、この書籍を使って学んだ知識は、後々、コードを書く、機械学習を扱う際に役立っています。webからpdfをダウンロードできます。(4)

書籍5

タイトル: Operations Research: Applications and Algorithms

著者: Wayne L. Winston, Jeffrey B. Goldberg

概要: オペレーションズ・リサーチのコースで大変お世話になった書籍です。ページ数は1400以上と、内容モリモリです。その分、現実で起こる問題を解くためのアプローチを数多く紹介している1冊です。扱っている内容は主に理論です。発売日が2003年と少々古いため、自分でpythonなどを使って、アルゴリズムは自分で実装する必要があります。

スポンサーリンク
書籍6

タイトル: Modern Mathematical Statistics with Applications

著者: Jay L. Devore, Kenneth N. Berk

概要: 統計のコースで推薦されていた書籍です。基本的に統計の講義は、講義用資料を使っていたため、この書籍は疑問を深掘りするために利用しました。個人的に使用頻度は少なかったですが、良書としてオススメされていました。

書籍7

タイトル: The Elements of Statistical Learning: Data Mining, Inference, and Prediction

著者: Trevor Hastie, Robert Tibshirani, Jerome Friedman

概要: スタンフォード大学の統計学の教授たちによって書かれた書籍です。”統計学者、研究・産業でデータマイニングに挑戦する全ての方にとって価値がある1冊”とも言われています。(5)本書の内容は、理論の解説、導かれる結果の考察、に重きを置いている印象です。

2014年に共立出版から日本語訳版「統計的学習の基礎」も出版されています。

しかしながら、データサイエンスコース入学前にこの本を読んだことがあるのですが、当時のわたしは途中で挫折しました。ある程度の経験・知識もなしにこの書籍に挑戦するのは少々ハードルが高かった気がしております。

書籍8

タイトル: Social Media Mining: An Introduction

著者: Reza Zafarani, Mohammad Ali Abbasi, Huan Liu

概要: ソーシャルメディア・アナリティクスのコースが推薦していた書籍です。ネットワーク分析のための基本、ソーシャルメディア分析を実施するための理論・アルゴリズムを紹介しています。アルゴリズムは、pseudo-codeで紹介。SNSの分析・解析に興味があれば、オススメの1冊です。

書籍9

タイトル: Data Mining

著者: Charu C. Aggarwal

概要: データマイニングのコースで推薦されていた書籍です。頻繁に利用するデータマイニングの各手法を解説しています。クラスター分析、分類、異常検出、テキストマイニングなど、他の機械学習の書籍でも紹介されるトピックと被る内容もありますが、困ったときの助けになる1冊でした。

書籍10

タイトル: Simulation and the Monte Carlo Method

著者: Reuven Y. Rubinstein, Dirk P. Kroese 

概要: MCMC法(マルコフ連鎖モンテカルロ法)の実装課題の際に、お世話になった書籍です。理論の解説に加え、pseudo-codeでアルゴリズムが紹介されています。

書籍11

タイトル: Deep Learning with PyTorch

著者: Eli Stevens, Luca Antiga, Thomas Viehmann

概要: Pytorchの使い方、ディープ・ラーニングの理論について、分かりやすく解説しています。Pytorchで初めてディープ・ラーニングを扱うならオススメしたい1冊です。図も丁寧にまとめられていて、理解に役立ちました。Pytorch公式とセットにして学ぶと良いです。

2021年に「PyTorch実践入門」というタイトルで日本語版も出版されています。

書籍12

タイトル: Representation Learning for Natural Language Processing

著者: Zhiyuan Liu, Yankai Lin, Maosong Sun

概要: 自然言語処理(NLP)のための表現学習の概要をまとめている1冊です。NLPに関する技術・アプローチがどのように発展してきたかを学ぶのに役立った書籍でした。

データベース関係のコースでオススメされた書籍

書籍13

タイトル: Big Data in Practice: How 45 Successful Companies Used Big Data Analytics to Deliver Extraordinary Results

著者: Bernard Marr

概要:出版は2016年。世界的に有名な45社の企業を例に、当時の各社が何を目的に、どのようにデータ環境を構築・利用していたか、を紹介する1冊です。今は新しいアプリケーションの登場によって、状況が異なりますが、現在と当時を比較・考察してみるには良い1冊でした。文書は読みやすいです。一方、一般的なまとめであるため、この分野を専門とする方々は物足りないと感じるかもしれないです。

書籍14

タイトル: Learn PySpark: Build Python-based Machine Learning and Deep Learning Models

著者: Pramod Singh

概要: Spark上で機械学習を扱う際に最も使用した書籍です。この書籍では、Sparkの概要、Sparkを使った前処理、Sparkで扱う機械学習ライブラリとコード、が紹介されています。

ヒトデちゃん

たくさんありますが、どれを選んだら良いか悩ましいですね。

ワカメさん

個人の意見としては、コードを実際に動かし、式の意味とアウトプットまでの導出過程の確認を進めることが、理解に効果的かつ効率的と思いました。そういう意味では、ソースコードも提供されている書籍1,2,3のどれか1冊から始めてみるのもいいかもしれません。

そのあとは、自分が興味を持っている・自分の仕事で必要なカテゴリーから始めることでしょうか。とにかく学ぶ量が多いため、「本に書いてることやってみた」だけでは、大概、自分ごと化できておらず、残念ながら忘れています。

学び初めはしんどいかもしれません。一方で、獲得した知識が他の分野の知識とネットワーク的に繋がっていくことを体感できると、学びがドンドン楽しくなってくると思います。

まとめ

この記事では、データサイエンスコースでオススメ、実際に使用した書籍の一部を紹介しました。

大学の設備使用料は授業料に含間れているため、基本的に読みたい本・論文が自由に読める環境は素晴らしかったです。

セメスター2期目からはipadも購入し、これまで論文は紙でしたが、デジタルデバイスの便利さも体感できた気がします。

ワカメさん

最近は、有名大学からも素晴らしい教材が積極的に公開されてます。書籍、Youtube、ブログ、GitHub、 etc…、何でも良いから、これは面白そうだと思えるものに巡り会えると良いですね。

この記事は以上です!最後まで読んで頂きありがとうございました!

参考資料

(1) An Introduction to Statistical Learning (2021/12/27 アクセス)

(2) Data Science and Machine Learning: Mathematical and Statistical Methods (2021/12/27 アクセス)

(3) GitHub, h-Klok/StatsWithJuliaBook (2021/12/27 アクセス)

(4) Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares (2021/12/27 アクセス)

(5) Springer Link, The Elements of Statistical Learning (2021/12/28 アクセス)

スポンサーリンク
この記事が気にいったらシェアしてね!
0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
ABOUT US
ワカメ
Data Scientist, Master of Data Science & Master of Engineering in Material Science
このブログは以下2点を目的に運営.
1. 管理人の学び・体験の復習機会
2. 海外留学を目指す方の参考情報
趣味の範囲で淡々と更新します.
*ブログ・SNSは所属組織と無関係の個人発信.