pandas: 相関行列の作成と解釈サポートのための可視化
pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 この記事は「pandasを使った相関行列の作成方法」をまとめます。 相関行列 via GI...
pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 この記事は「pandasを使った相関行列の作成方法」をまとめます。 相関行列 via GI...
統計用語を自分の言葉でもっと説明できるようになりたく、勉強のために本記事をまとめます。 この記事は「確率変数と確率分布」についてまとめます。 確率変数 確率変数 端的に、確率変数(Random variable)とは、ラ...
Apache Sparkは、大規模なデータを扱うためのオープンソースの統合分析エンジンです。 Apache Spark 3.0からはGPUを扱った並列分散処理、3.2ではSpark上でPandas APIの利用が可能とな...
クラスタリングは、類似性が高いデータをグループ化する教師なし学習の一種です。 クラスタリングには様々なアルゴリズムがありますが、使用アルゴリズムごとでデータセットから得られる結果も異なります。 さらに、クラスタリングには...
一般化線形モデル(Generalized Linear Model: GLM)のコンセプトの学習は、確率分布を統計モデルにどのように組み込むか考え始める機会に繋がります。 では、一般線形回帰モデル(General Lin...
「データを利用した〇〇のサービスを始めるなら、□□のAPIを利用して〜」 データを利用したビジネスやアプリケーション開発に関わる人は、こんな会話を耳にするのではないでしょうか。 APIとよく耳にしますが、APIが何なのか...
ブートストラップ法は、データセットから無作為に何度もリサンプリングして母集団の特徴の推定を試みる統計手法です。 複雑な計算を簡単なシミュレーションに置き換えたブートストラップ法は、今日ではコンピュータ技術の発展に伴い、よ...
大学の講義で強烈に印象に残ったタイトルのひとつです。 p値ハッキング: p-hackingは、実際は統計的に差がないデータに差があると示してしまう誤ったデータ分析の行為です。 意識的、無意識的な行為に関わらず、知らないう...
統計はデータの中から注目すべきポイントやパターンの発見を手助けします。 一方、たびたび耳にする「記述統計」と「推測統計」というワード。統計の基礎と言われますが、他人に違いを説明しようとすると、分かっているようで分かってい...
線形代数で扱う射影は、高次元のデータセットに対する様々な数学演算の理解に役立ちます。 機械学習、数値計算において、射影の代表的な利用例には線形回帰、特異値分解などがあげられ、その利用は幅広いです。 射影がどのように利用さ...