pandas: 相関行列の作成と解釈サポートのための可視化
pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 この記事は「pandasを使った相関行列の作成方法」をまとめます。 相関行列 via GI...
pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 この記事は「pandasを使った相関行列の作成方法」をまとめます。 相関行列 via GI...
クラスタリングは、類似性が高いデータをグループ化する教師なし学習の一種です。 クラスタリングには様々なアルゴリズムがありますが、使用アルゴリズムごとでデータセットから得られる結果も異なります。 さらに、クラスタリングには...
一般化線形モデル(Generalized Linear Model: GLM)のコンセプトの学習は、確率分布を統計モデルにどのように組み込むか考え始める機会に繋がります。 では、一般線形回帰モデル(General Lin...
ブートストラップ法は、データセットから無作為に何度もリサンプリングして母集団の特徴の推定を試みる統計手法です。 複雑な計算を簡単なシミュレーションに置き換えたブートストラップ法は、今日ではコンピュータ技術の発展に伴い、よ...
大学の講義で強烈に印象に残ったタイトルのひとつです。 p値ハッキング: p-hackingは、実際は統計的に差がないデータに差があると示してしまう誤ったデータ分析の行為です。 意識的、無意識的な行為に関わらず、知らないう...
線形代数で扱う射影は、高次元のデータセットに対する様々な数学演算の理解に役立ちます。 機械学習、数値計算において、射影の代表的な利用例には線形回帰、特異値分解などがあげられ、その利用は幅広いです。 射影がどのように利用さ...
クラスタリングは、データの特徴量から似ているユーザー・製品・サンプルなどをグループ化する方法です。 様々な手法が存在するクラスタリング手法の中でも、k-meansクラスタリングは扱いが簡単な代表モデルのひとつです。 この...
ニュース記事で目にすることが多くなったインタラクティブなグラフ。自分でも簡単に作れたら…一度くらい考えたことはないでしょうか? インタラクティブなグラフを作成を可能とするオープンソース・ライブラリー: plo...
探索的データ分析(EDA)において、データ構造、パターン、異常値を発見するために、より高速、インタラクティブにデータを可視化したいことがあります。 これまで、データ可視化にmatplotlibとseabornを利用してい...
類似度は、ふたつのオブジェクトがどれくらい似ているかを示します。オブジェクト同士の類似度を計測する方法は、多くのデータマイニング、機械学習の手法で利用されます。 では、どのようにしてオブジェクト同士の類似度を計測するので...