線形代数の基礎: 射影と最小二乗法の理解
線形代数で扱う射影は、高次元のデータセットに対する様々な数学演算の理解に役立ちます。 機械学習、数値計算において、射影の代表的な利用例には線形回帰、特異値分解などがあげられ、その利用は幅広いです。 射影がどのように利用さ...
線形代数で扱う射影は、高次元のデータセットに対する様々な数学演算の理解に役立ちます。 機械学習、数値計算において、射影の代表的な利用例には線形回帰、特異値分解などがあげられ、その利用は幅広いです。 射影がどのように利用さ...
クラスタリングは、データの特徴量から似ているユーザー・製品・サンプルなどをグループ化する方法です。 様々な手法が存在するクラスタリング手法の中でも、k-meansクラスタリングは扱いが簡単な代表モデルのひとつです。 この...
ニュース記事で目にすることが多くなったインタラクティブなグラフ。自分でも簡単に作れたら…一度くらい考えたことはないでしょうか? インタラクティブなグラフを作成を可能とするオープンソース・ライブラリー: plo...
探索的データ分析(EDA)において、データ構造、パターン、異常値を発見するために、より高速、インタラクティブにデータを可視化したいことがあります。 これまで、データ可視化にmatplotlibとseabornを利用してい...
類似度は、ふたつのオブジェクトがどれくらい似ているかを示します。オブジェクト同士の類似度を計測する方法は、多くのデータマイニング、機械学習の手法で利用されます。 では、どのようにしてオブジェクト同士の類似度を計測するので...
pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 ある程度操作を覚えてしまうと非常に便利、柔軟、パワフルなツールですが、スキルとして身につく...
データ・オブジェクトはデータベースのエンティティを意味し、アトリビュートを使って記述します。 データ・オブジェクトの記述に使うアトリビュートとはなんでしょう?この記事は「アトリビュートの定義・種類・例」についてまとめます...
データ前処理(Data Preprocessing) には、(1)データクリーニング(Data Cleaning), (2)データインテグレーション(Data Integration), (3)データリダクション(Dat...
グラム・シュミット・アルゴリズム(Gram-Schmidt Algorithm)は、有限の線形独立なベクトルを取ったとき、これらのベクトルが張る部分空間と同じ部分空間を張るための正規直交系を作り出します。 この記事は「グ...
クラスタリング(またはクラスター分析)は、集合に含まれるオブジェクトの類似度に基づき、それぞれのオブジェクトをグループ分けする手法です。 クラスタリングは、例えば、機械学習、パターン認識、画像分析、情報検索、バイオインフ...