クラスタリング:k-meansクラスタリング
クラスタリングは、データの特徴量から似ているユーザー・製品・サンプルなどをグループ化する方法です。 様々な手法が存在するクラスタリング手法の中でも、k-meansクラスタリングは扱いが簡単な代表モデルのひとつです。 この...
クラスタリングは、データの特徴量から似ているユーザー・製品・サンプルなどをグループ化する方法です。 様々な手法が存在するクラスタリング手法の中でも、k-meansクラスタリングは扱いが簡単な代表モデルのひとつです。 この...
ニュース記事で目にすることが多くなったインタラクティブなグラフ。自分でも簡単に作れたら…一度くらい考えたことはないでしょうか? インタラクティブなグラフを作成を可能とするオープンソース・ライブラリー: plo...
探索的データ分析(EDA)において、データ構造、パターン、異常値を発見するために、より高速、インタラクティブにデータを可視化したいことがあります。 これまで、データ可視化にmatplotlibとseabornを利用してい...
類似度は、ふたつのオブジェクトがどれくらい似ているかを示します。オブジェクト同士の類似度を計測する方法は、多くのデータマイニング、機械学習の手法で利用されます。 では、どのようにしてオブジェクト同士の類似度を計測するので...
pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 ある程度操作を覚えてしまうと非常に便利、柔軟、パワフルなツールですが、スキルとして身につく...
データ・オブジェクトはデータベースのエンティティを意味し、アトリビュートを使って記述します。 データ・オブジェクトの記述に使うアトリビュートとはなんでしょう?この記事は「アトリビュートの定義・種類・例」についてまとめます...
データ前処理(Data Preprocessing) には、(1)データクリーニング(Data Cleaning), (2)データインテグレーション(Data Integration), (3)データリダクション(Dat...
グラム・シュミット・アルゴリズム(Gram-Schmidt Algorithm)は、有限の線形独立なベクトルを取ったとき、これらのベクトルが張る部分空間と同じ部分空間を張るための正規直交系を作り出します。 この記事は「グ...
クラスタリング(またはクラスター分析)は、集合に含まれるオブジェクトの類似度に基づき、それぞれのオブジェクトをグループ分けする手法です。 クラスタリングは、例えば、機械学習、パターン認識、画像分析、情報検索、バイオインフ...
日本と異なる文化・価値観を学びたい。そんな気持ちを原動力に海外留学を目指し、ご縁あって選択した学びの地はオーストラリアのブリスベン。 留学中の21年7月には、ブリスベンは32年のオリンピックホストシティに決定しました。今...