DBSCAN: 外れ値/ノイズを発見するための密度ベースクラスタリング
クラスタリングは、類似性が高いデータをグループ化する教師なし学習の一種です。 クラスタリングには様々なアルゴリズムがありますが、使用アルゴリズムごとでデータセットから得られる結果も異なります。 さらに、クラスタリングには...
クラスタリングは、類似性が高いデータをグループ化する教師なし学習の一種です。 クラスタリングには様々なアルゴリズムがありますが、使用アルゴリズムごとでデータセットから得られる結果も異なります。 さらに、クラスタリングには...
一般化線形モデル(Generalized Linear Model: GLM)のコンセプトの学習は、確率分布を統計モデルにどのように組み込むか考え始める機会に繋がります。 では、一般線形回帰モデル(General Lin...
「データを利用した〇〇のサービスを始めるなら、□□のAPIを利用して〜」 データを利用したビジネスやアプリケーション開発に関わる人は、こんな会話を耳にするのではないでしょうか。 APIとよく耳にしますが、APIが何なのか...
ブートストラップ法は、データセットから無作為に何度もリサンプリングして母集団の特徴の推定を試みる統計手法です。 複雑な計算を簡単なシミュレーションに置き換えたブートストラップ法は、今日ではコンピュータ技術の発展に伴い、よ...
大学の講義で強烈に印象に残ったタイトルのひとつです。 p値ハッキング: p-hackingは、実際は統計的に差がないデータに差があると示してしまう誤ったデータ分析の行為です。 意識的、無意識的な行為に関わらず、知らないう...
統計はデータの中から注目すべきポイントやパターンの発見を手助けします。 一方、たびたび耳にする「記述統計」と「推測統計」というワード。統計の基礎と言われますが、他人に違いを説明しようとすると、分かっているようで分かってい...
線形代数で扱う射影は、高次元のデータセットに対する様々な数学演算の理解に役立ちます。 機械学習、数値計算において、射影の代表的な利用例には線形回帰、特異値分解などがあげられ、その利用は幅広いです。 射影がどのように利用さ...
クラスタリングは、データの特徴量から似ているユーザー・製品・サンプルなどをグループ化する方法です。 様々な手法が存在するクラスタリング手法の中でも、k-meansクラスタリングは扱いが簡単な代表モデルのひとつです。 この...
ニュース記事で目にすることが多くなったインタラクティブなグラフ。自分でも簡単に作れたら…一度くらい考えたことはないでしょうか? インタラクティブなグラフを作成を可能とするオープンソース・ライブラリー: plo...
探索的データ分析(EDA)において、データ構造、パターン、異常値を発見するために、より高速、インタラクティブにデータを可視化したいことがあります。 これまで、データ可視化にmatplotlibとseabornを利用してい...