アトリビュートとは何か? 定義・種類・例のまとめ

データ・オブジェクトはデータベースのエンティティを意味し、アトリビュートを使って記述します。

ワカメさん

データ・オブジェクトの記述に使うアトリビュートとはなんでしょう?この記事は「アトリビュートの定義・種類・例」についてまとめます。

この記事がカバーする内容
  • アトリビュートとは何か?
  • アトリビュートにはどんな種類があるか?
スポンサーリンク

アトリビュートの定義

ヒトデちゃん

「アトリビュート」とは何でしょう?

アトリビュートは、データ・オブジェクトのキャラクターや特徴を表すデータフィールドです。

例えば、病院の各患者が持つ「patient_id」「patinet_name」「address」がアトリビュートです。

コンピュータサイエンスの分野において、データ・オブジェクトとは、ひとつの値、あるいは、複数の値から成るストレージ領域です。データ・オブジェクトは、「サンプル」「インスタンス」「データポイント」とも呼ばれます。

要は、カラム一つ一つがアトリビュートであり、複数のアトリビュートはローのオブジェクトを表します。

そして、複数のデータ・オブジェクトが集まって構成されたものをデータセットと呼んでいます。

Figure1 データオブジェクト

アトリビュートの同義語には、「次元」「特徴量」「変数」があります。

オブジェクトを記述するアトリビュートは、複数の種類に分けることができます。

ワカメさん

「アトリビュート: attribute」はデータベースやデータマイニングでよく使用される用語ですが、機械学習の文献は専門用語として「特徴量: feature」、統計学は「変数: variable」を使用する傾向にあります。(1)

アトリビュートの種類

データ分析でよく使用するアトリビュートをFigure2にまとめます。

Figure2 アトリビュートの種類

以下、それぞれのアトリビュートの特徴を整理します。

Nominal Attribute: 名義属性

Nominal Attribute: 名義属性の特徴として以下が挙げられます。

Nominal Attribute: 名義属性の特徴
  1. カテゴリカルデータとして利用
  2. 血液、名前、婚姻関係、など、カテゴリーを表現する値
  3. 値の大きさに意味がなく、定量性なし

名義属性は定量性がないため、このアトリビュートで平均値や中央値を探すことは意味がありません。しかし、最頻値を探すことはできます。

Binary Attribute: バイナリ属性

Binary Attribute: バイナリ属性は、0か1の2種類しか値を持たないアトリビュートです。

Binary Attribute: バイナリ属性の特徴
  1. カテゴリカルデータとして利用
  2. 男性/女性、Yes/No、Positive/Negative、など、バイノミナルを表現する値
  3. 値の大きさに意味がなく、定量性なし

名義属性と同様にバイナリ属性も定量性がなく、このアトリビュートで平均値や中央値を探すことは意味がありません。しかし、最頻値を探すことはできます。

Ordinal Attribute: 順序属性

Ordinal Attribute: 順序属性の特徴を以下にまとめます。

Ordinal Attribute: 順序属性の特徴
  1. 順序、ランキングを示すための値
  2. 値の大きさに意味を持つ値
  3. 値の間隔に意味を持たない値

例えば、サービスの満足度を尋ねるアンケートで

1:不満

2:まぁまぁ

3:満足

という項目を目にしたことがあると思います。

この場合、値の間隔に意味はありませんが、値の大きさは順序・ランキングの意味を持ちます。

順序属性は、最頻値、中央値を扱えますが、平均値は扱えません。

スポンサーリンク

Numeric Attribute: 数値属性

Numeric Attribute: 数値属性は、定量的な値です。整数、または、実数で表されます。また、数値属性は「間隔尺度:Interval-Scale」「比例尺度:Ratio-Scale」のふたつに分類できます。

ワカメさん

間隔尺度と比例尺度の簡単な見分け方として、(1)絶対的な基準として0が存在するか否か、(2)0以下の数値を持つか持たないか、が挙げられます。

以下、間隔尺度と比例尺度についてまとめます。

Interval-Scale:間隔尺度

Interval-Scale: 間隔尺度は、等間隔の尺度上で計測されます。間隔尺度属性の数値は、単にアトリビュートのランキングや順位だけでなく、違いを比較・定量可能にします。

Interval-Scale: 間隔尺度の特徴
  1. 加算と減算が可能
  2. 乗法は不可
  3. 0は任意の基準、そして負の値を持つことが可能
  4. 算術平均が可能

間隔尺度を説明する代表例に「温度」が挙げられます。

例えば、0℃は水が凍る温度の意味を持ちますが、0℃よりも低い温度は存在します。

「-5℃から5℃までの気温上昇」は10℃の上昇で、数値の間隔に意味があることが分かります。一方、「-5℃は5℃の−1倍」ということはできず、数値に比の関係性がないことが分かります。

このように、間隔尺度は、数値の差に意味を持ち、0や比に意味を持たない尺度です。

間隔尺度は、最頻値、中央値、平均値を扱えます。

Ratio-Scale:比例尺度

Ratio-Scale: 比例尺度は、間隔と比率の両方に意味を持ちます。間隔尺度と同様、比例尺度も、アトリビュートのランキングや順位だけでなく、違いを比較・定量可能にします。

Ratio-Scale: 比例尺度の特徴
  1. 加算、減算、乗法が可能
  2. 0は絶対的基準で原点、そして負の値は持たない
  3. 算術平均が可能

比例尺度を説明する代表例に、「身長」「体重」が挙げられます。

まず、高さ0cm、重さ0kgという数値は、「長さ・重さが存在しない」ことを意味する絶対的基準です。つまり、負の値を持ちません。

また、「10cmは1cmの10倍」「20kgは10kgの2倍」のように、比の関係性も持ちます。

このように、比例尺度は、0を絶対的基準とし、数値の差と比の両方に意味を持つ尺度です。

比例尺度は、最頻値、中央値、平均値を扱えます。

Discrete Attribute: 離散型属性

Discrete Attribute: 離散型属性は、任意の2つの値の間にカウント可能な数値を持ちます。自然数や整数で表すことができる計数データに分類されます。

Discrete Attribute: 離散型属性の特徴
  1. 値が自然数、または、整数

利用例として、イベントへの来場者数、サイコロの目、商品販売数、などがあげられます。

Continuous Attribute: 連続型属性

Continuous Attribute: 連続型属性は、任意の2つの値の間に無限の数値を持ちます。小数で数値を表すことができる計量データに分類されます。

Continuous Attribute: 連続型属性の特徴
  1. 値が小数

利用例として、長さ、高さ、重さ、時間、などがあげられます。

ワカメさん

実務において、数値属性と連続型属性は同じ意味で使われることが多いです。

まとめ

この記事はアトリビュートの定義と種類についてまとめました。

アトリビュートの定義と種類
  • アトリビュートはデータテーブルのカラム
  • アトリビュートは「次元」「変数」「特徴量」とも呼ばれる
  • データ分析において、アトリビュートは「定性」「定量」の種類から成る
    • 定性: 名義属性、バイナリ属性、順序属性
    • 定量: 数値属性(間隔尺度、比例尺度)、離散型属性、連続型属性
ワカメさん

統計学では、変数の重要な性質として「名義尺度」「順序尺度」「間隔尺度」「比例尺度」で紹介されています。

この記事は以上です。最後まで読んでいただきありがとうございました。

参考資料

(1) Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 2: Getting to Know Your Data, 2011

(2) GeekforGeeks, Data Mining: Data Attributes and Quality (2022/5/1 アクセス)

(3) IBM, Overview of data objects (2022/5/1 アクセス)

(4) 総務省 ICTスキル総合習得教材, 3-3:基本統計量・クロス集計表の作成(2022/5/24アクセス)

(5) GeekforGeeks, Understanding Data Attribute Types | Qualitative and Quantitative (2022/5/24 アクセス)

(6) Getting to Know Your Data, Data Mining (2022/6/3アクセス)

スポンサーリンク
この記事が気にいったらシェアしてね!
0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments