データ・オブジェクトはデータベースのエンティティを意味し、アトリビュートを使って記述します。
目次
アトリビュートの定義
「アトリビュート」とは何でしょう?
アトリビュートは、データ・オブジェクトのキャラクターや特徴を表すデータフィールドです。
例えば、病院の各患者が持つ「patient_id」「patinet_name」「address」がアトリビュートです。
コンピュータサイエンスの分野において、データ・オブジェクトとは、ひとつの値、あるいは、複数の値から成るストレージ領域です。データ・オブジェクトは、「サンプル」「インスタンス」「データポイント」とも呼ばれます。
要は、カラム一つ一つがアトリビュートであり、複数のアトリビュートはローのオブジェクトを表します。
そして、複数のデータ・オブジェクトが集まって構成されたものをデータセットと呼んでいます。
アトリビュートの同義語には、「次元」「特徴量」「変数」があります。
オブジェクトを記述するアトリビュートは、複数の種類に分けることができます。
「アトリビュート: attribute」はデータベースやデータマイニングでよく使用される用語ですが、機械学習の文献は専門用語として「特徴量: feature」、統計学は「変数: variable」を使用する傾向にあります。(1)
アトリビュートの種類
データ分析でよく使用するアトリビュートをFigure2にまとめます。
以下、それぞれのアトリビュートの特徴を整理します。
Nominal Attribute: 名義属性
Nominal Attribute: 名義属性の特徴として以下が挙げられます。
- カテゴリカルデータとして利用
- 血液、名前、婚姻関係、など、カテゴリーを表現する値
- 値の大きさに意味がなく、定量性なし
名義属性は定量性がないため、このアトリビュートで平均値や中央値を探すことは意味がありません。しかし、最頻値を探すことはできます。
Binary Attribute: バイナリ属性
Binary Attribute: バイナリ属性は、0か1の2種類しか値を持たないアトリビュートです。
- カテゴリカルデータとして利用
- 男性/女性、Yes/No、Positive/Negative、など、バイノミナルを表現する値
- 値の大きさに意味がなく、定量性なし
名義属性と同様にバイナリ属性も定量性がなく、このアトリビュートで平均値や中央値を探すことは意味がありません。しかし、最頻値を探すことはできます。
Ordinal Attribute: 順序属性
Ordinal Attribute: 順序属性の特徴を以下にまとめます。
- 順序、ランキングを示すための値
- 値の大きさに意味を持つ値
- 値の間隔に意味を持たない値
例えば、サービスの満足度を尋ねるアンケートで
1:不満
2:まぁまぁ
3:満足
という項目を目にしたことがあると思います。
この場合、値の間隔に意味はありませんが、値の大きさは順序・ランキングの意味を持ちます。
順序属性は、最頻値、中央値を扱えますが、平均値は扱えません。
Numeric Attribute: 数値属性
Numeric Attribute: 数値属性は、定量的な値です。整数、または、実数で表されます。また、数値属性は「間隔尺度:Interval-Scale」「比例尺度:Ratio-Scale」のふたつに分類できます。
間隔尺度と比例尺度の簡単な見分け方として、(1)絶対的な基準として0が存在するか否か、(2)0以下の数値を持つか持たないか、が挙げられます。
以下、間隔尺度と比例尺度についてまとめます。
Interval-Scale:間隔尺度
Interval-Scale: 間隔尺度は、等間隔の尺度上で計測されます。間隔尺度属性の数値は、単にアトリビュートのランキングや順位だけでなく、違いを比較・定量可能にします。
- 加算と減算が可能
- 乗法は不可
- 0は任意の基準、そして負の値を持つことが可能
- 算術平均が可能
間隔尺度を説明する代表例に「温度」が挙げられます。
例えば、0℃は水が凍る温度の意味を持ちますが、0℃よりも低い温度は存在します。
「-5℃から5℃までの気温上昇」は10℃の上昇で、数値の間隔に意味があることが分かります。一方、「-5℃は5℃の−1倍」ということはできず、数値に比の関係性がないことが分かります。
このように、間隔尺度は、数値の差に意味を持ち、0や比に意味を持たない尺度です。
間隔尺度は、最頻値、中央値、平均値を扱えます。
Ratio-Scale:比例尺度
Ratio-Scale: 比例尺度は、間隔と比率の両方に意味を持ちます。間隔尺度と同様、比例尺度も、アトリビュートのランキングや順位だけでなく、違いを比較・定量可能にします。
- 加算、減算、乗法が可能
- 0は絶対的基準で原点、そして負の値は持たない
- 算術平均が可能
比例尺度を説明する代表例に、「身長」「体重」が挙げられます。
まず、高さ0cm、重さ0kgという数値は、「長さ・重さが存在しない」ことを意味する絶対的基準です。つまり、負の値を持ちません。
また、「10cmは1cmの10倍」「20kgは10kgの2倍」のように、比の関係性も持ちます。
このように、比例尺度は、0を絶対的基準とし、数値の差と比の両方に意味を持つ尺度です。
比例尺度は、最頻値、中央値、平均値を扱えます。
Discrete Attribute: 離散型属性
Discrete Attribute: 離散型属性は、任意の2つの値の間にカウント可能な数値を持ちます。自然数や整数で表すことができる計数データに分類されます。
- 値が自然数、または、整数
利用例として、イベントへの来場者数、サイコロの目、商品販売数、などがあげられます。
Continuous Attribute: 連続型属性
Continuous Attribute: 連続型属性は、任意の2つの値の間に無限の数値を持ちます。小数で数値を表すことができる計量データに分類されます。
- 値が小数
利用例として、長さ、高さ、重さ、時間、などがあげられます。
実務において、数値属性と連続型属性は同じ意味で使われることが多いです。
まとめ
この記事はアトリビュートの定義と種類についてまとめました。
- アトリビュートはデータテーブルのカラム
- アトリビュートは「次元」「変数」「特徴量」とも呼ばれる
- データ分析において、アトリビュートは「定性」「定量」の種類から成る
- 定性: 名義属性、バイナリ属性、順序属性
- 定量: 数値属性(間隔尺度、比例尺度)、離散型属性、連続型属性
統計学では、変数の重要な性質として「名義尺度」「順序尺度」「間隔尺度」「比例尺度」で紹介されています。
この記事は以上です。最後まで読んでいただきありがとうございました。
参考資料
(1) Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 2: Getting to Know Your Data, 2011
(2) GeekforGeeks, Data Mining: Data Attributes and Quality (2022/5/1 アクセス)
(3) IBM, Overview of data objects (2022/5/1 アクセス)
(4) 総務省 ICTスキル総合習得教材, 3-3:基本統計量・クロス集計表の作成(2022/5/24アクセス)
(5) GeekforGeeks, Understanding Data Attribute Types | Qualitative and Quantitative (2022/5/24 アクセス)
(6) Getting to Know Your Data, Data Mining (2022/6/3アクセス)
データ・オブジェクトの記述に使うアトリビュートとはなんでしょう?この記事は「アトリビュートの定義・種類・例」についてまとめます。