第5講へ  講義内容へ  第7講へ

経済データ処理実習 第6講 「データのバラツキ度を測ってみよう」

本日の内容:ヒストグラムの作成と変動係数の計算


T.ヒストグラムとは
U.ヒストグラムの作成 → 練習問題1.
V.ヒストグラムと散らばりの尺度
  との対応関係
→ 練習問題2.
→ 練習問題3.
W.変動係数とは → 練習問題4.
X.変動係数の計算とグラフ化 → 練習問題5.

T.ヒストグラムとは

  まず,下の図を見てください.これはあるクラスでとったITアンケートの集計結果です.

  この結果を見ると,Internetで文字入力検索のできる人や文書作成.表計算をできる人が
 結構いるということが分かります.
  上の図は,単なる項目ごとの棒グラフのようですが,実はこれが「ヒストグラム」と呼ばれる
 ものなのです.(厳密に言うと違うんですけどね...)
  「ヒストグラム」とは,「度数分布」というデータのまとめ方を行うときに,
 データの分布をより視覚的に把握するために用います.
  
  「度数分布」とは,調査対象(例えば上図の例では,データ処理実習の受講生)の全体
 (これを「集団」と呼びます)を,等間隔の「階級」に分類し,その階級ごとに集団メンバー
 (これを「個体」と呼びます)が何個属するかを見ることによって,集団の特徴を明らかにする
 分析手法です.この,「何個」というのを「度数」と呼びます.
 
  言葉で説明しても分かりづらいので,サンプルを使ってやってみましょう.
 From Teacherフォルダから,「ヒストグラムsamples.xls」をコピーして開いてみましょう.
 まず,Sheet1を見て下さい.

  これは,あるクラス50人の数学の得点です.ただし,数字が羅列されているだけですので,
 「何点台の人が何人」といったようなことは,数字を見ているだけでは分かりません.
  そこで,下のような表を作り,20点刻みの階級を作り,それぞれの階級の人数(度数)を
 求めてみましょう.  

  

  表を埋められたら,グラフウィザードを使って,ヒストグラムを作ります.
 下図のようなヒストグラムができたら完成です.

  ...が,しかし,骨の折れる作業です.これが,100人や200人,もしくは入試のように
 何万人にもなるデータだったら,絶対数え間違いをするでしょう.
  そんな時に便利なのがExcelのヒストグラム作成機能です.

U.ヒストグラムの作成

  では,さっそくその便利な機能を使ってみましょう.その前に,ちょっと準備が必要です.
 ヒストグラムを作成してもらうには,こちらで階級の範囲を指定してやらなければなりません.
 (実は指定しなくてもExcelは勝手にやってくれるのですが,それだとこちらの意図に合わない
 階級指定をしてしまうので,ここではきちんと自分で指定しましょう)  

(1)階級の指定
   階級の指定は,先ほどのように「0〜19」というようにではなく,それぞれの階級の上限の
 数値を,どこか適当な所に入力しておきます.

     

(2)ヒストグラム機能
   階級の指定ができたら,ヒストグラム機能を使ってみましょう.
   まず,ツールバーから「ツール(T)」をクリックして,「分析ツール(D)」を選択.
  出てきたデータ分析一覧から,「ヒストグラム」を選択して「OK」ボタン.
  ※このとき,プルダウン・メニューの中に,「分析ツール(D)」の無い人は,ココを見て下さい.

   下のようなウィンドウが開くので,「入力範囲(I)」には,点数データを,「データ区間(B)」には,
  さっき準備した階級の上限を指定します.最後に,「グラフ作成(C)」のチェックボックスをONにします.

   すると,自動的に新しいシートができて,そこに下のような表とグラフが作られます.
  (元のデータと同じシートに作成したい場合は,上のウィンドウ内の「出力先(O)」の所で,
  元データのあるシート上の適当な範囲を指定しておけば,同一シート上に作成できます)

   ヒストグラムの中の「次の階級」はありませんので,表の右下隅(オレンジ色の丸部分)を上に1セル分ドラッグして
  範囲から外しましょう.また,凡例もいらないので消します.
   上限しか入力されていないデータ区間(A列の所を「0〜19」という風に書き直してやると,
  より分かりやすくなります.
   そして,ヒストグラムは分布を山のようなイメージで描くグラフですので,棒グラフの間隔を狭めてやりましょう.
  (「系列の書式設定」を使います)
   こんな感じで出来上がりです.

※練習問題1.
  Sheet2を見て下さい.一見先ほどと同じような数字の羅列表があります.
 今度は英語の点数です.
  このデータを使って,上と同じようなヒストグラムを作りなさい.
 (階級の範囲も上と同じにしてください)

V.ヒストグラムと散らばりの尺度との対応関係

 今,練習問題で作ったヒストグラムと最初に作ったものとを比較すると下のようになります.
(少し字が汚いのは,2つのグラフを重ねたからです)

 青線で示されているのが数学データのヒストグラム,ピンクが英語データです.
最初に述べたように,これらのヒストグラムは,それぞれのデータ集団の分布を表しています.
 数学のデータ分布の法が,60〜79点台を中心にして固まっていることが分かりますね.
それに対して,英語のデータ分布はバラついています.
 一般的に,ヒストグラムの形状とデータ集団のバラツキについての関連をまとめると,

データ分布のバラツキ具合 ヒストグラムの形状
バラツキ 大 平らな丘状
バラツキ 小 とがった山状

となります.
 更に,バラツキ具合と関連しているということは,第3講で学習した「散らばりの尺度」とも
関連しているということになります.それらを全部まとめると,

データ分布のバラツキ具合 標準偏差(もしくは分散) ヒストグラムの形状
バラツキ 大 大きな値 平らな丘状
バラツキ 小 小さな値 とがった山状

となります.

※練習問題2.
 Sheet1とSheet2のデータ集合の標準偏差,分散を求めて,上の表のような対応関係に
 なっているかどうかを確認しなさい.

!注意!
 上の表のような対応関係は,「個体データの単位を同じものにした際に,データの規模に大差が無い
場合の集団同士」
にのみ使える関係であることに注意してください.
 つまり,今日使った数学と英語の点数のデータは,どちらも100点満点のテストですし,どちらかのテストが
すごく難しくて,全員50点以下になっているということもあります.

※練習問題3.
 Sheet3のデータを使ってヒストグラムを作成し,同時に集団の標準偏差を求めなさい.
(階級区分の設定には,データの横にある「階級上限」の数値を使いなさい)

W.変動係数とは

 練習問題3.でやった犬の体重分布と象の体重分布の比較を見てみると,
ヒストグラムで見ると一見同じような分布に見えるのに,標準偏差を計算してみると,
象の方が大きく出てしまいます.
 実は,分散だけでなく,標準偏差もデータの大きさに依存してしまうのです.
(詳しくは統計学などの授業で)
 ですから,分散や標準偏差そのものは,別々の集団のバラツキを比較するのには
適していないのです.

 ところが,この分散や標準偏差を加工して,集団のバラツキを見る指標を
作ることができます.それが変動係数です.

   

 変動係数は,上の定義式のように,集団の標準偏差をその集団の平均値で割って
求めます.これによって変動係数は無名数(単位の無い数)となり,異なった集団同士の
バラツキを比較することができます.

※練習問題4.
 Sheet3の犬の体重と象の体重のデータを用いて,それぞれの変動係数を求めなさい.

?「偏差値」と「変動係数」
 さて,以前に「偏差値」という統計指標を勉強しましたが,「偏差値」は,
異なった状況における個体の集団内での相対的な地位を示すものでした.
 それに対して,今回の「変動係数」は,異なった状況の集団自体のバラツキ
示すものです.
 異なった状況のものを比較できることに変わりはないのですが,個体データの比較か,
集団の特徴の比較か,という点で使い方が違います.

X.変動係数の計算とグラフの作成

 以上のように,変動係数の計算は,平均値と標準偏差が求められればできます.
そこで,From Teacherフォルダにある.「県民所得2.xls」を使って,各年度の
変動係数を求めてみましょう.また変動係数の推移をグラフ化してみましょう.

※練習問題5
 以上の都道府県データを用いた変動係数の推移から,1人辺りの県民所得の
都道府県間でのバラツキはどのように変化してきたと言えますか?


第5講へ  講義内容へ  第7講へ







※「ツール(T)」のプルダウン・メニュー内に「分析ツール(D)」が表示されない?!
Excelの初期設定の関係で,こういうことがあります.以下の操作をしてください.
(1)ツールバーの「ツール(T)」から,「アドイン(I)」を選択.     

     

(2)開いたアドイン・ウィンドウ内の「分析ツール」のチェックボックスをONにします.

   

以上の操作をすると,「分析ツール」がプルダウン・メニューに出てきます.

本文へ戻る