最終更新日:2024年2月3日
どうも、おばんです。QCたかです。
「散布図」をスマートに使いこなしていると、「アイツ、デキル!」って一目置かれます。
統計用語をちょっと加えればいいだけ。
詳しいことを知っていれば一番いいのだけれど、まずはキッカケを作ることが大事です。
統計脳を体に植え付けてから、勉強していっても遅くありません。
「デキル、ジブン!」になるため、今回紹介するテクニックを、ぜひ、覚えましょう。
最後まで、見て行ってくださいね。
目次:
散布図とは?
散布図は、「方眼紙の上に点をちりばめたグラフ」と考えてよいでしょう。
グラフは、ヨコにX軸、タテにY軸を取るのが、一般的です。
そして、X軸に要因、Y軸に結果を示します。
例えば、「あるクラスの身長と体重のデータ」があったとします。
ここで「身長が高い方が、体重は重たい傾向にあるのでは?」と考えます。
この場合、X軸に「要因とした身長」、Y軸に「結果の体重」として、点をプロットします。
この点は、一人のデータを示します。
そしてクラスに100名いれば、100名分のデータ、つまり点が100個プロットされます。
このような感じで、散布図は、単純にデータの数だけ点をプロットするだけのグラフです。
ですが、このグラフ。
いろいろな点がプロットされると「関係性」が見えてきます。
上の散布図を見ると「右肩上がりの直線」に見えませんか?
これが、散布図が示す「関係性」です。
散布図は、直線に見える状態を「相関がある」とか「相関がない」と言って表現します。
そして、「相関がある、とか、ない」の程度を数字で表す手法として「相関係数」というものが用意されています。
この「相関係数」の大小で、相関に「強い」とか「弱い」という修飾語が付き、言葉の信頼性が上げます。
もう一つ、直線が「右肩上がり」か「右肩下がり」かも定義されています。
「右肩上がり」の場合は「正の相関」、「右肩下がり」の場合は「負の相関」と呼びます。
まとめますね。
散布図には、
- 直線性があるか:相関の有無
- 相関係数はいくつか:相関の強弱
- 直線の傾き:相関の正負
これらの、要素で表現することになります。
散布図 scatter diagram
二つの特性を横軸と縦軸とし、観測値を打点して作るグラフ表示(Z8101-1)
QC七つ道具の一つとして、広く普及しており、主に二つの変数間の関連を調べるのに使われる。
ークォリティマネジメント用語辞典 2004年出版 吉澤正 日本規格協会より抜粋
相関係数とは?
先ほども書きましたが、相関係数は「相関の強弱」を数値で示すものです。
そして、その数値の範囲で強弱の言葉の表現が変わるのでした。
当然、数値で表現されるものですから、それを求める計算式があります。
ですが、この記事では、そんな計算式を示しません。
なにせ「チョーカンタン」としていますからね!
「あ~、Excelの関数を使うんでしょ?」
と言う方もいらっしゃると思いますが、それも使いません。
使い慣れない相関係数を求めるExcel関数など、覚えるだけムダというもの。
ボクも覚えていません。
じゃあ、何を使うの?って話なのですが、使うものは「√ルート機能のついた電卓」です。
もちろん、皆さんが持っているスマホでも良いです。
散布図を作って、そのまま電卓をたたき、相関係数を求め、
「この2データは、相関係数○○なので、強い正の相関があります!」
とカンタンに言えちゃいます。
まさに、デキルヤツ。。。
補足ですが、相関係数の強弱の範囲は、明確に「いくつ」とは決まっていません。
例えば、強い相関がある場合、先ほど「0.8~1.0」と書きましたが、別の書籍やサイトでは「0.7~1.0」としていたりしています。
なので、しきい値は少し曖昧なのですね。
ですから、求めた答えが0.7~0.8の範囲だった場合、どう表現するかは「あなた次第」です。
強いのか、普通なのか、あなた自身で判断すればよいのです。
もう一つ、補足しておきますが、相関係数は「-1.0~1.0」の範囲にしかなりません。
例えば、「-100.0」とか「2.5」とかにはならないのですね。
これは計算の都合ですから、計算式を見て頂ければ納得すると思います。
それは、別の機会でお話します。
散布図を描いて、相関係数を求める
それでは、さっそく描いてみましょう。
グラフを作るには、まずチェックシート作りからです。
チェックシートを作る
今回は、例題にも示した「クラス100名の身長と体重の散布図」を作ります。
身長と体重をヨコに並べてつくります。
これが100名分、ズラーっと並んでいます。
セルを選択する
それでは、散布図を描いていきましょう。
まずは、対象のセルを選択することからです。
身長と体重の先頭のセルを選択します。
そのまま、キーボードの「Shiftキー」+「Ctrlキー」を押してから、「↓キー」を押します。
一気に選択されました。
マウスカーソルをクリックしたまま、画面を動かすより圧倒的に早いです。
今回は100データしかありませんが、1000や10000とかになると実感できます。
仕組みとしては、「Ctrlキー」+「方向キー(今回は下キー)」を押すと、その方向の「空欄まで」のセルまで一気に動いてくれます。
そして「Shiftキー」は、セルが動いた分選択をしてくれます。
つまり、「空欄まで一気に選択しながら動いた」ということですね。
これは、チェックシートを「キレイに」「ムダなく」「わかりやすく」作ることで、このようなテクニックが使えて、結果的に時短になります。
すべては、チェックシートで決まるのです。
散布図を描く
散布図に描きたい範囲が選択されています。
その状態で、キーボードの「Altキー」→「Nキー」→「Dキー」と順番に押しましょう。
すると、Excelが「散布図のどれを使う?」と聞いてきますので、「左上の散布図」を選択しましょう。
はい、できました。
あとは、グラフのタイトルや、軸の説明、軸の範囲など見やすいように編集すると、
カンタンですね。
近似曲線で線形近似する
いよいよ最終局面です。
(『いよいよ』と言うほど、工程は多くありませんでしたが・・・)
描いた散布図に「近似曲線」を追加します。
「何それ?」と考えず、
- グラフの上でクリック
- 右上に現れた「+」をクリック
- 「近似曲線」の左にある「チェックボックス」をクリック
すると、散布図上に「点線」が表示されます。
これが今回の100データに対する「近似曲線」になります。
Excelでは、自動的に「線形近似」つまり「直線」の近似線を描いてくれます。
補足ですが「相関係数を使った相関有無」は、あくまでも「直線」に対してです。
「曲線」「放物線」などに対しては、カバーできません。
(理論上、相関係数を求めることはできますが)
つまり、「曲線」「放物線」などには相関係数は使用しません。
ただし、注意しなければならないことは「曲線」「放物線」などの形にプロットが並んでいるのであれば、それは「曲線」「放物線」の関係に相関があることになります。
相関はあるが、相関係数では表現できないだけです。
「相関係数が求められないから相関がない」ということではありませんので、お気をつけください。
「数式」と「Rの2乗」を表示する
次に「数式」と「Rの2乗」を表示させます。
- 散布図の「近似曲線」上で「右クリック」
- でてきたメニューの「近似曲線の書式設定」をクリック
- Excel右側に出てきた書式設定の最下部「グラフに数式を表示する」「グラフにR-2乗値を表示する」をチェック
すると、散布図内に「数式」と「Rの2乗」が表示されます。
相関係数を求める
今表示されたものを詳しく見てみましょう。
まず、「数式(y=の方)」から見ます。
「数式」を見ると相関係数がプラスなのかマイナスなのかがわかります。
見るところは「xの値」です。
ここでは、「Rの『2乗』を取り除いた『R』の値」を電卓で求めます。
つまり、「Rの2乗」に√ルートをかけて、Rを求めればいいわけです。
これですべて完了です。
チョーカンタンですよね。
補足:回帰分析
疑問に思った方のために、少し補足しますと、今回使用した、
- 数式は回帰式
- Rの2乗は決定係数
と呼ぶもので、「回帰分析」というジャンルの手法を使っています。
回帰式は、各データをもとに最小二乗法という計算手法で求めたものですが、カンタンに表現すると「未来を予測するための式」と思ってよいでしょう。
「身長が210cmのヒトは体重いくつが予測できる?」を考えたときに、先ほどの回帰式のx(身長)に210cmを代入すれば、y(体重)が114.25kgと求まります。
実際に体重を量ったわけではありませんが、おおよその予想がつきます。
これが回帰式のスバラシイところです。
そして決定係数「Rの2乗」は、回帰式の確からしさを0~1で表したものです。
今回の事例で言えば「Rの2乗」は0.6547ですから、「65%は信頼できる」となります。
裏を返せば、先ほど求めた身長210cmの体重114.25kgも65%ぐらいしか信頼できません。
このように、回帰式の結果だけを見ていると、未来を読み誤ることが十分考えられます。
ですから、回帰式で未来を予想する際は、決定係数「Rの2乗」とセットで見ることで、どの程度未来を信じてよいのか、考えるクセをつけるようにすることが大切です。
決定係数「Rの2乗」についてもう少し補足をさせてください。
ボクたちは決定係数「Rの2乗」を√ルートして「R」を求め、結果を「相関係数」としました。
実はこれ、間違いです。
決定係数「Rの2乗」と「相関係数」は、求めている結果も計算の過程も異なります。
ただし、決定係数「Rの2乗」の√ルートが「相関係数」と近似しているため、使わせて頂こう、ということです。
「相関係数」を直接求めたわけではない、ということを理解しておけば、十分です。
オススメ書籍
リンク
散布図、相関係数に特化した書籍ではありませんが、回帰分析までざっくりと全体的に説明してくれる書籍です。
難易度は高めです。
難しい数式を気にしなければ、全体像を掴めると思います。