読者です 読者をやめる 読者になる 読者になる

IR・データ分析に思う その2 ~グラフをどう読むか~

 前回(IR・データ分析に思う 〜まず何をすれば良いのか〜 - 大学職員の書き散らかしBLOG)に引き続き、IR・情報分析関係について。

 前回は「情報を可視化することを楽しむことが大切」とまとめました。この「情報の可視化」とは、ビッグデータやデータサイエンスと併せて、最近(少し前?)の流行でもあるのかな、と思っています。いわゆる「インフォグラフィックス」ですね。

TED図解: 情報の可視化 | ビジュアルシンキング

視覚的に情報を伝える!実例で見るインフォグラフィックスの魅力 | Webクリエイターボックス

インフォグラフィックまとめ - NAVER まとめ

 国立大学でのインフォグラフィックスと言えば、九州大学が作成した「もし九大生が100人だったら」が思い浮かびます。各情報を「100人」という指標で整理した上で、わかりやすく表現されています。

【「If the Kyudai were a village of 100... - 九州大学 Kyushu University | Facebook

 また、各大学では、複雑な会計基準から生じる非常にわかりにくい財務状況をステークホルダーにわかりやすく伝えるため、独自の「財務レポート」等を作成している場合もあります。内容にもよりますが、財務状況をわかりやすく図示化するということでは、これもインフォグラフィックスと言えるでしょう。

ファイナンシャルレポート 2013 — 京都大学

 これらは、情報分析と言うよりは、データやその分析結果をポスト処理し広報に役立てている例だと考えます。

 職員にとっては、情報の可視化と言えば、Microsoft OFFICEEXCELによる図・グラフ化が最も身近なものだと思います(以下、「グラフ」とはEXCELによるグラフ化を想定しています。)。棒グラフ、折れ線グラフ、散布図といろいろ種類がありますが、共通するのは基本的には2軸で構成されているということです。軸の数、つまり要素が2つであり、2つの関係性をグラフという形で表示しています。

 ここから、基本的な円グラフは要素が一つであり、情報量が少ないことがわかります。また、バブルチャートや3Dグラフなどは要素数を3にすることができますが、見せ方には工夫が必要でしょう。なお、Y軸の2軸化や三角グラフ、Jチャートなど、要素数を増やしわかりやすいグラフを描く方法はEXCELでもたくさんありますが、今回は基本的な2軸グラフに焦点を当ててお話します。グラフの種類とその役割については、以下のwebページに詳しく掲載されています。

統計をグラフにあらわそう(種類と特徴)|なるほど統計学園

 前述のとおり、グラフとは2つの要素の関係性を読むものです。関係性とは、「Xがこのように変化すれば、Yはこのように変化する。」ということだと考えます。Xがグラフの横軸だとすれば、その変化とは経年変化であったり月変化であったりします。また、学部名など非定量データをXに設定する場合は、「Xがこのような状態であれば、」と言い換えても良いでしょう。例えば、第3回EMIR勉強会(山形大学・京都光華女子大学(共催) 第3回EMIR勉強会を開催いたしました |京都光華女子大学)で報告された京都光華女子大学の事例では、

 大半の学科で,1年前期の成績が高く,後期に下がる傾向が見られる。

とあります。この分析の基になったグラフを、公表資料から抜粋して以下に示します。1年前期から1年後期にかけ、明らかにGPAが低下していることがわかります。

f:id:samidaretaro:20140303214025p:plain

 このXとYの関係性とは「傾向」とも言い換えることができます。また、XとYに当てはめる要素を様々変化させることで、経験だけではわからない傾向をグラフとして明らかにすることができるでしょう。だからこそ、動的にグラフを変化させられるピボットグラフが役に立つと考えています。例えば、各授業の授業評価アンケートの平均点数と単位授与率との間にどのような傾向があるのでしょうか?入試区分とGPAとの関係は?各学部の共同研究先の企業規模・立地はどのような特徴があるでしょうか。あるいは、それを学部毎、学年毎など細かく分けていくと、各区分によってどのような傾向があるでしょうか。

 このように、要素を変化させることにより、様々な傾向を発見できる可能性があります。このXとY及びそこから得られる可能性がある傾向を「IR公式集」として公表すれば、もっとIRが普及するのではないでしょうか。

 注意しなければならないのは、グラフ等情報の可視化から分かるのはあくまで傾向(偽相関を含む。)であり、因果関係ではないということです。情報を可視化したからといって、問題点は明らかになりません。しかもたいていの場合、グラフからは経験に即した結果しか出てきません。

 例えば、私が分析を行った範囲では、教員一人当たりの論文産出数に相関が高いのは卒論修論等担当学生数でした。そりゃ、実際に実験等を行う学生が多ければ研究成果も多く出ますよね(一応、学生の研究成果を横取りしているという意味ではないことを申し添えます。)。このように、グラフ化を進めていくと、当たり前のことだと思われる傾向がたくさん出てきます。それに関連して、統計について相談するときに心がけておきたい3つのこと|Colorless Green Ideasでは、以下の3点を統計について相談する時に心がけてほしいとしています。

  1. 相談は早めに行う。
  2. 統計は魔法の杖でないと知る。
  3. 情報の出し惜しみをしない。
 一部の人は、統計が魔法の杖でないということを知らないで、統計に対して過大な期待を抱いている。こうした人は、データを集めて統計的解析を行えば何か良い結果が出てくると考えているのだ。しかし、それは誤りである。

 つまり、過度な期待はしない方が良いということです。

 しかし、だからと言って、グラフ等情報の可視化が意味がないということではありません。受験対策でよく聞く「傾向と対策」の言葉のとおり、傾向がわからなければ対策の打ちようがありません。また、当たり前のことだと思われる傾向がたくさん見つけられるということは、これまで経験則で感じるしかなかった既存の取組の成果を、データとして裏付けることができたということです。

 往々にして、「データ分析」と一言で言われることが多いですが、実際にはグラフ等情報の可視化による傾向把握プロセスとその傾向を基にした課題抽出及び原因検討という分析プロセスの2つに分けられ、両プロセスを行き来しながら次の一手を考えていくのだろうと思います。だからこそ、まずは傾向把握プロセスとしての情報の可視化から始めましょうということが言いたいのです。

 実際に施策提言にまで持っていくために情報分析をしましょうとなると、まずは課題設定からスタートすることと思います。「明確な証拠はないけど、いろいろ話を聞くと、あの学科はうまく学生に対する指導ができていないのではないか」「どうも業務がスムーズに流れないのは、あの部分に問題があるのではないか」という、以前弊BLOG(IMRADに思う 〜思考のフレームワークとしての有効性〜 - 大学職員の書き散らかしBLOG)でも触れたSuspicionの段階があり、その課題設定に合うようにデータ収集・分析を行うことになるでしょう(なお、これは、結論を先に決めてそれに合う証拠を探すという意味ではなく、あくまで分析のきっかけとして課題を設定するということです。分析結果によって課題を変更することもあり得ます。)。

 そうではなく、なんとなくデータをいじっていたらおかしな傾向を発見したという、分析結果専攻型のIRもあり得るのではないでしょうか。むしろ、あくまで個別業務に立脚した職員からすれば、そちらの方が自然かもしれません。

 2回にわたり、職員として各種データをどのように可視化・分析するかという最初のステップを例示しました。データ分析結果はあくまで一結果でしかなく、それだけを以て意志決定を行うことは、逆に非合理的な結果になると想像できます。ただ、現状を理解し課題を設定した上で有効な施策を行うというのが、大学IRの役割だと考えています。学内の情報公開が広まり分析結果を考慮した提案ができる職員が増えてくれれば良いなと思っていますし、私自身もそのような職員になりたいと思っています。

 なお、私が業務でExcelを用いた分析などを行う際にいつも手元に置いているのは、EXCELビジネス統計分析 [ビジテク] 第2版 2013/2010/2007/2003対応です。ここまでお話しした基礎的な内容から踏み込んで、有意差検定や多変量回帰分析などの考え方やExcelの操作方法などがわかりやすく記載されています。