読者です 読者をやめる 読者になる 読者になる

IR・データ分析に思う その3 〜どのようなデータを組み合わせるか〜

大学一般

IR・データ分析に思う 〜まず何をすれば良いのか〜 - 大学職員の書き散らかしBLOG

IR・データ分析に思う その2 ~グラフをどう読むか~ - 大学職員の書き散らかしBLOG

 大学IRをどのように進めていくかについて、特に初手をどのように取るかについては、弊BLOGでも言及してきました。今回はその続きです。

 その2では、グラフを用い変化を確認することをお話ししました。では、そのグラフ化するデータをどのように選べば良いのでしょうか。

 グラフをどのような観点で作成するか、大きく分けて2つ観点があると思っています。

f:id:samidaretaro:20140923202354p:plain

 1つ目の観点は、一つのデータを細かく区分に分けてグラフ化する方法です。例えば、その2に例示した京都光華女子大学のように、GPA平均の推移を学部学科毎に表示するということですね。もし、例示したグラフが表1のようなテーブルだった場合、GPA平均、学期、学科という3要素を選択し、グラフを形成したのでしょう。その他の例ですと、授業外学修時間を学部学科、学年別に折れ線グラフ化し、傾向を把握することも考えられます。

f:id:samidaretaro:20140924214316p:plain

 2つ目の観点は、複数(特に2つ)のデータを組み合わせてグラフ化する方法です。異なる2つのデータの共通部分を組み合わせ、それぞれのデータの要素をX軸、Y軸に配置し、散布図で表現するといったところでしょうか。共通部分を組み合わせるとは、図1で示すように、異なるデータで共通に保持している要素を探し出し仮想的に一つのデータとして取り扱えるようにするということです。組み合わせた結果、Aの場合ですとGPAと学修時間との関係が確認できるデータになりますし、Bの場合ですと各学科の授業形式と学科毎平均GPAとの関係が確認できそうです。

 この考え方は、リレーショナル・データベースの根本と成すものだという認識です。各大学はこのようなデータ横断・連携型のデータベースシステムを構築しようとしていますね。実際にEXCELを用いて小規模にデータ間結合を行うとすれば、VLOOKUP関数等を使用してテーブルを結合することになるでしょうし、私もそのようにデータ間結合を行うことがあります。

 1つ目の観点の場合、一つのデータを細かく区分して行けば良いので、要素の数によりますが、比較的操作しやすいと思います。2つ目の観点の場合、どのデータを組み合わせるかがまず以ての課題になります。データやその中の要素が少ない場合は、組み合わせられるデータを手当たり次第にグラフ化し傾向を把握することも考えられますが、数が多くなってくるとそうもいきません。

 その場合は、データ分析によって何を改善したいのかという目的やリサーチクエスチョンを改めて考えることが大切だと思っています。最終的に改善に繋げられないような分析は、(少なくとも当座は)それに注力することはできないでしょう。何の状況を確認し、何を改善したいのか、最も大切だと考える要素をメインデータとし、それを他のサブデータと組み合わせることで、最終的な改善に繋げることができると考えます。

f:id:samidaretaro:20140923202442p:plain

 図2に、メインデータとサブデータとの組み合わせの例を示します。この場合は、学生がどの程度学修しているかやどのように学修の結果を出しているのかを把握するという目的とし、それに関係する学修時間やGPAをメインデータとしています。それと組み合わせるために、組み合わせ可能なサブデータを選出し、それぞれを組み合わせることでデータ分析を行います。異なるリサーチクエスチョン間のメインデータを組み合わせることも考えられます。

 目的やリサーチクエスチョンが異なる場合は、メインデータが異なることが多いと思います。図2ではサブデータだった「入試形態」については、「入試形態により入学後の状況に違いがあるのか?」というリサーチクエスチョンではメインデータになるでしょう。「入試形態によりGPAに違いがあるのか?」と「GPAは入試形態により違いがあるのか?」という問いかけは、どちらをメインサブ、主従と設定するかにより、異なる意味を持つでしょうね。

 このような2つの観点でデータをグラフ化し傾向や特異値を見いだした後は、それが何によってもたらされているのか、さらに異なるデータや要素を用いてその属性や理由を探っていくことになります。その後、傾向や特異値が発生した理由などをロジックモデルで検討し、他部署への応用や全体の底上げなど改善を図っていくことになるでしょうね。

 以前の弊BLOG記事では分析結果先行型のIRもあり得るを書きましたが、規模が大きくなるほど目的やターゲットを意識した分析が必要になります。そうしなければ、膨大な作業が発生しかねません。今回はデータテーブルが既に完成されているという前提で話を進めてきましたが、通常であればテーブル形成やデータの妥当性検討だけでもかなり時間を取られかねません。そのような中で、最終的に学生や教員、役員など構成員の意思決定や行動に影響を与えられるような分析を目指しつつ、勘所を磨いていくのだろうなと思っています。