ＦＤフォーラム「学習成果をどう評価するか？― 評価課題とルーブリックの開発 ―」に参加してきました。

10月3日開催第14回関西大学ＦＤフォーラム・大学教育学会課題研究「学士課程教育における共通教育の質保証」合同企画イべント「学習成果をどう評価するか？― 評価課題とルーブリックの開発 ―」のお知らせ｜関西大学教育開発支援センター

現在，それぞれの大学では教育の質保証の１つの手段として，共通教育のさまざまな正課・準正課プログラムにおいて，評価課題やルーブリック等の評価基準が開発され，学生が何をどう学んでいるか，プログラムは有効に機能しているのかなどが盛んに検討されています。本イベントでは，大学教育学会課題研究「学士課程教育における共通教育の質保証」にフィールドとして参加している関西大学，新潟大学，山口大学、名古屋商科大学，山形大学での成果を報告し，この領域の研究をリードしておられる方々と共に，多角的な議論を行います。みなさまもぜひ，この議論の輪にご参加ください。

　関西大学で行われたルーブリックに関するFDフォーラムに参加してきました。会場は関西大学千里山キャンパス図書館内にラーニング・コモンズスペースであり、なかなか見ることのできない他大学の図書館内を見ることもできて、個人的にはお得感があるイベントでした。参加者も200席程度が満席になるほどであり、大規模から小規模まで様々な大学から参加があったようで、この問題に関する関心の高さをうかがわせました。

　以下に、フォーラムでの発言を記します。なお、あくまで私が理解できた部分を一部のみ掲載していることに留意ください。

基調講演「学習成果をどう評価するか？－評価課題とルーブリックの開発－」（松下　京都大学 高等教育研究開発推進センター教授）

「学修」ではなく「学習」という言葉を用いているのは、プロジェクトとして広く学びの成果を俯瞰するためである。
学修成果への注目は世界共通であり、日本では学士課程答申から広まってきた。学生が何を理解したか、何をできるようになったかを含め、何を学んだかということである。現在の学習成果について、OECDでは学習成果とは学習者が何をできるようになるのかが期待されるのかと定義している。つまり、学習成果には、目標（intended,expected,desired）としての学習成果と結果（評価対象）（archived）としての学習成果という２つの意味がある。質的転換答申では、学習成果の測定方法として、アセスメントテストやルーブリックなどの例示がある。
学習成果の評価は、直接評価－間接評価と心理測定学的パラダイム－オルターナティブ・アセスメントのパラダイムの２軸で整理できる。それぞれの象限において、評価手法が当てはまる。間接評価とは学習についての学生の自己評価、直接評価は学生の能力の表出であると整理できる。大学教育学会の課題研究として、４つのサブテーマを設定し、これらに取り組んでいる。サブテーマ１では理論・実践の現状把握やプロトタイプの開発などを行っており、今回は各大学におけるルーブリック活用の事例などプロトタイプの紹介を行う。
評価課題とルーブリックとの関係性について。ルーブリックとは、ある能力をなんらかの評価課題を用いて可視化し表出されたパフォーマンスを評価基準を当てはめ測定していく手法である。ルーブリックは、評価課題とセットでないと、本来は意味をなさないものである。大学教育は多様な評価課題の宝庫であるが、評価基準は主観任せで教員のさじ加減で決まっていたところがあった。それを明示化して活用出来る方法が期待されたが、それほどルーブリックの活用が広まっていないのが実情という認識である。アメリカではルーブリックがよく使われるようになっているが、日本では学習成果の把握方法としてルーブリックはあまり使用されていない。文科省の調査は「課程を通じた評価方法」という設問であり、プログラム全体の評価方法としてルーブリックは使いにくいのではないか。
ルーブリックには、どの組織単位で共有するのかという階層性がある。Valueルーブリックのような大学間・科目横断的なものはまだ日本ではできていないが、全学で・科目横断で利用する例、全学あるいは特定の部局で・特定の科目でという例はある。組織的に共有する場合、共通性と多様性をどう両立させるのかということが問題にある。オムニバス授業などの場合は、ルーブリックを共有しつつ各教員の個性を発揮していかなければならない。
ルーブリックの開発にも悩ましい部分がある。どんなルーブリック（一般的/課題特殊的ルーブリック、長期的/採点用ルーブリック）にするのか、ルーブリックの観点やレベル、記述語をどう設定（観点の抽出、レベル間の質的差異の表現、改訂のプロセスの設定）するのか、誰が開発に関わるのか（教員のみならず学生や地域住民、企業・NPO関係者など）などが課題。長期的な学びへの対応や成績評価への使用などルーブリックの活用や、ある段階の評価プロセスへの学生の参画や自己評価・相互評価の実施など学生の参加度なども問題がある。学生の参加は慎重に考えなくてはならず、教員にとっては評価のための学習になるのではないか、画一化した学習になるのではないかという懸念も生じている。
教員の評価と学生の自己評価とのズレをどのように考えるかという点も考えていきたい。教員の評価負担の大きさもある。アメリカではルーブリックによって評価負担軽減につながっているがそれはもともと丁寧なフィードバックをしていたためであり、日本の場合はルーブリックを使用すると評価負担が増大する可能性もある。厳格な評価への要請との関係も考えなければならない。ルーブリックによる評価が評価のみにとどまるのではなく、ルーブリックに学生を参画させることによる学習促進を目指していくことが必要。ルーブリックを形式的評価にとどめる大学もある。
ルーブリックでアカウンタビリティを果たすことは、経年変化や他機関との比較性の担保が困難であるため、なかなか難しいところもある。ただ、特定の科目をサンプルにして学士課程全体の質保証を説明している大学もあり、他には標準テスト・質問紙テストとの併用も考えられる。アメリカでは、形成的評価とベンチマーク評価との関係性も研究されている。

フィールド報告１（関西大学）

アセスメントポリシーを策定している段階であり、ルーブリックの位置付けが課題になっていた。本学のルーブリックの活用では、より学生の学びをエンカレッジすることを特徴としている。入学時調査により学生に身につけさせたい力には階層性があることが明らかになり、それをもとに共通教育におけるルーブリック活用について調査を行った。
調査結果では、プレゼンテーションやレポートの評価においてルーブリックが導入されていることが多い傾向にあることがわかり、教員自身がそれに基づく評価をし成績評価に含めていることもわかった。学びのための評価に活かすルーブリック評価が一部なされていると判断できる。ゼミの例では、学生の発表をルーブリック評価しその評価結果を学生に返し自己評価させている。ルーブリックから取りこぼした点も評価するようにしている。

フィールド報告２（新潟大学）

初年次教育のレポート評価とPBL教育の評価にルーブリックを導入した。自分で課題を見つけて解決する能力を学士課程の中心に据え置き、従来から能動的学習を推進してきた。そのパフォーマンスを評価するためにルーブリックを導入した。学生に大きなテーマを与え学生自身が課題設定をするレポートについてルーブリックを用いた評価を行っているが、テーマ設定も重要であり、評価の意図とルーブリック項目の関連性や学生のパフォーマンスとルーブリック評価との差異が課題である。レポート評価は難しく、教員により評価がかなり異なる。いかに学生のパフォーマンスが見えやすいかによるところもあり、評価者が学生の意図を読み取りにくい場合は評価がぶれる。
PBL評価の場合、ワークシートやロールプレイを用いており、学生のパフォーマンスが見えやすい。学生にも、勉強になると評判がいい。準備段階など評価に持っていくための教員の負担もあり、ウェブ上でできるように検討している。

フィールド報告３（山口大学）

「山口と世界」という共通教育科目を開講していたが、学生からは評判が良くなく成績評価もばらつきがあった。それを改善するため、コモンルーブリックを作成した。コモンルーブリックの観点として大学の教育理念も意識しつつ、科目の基準を設定した。担当教員でFDを行ったが、レベルの記述語が問題になった。試作－開発－実践－検証とサイクルを回していく予定である。成績評価分布との比較も行って、検証を進めていく。
成績評価に直接反映させる方向性には難しさを感じる。コモンルーブリック自体はかなり負担が大きい。ただ、やりがいはあった。シラバスなどにルーブリックの要素を組み込むなど、組織的に広めていることも検討している。ルーブリックの活用は、授業設計の見直しなどFDの要素が強いと考えている。

フィールド報告４（名古屋商科大学）

４年間の教育の保証を卒業論文に位置づけており、卒業論文の評価にルーブリックを活用している。そのために、まず初年次ゼミがどのように貢献できるのかという点がテーマになった。
初年次ゼミでは、未来の履歴書というレポートを評価課題とした。レポート自体はルーブリックにマッチした教育を行った教員や学生の自由にさせた教員もいたが、それをルーブリックで評価したところ差異が生じた。しかし、レポート内容自体の充実性などルーブリックで評価できない部分では、質の逆転が生じた。
その状況の結論としては、卒業論文のルーブリックの評価に向けた第一歩であるため、今回のルーブリック評価は意味のあるものだと位置付けた。評価課題の打ち出し方は教員により差異があり、どのように対応していくのかは今後の課題である。

フィールド報告５（山形大学）

地域のフィールドワーク科目において現地での活動の質をどのように担保するかは課題であり、またサービスラーニング科目は現地のメリットも必須であり、評価基準を学生に示すことが必要だと考えた。大学の意図に加え、現地の方々の思いも大切であり、地域住民の思いも反映した形で評価基準を作成した。現地の評判も良く、今後ルーブリックの形に整理していきたい。
評価基準は合宿授業の二日目の朝に学生に見せており、評価のための学習にならないように配慮している。現地の方々にも学生の活動を評価してもらっているが、現在は学生同士が振り返りをする際の参照程度にとどめている。評価課題はそれぞれのプログラムによって異なるため、多様なプログラムの共通性を整理することが必要だと感じている。

コメント（濱名　関西国際大学学長）

本課題研究は、学位プログラムが一つのキーワードになっており、共通教育に着目している点はすべての大学に共通した課題を取り上げるという点で意義がある。実践例も蓄積されており、実践的な研究も進んでいる。どの段階を評価するのかという点では、授業評価だけではなく、中教審としてはプログラム評価の方に関心がある。第３サイクルの認証評価の改善の話もある。大学全体として教育プログラムは評価できるようになっているのか。
高校教員には、ルーブリックやラーニングコモンズなど、大学改革の認知度はかなり低い。
ルーブリック活用の5W1Hの整理が必要であり、学内に説明する際にはこれを構造化しないと説得しにくい。ルーブリックの階層性があるという指摘は重要であるが、科目横断的だけではなく科目縦断的という考え方もできるのではないか。学年によってルーブリックは変化しうるものである。採点用のみならず、到達目標達成検証用のルーブリックもあり得る。アメリカでは、成績評価とは関係のないルーブリックを用いた評価を行っている大学もある。学生自己評価との整合性は重要なのか。また、形成的評価にとどまっていては普及しないのではないか。
各大学の取組とも良い点やチャレンジな点は見受けられた。ただ、疑問もある。ルーブリックとはプログラム単位での目標達成に活用できないのか、つまり質保証の手段としてのルーブリックをどのように使えるのか。学年によるルーブリックの一貫性の担保の問題や信頼性の問題、他科目への発展・接続性の問題、評価の妥当性の担保なども問題である。AAC&UはValueルーブリックの採点への適応を戒めている。
スキル系科目からのルーブリック導入は始めやすいが、他科目への発展性がなく普及しない。科目ごとだけではなく、組織としての学習目標を達成した学習成果の検証のためルーブリック活用をする道もあるのではないか。アセスメントポリシーやアセスメントプランがなかなか明確化できていない。PDCAサイクルという言葉があるが、日本の大学はPDの繰り返しであり、カリキュラム・ポシリーやディプロマ・ポリシーの検証においてアセスメントが必要である。
スキル系の評価と非スキル系の評価は区分した方が良い、スキル系とアカデミック系は長い目で見る観点が異なる。補助金の審査項目になったためルーブリックの普及率は高まるが、表層的なものになると思う。3ポリシーやアセスメントポリシーの構築のなかで、評価プランへの明確な位置付けが不可欠である。教員自身が自らの評価の妥当性に気づけるようなカリブレーションを含むFDが重要である。教員の自制心を呼び戻す意味でも、ルーブリックは非常に意味がある。

パネルセッション

ミニレクチャー：持続可能な評価を見据えた学生による評価と学びの連動（安藤　関西大学文学部教授）

持続可能な評価とは何か。形成的な評価のみではなく総括的評価を含み、生涯学習を関連させるというのが２重の義務であるとされている。Carless（2015）は、学習中心評価の枠組みとして、評価の専門的知見の発達と学生によるフィードバックによる評価と学びの連動を示した。
アルバータ大学のルーブリックでは、スピーチやライティングのルーブリックを作成しているが、教師の記述と問いかけがフィードバックのポイントとなっている。Alverno（2015）は、フィードバックを行う際にすべきこととすべきでないことを指摘した。学生がどれほど能力が伸ばせるのかというところが重要である。ルーブリックは授業用と採点用を区別する必要がある。また、ピアによる学びと評価では「べき・べからず集」のようなルールを徹底させなければならない。
授業でルーブリックを使用する際は、併せてコメントも添えている。また、学生ともルーブリックの内容をすり合わせている。こうすると、ルーブリックの効果は明らかである。実物投影機で学生に見せながらその場で採点もしている。
学生の評価不安をなくすために、評価にユーモアを加えている。評価課題のデザインや評価の専門的知見の発達、フィードバックへの関与から見ると、学生の評価も上々である。ルーブリックの活用には個人差もあり時間がかかるが、最初から徐々に分からせていかなければならない。ルーブリックの効果的な定着方法やHPで具体例をルーブリックで評価する方法の確立は今後の課題である。

ミニレクチャー：二つの論点提起（深堀　国立教育政策研究所）

ルーブリックとは、何をどう評価するのかを可視化するツールである。「何を評価するのか」と「何を学ばせるのか」との整合性を確保する必要がある。科目・プログラム、学部学科・全学の間で何を学ばせたいのかということの共通理解ができているのか。これらは３ポリシーの整合性とも関連する。中教審の議論を見ても、今後は３ポリシーに基づく教学マネジメントや学習成果と内部質保証との関係が重要な政策課題になってくる。
ルーブリックによる評価の客観性をどのように確保するのか。観点やレベル、記述語に対する共通理解は意外ととられていない。評価課題の適切性も重要であり、そのためには観点の共通理解を深めることが大切である。教員に対する研修機会（エキスパート・ジャッジメントを鍛える）は、NILOAやTuningテスト問題バンクなどで提供されている。良い事例をいくつか与えると教員は共通理解を得られるのではないかとも思う。Tuningテスト問題バンクでは、工学系の分野における共通的なテスト問題やアセスメントを公開している。大学教員が共通した枠組みに沿ってテスト問題を作成しそれを共有することにより、教員の負担を軽減できるのではないか。

パネルディスカッション

（松下）「何を評価するのか」と「何を学ばせるのか」との整合性の確保は、基本的なことではあるが難しいことでもある。
（濱名）ルーブリックの共有について、関西国際大学では全学でルーブリックを作成しているものと学部ごとに作成しているものを分けている。専門性と全学的な教学マネジメントをどう組み合わせるかは今問われているところである。
（松下）客観性の担保について、大学を超えたベンチマーク評価に参加させることは医学系のOSCEなどで前例があるが、学問分野間でも違いがあるとも考えている。共有が作りやすい分野と作りにくい分野があるだろう。
（濱名）ルーブリック活用のハードルを下げるためにはという質問があったが、３ポリシーの検証性のなかでルーブリックを活用してほしい。スキル系はルーブリックが適応させやすいが、広がりや発展性は少ない。
（深堀）先進的な事例やルーブリックの共有について、ウェブサイトで公開している例もある。Tuningテスト問題バンクでは、あらかじめ設定したコンピテンシーの枠組みに対してテスト問題を作成・採点し検証しながら共通理解を形成していく。具体的な課題からなんらかのコンピテンシーを測定する手順を踏めば、共通理解は形成しやすいのではないか。異分野でいきなり大きなコンピテンシーの枠組みを作ることは難しい。
（松下）教員の評価負担の軽減について、形成的な評価のみでは負担感が高まる可能性がある。成績評価への活用を否定するわけではないが、ルーブリックの質的評価の本質と成績評価の在り方を検討しなければならない。ルーブリックの優良事例をもっと挙げていく必要がある。
（安藤）ユーモアがある評価について、成長マインドセットのようなものがないと成り立たない。やったらできるという気持ちが大切。また、人間関係（教員と学生、学生と学生）が重要である。欧米の論文を読んでいると、日本とはルーブリックの捉え方が異なると感じる。成績に対して学生が過敏であり、それに対応する教員のプロセスとしてルーブリックがある。正確性を求める学生にとってはルーブリックは曖昧なもの捉えられるが、ルーブリックという枠組みがなければ押さえるべきポイントが明らかにならない。学生がダメなレポートを出してきてから、ルーブリックを使って指導していくことになる。
（深堀）JABEEの評価者研修ではルーブリックが紹介されている。
（濱名）ルーブリックを使わないほうが良い場面について、テストなど他の確立された評価方法で直接測ったほうが良いものはルーブリックを使用せずとも良い。
（松下）縦断的なルーブリックとは長期的なルーブリックを想定しており、学年を跨いだルーブリックなどを始めようと思っている。
（安藤）ルーブリックは枠組みにすぎず、それを超えることも十分に想像できる。採点用ルーブリックと授業用ルーブリックを別にするとは採点用と学習促進用を分けているということであるが、結構煩雑である。
（濱名）ルーブリックを全て学生に見せることが効果的かは懐疑的であり、学年によってルーブリックの記述を微妙に変えている。専門分野の科目マッピングが形式的かつ教員間の対話がない状態で作られており、多様な学生に対応するためには、ルーブリックが果たす役割が大きい。
（安藤）ルーブリックだけでは細かいところまではカバーできず、学生に対するコメントで対応している。
（フロア）３ポリシーなど抽象的な目標に対する評価はどのように行うのか。各科目の積み上げにより、ポリシーを評価すれば良いか。
（濱名）関西国際大学では、各学期の終了時に学生一人一人において自己評価、エビデンス提出、アドバイザー面談を行い、コンピテンシー評価でルーブリックを用いた能力評価をしており、これとポリシーとの整合性による評価につなげている。各授業においても、ポリシーとの関連性を明確にするように要請している。授業外学習とコンピテンシー向上との関係や、評価のチューニングを今の課題としている。
（フロア）学位プログラムの評価、つまり学習成果を用いた評価をどう行うのか。そこに成績が結びつかないといけないと思うが、現状の成績評価はあまり厳格ではない。この点をどう考えるのか。
（濱名）コンピテンシー評価を３から４段階にするなど改善を図っている。２年生終了段階で専門的知識の到達度試験を受けさせ、通らなければ再試験ということにした。最終的には、卒業論文のなかで専門的知識をルーブリック評価できないかと思っている。ただ、全員には不可能であるので、サンプリングしたものをもとに成績評価の妥当性などを検証することや総合的なルーブリック評価の可能性を考えている。
（深堀）国際的な文脈では、生涯学習資格枠組みなど共有された枠組みやチューニングといった参照枠組みがあり、各大学の特徴がよくわかるようにあっている。日本の大学は枠組みが共有されておらず、各大学が独自に作成している。しかも、各大学の特徴も打ち出しにくくなっている。
（濱名）中教審の大学教育部会はその枠組みの話を今後行う。各大学の３ポリシーを比較すると、大規模大学は比較的よく書けているが各学部バラバラである。一本の枠組みというよりは、きちんとアセスメントできるものにするという方向性になると思う。

所感

発表者によりルーブリックの捉え方が異なることがうかがわれ、ルーブリック自体が日本ではまだ新しい概念であることや、ルーブリックの扱いの難しさがよく伝わってきました。特に、学位プログラムの評価に使用するというのはそのとおりだと思う一方、そもそも学位プログラムとは何でありそれは明確化できるものなのかという点も気になったところです。このあたりは、今後の中教審大学教育部会の審議を注視していきたいですね。
濱名先生から各フィールドの取組内容に対し厳しい意見（ダメ出し）が伝えられ、これが会全体を引き締める効果があったと感じました。その分野の専門家によるダメ出しの場を設けるということは、シンポジウムなどの構成としてはアリかもしれないと感じたところです。
会場はガラス張りであり、隣のスペースで学生が勉強している様子を見ることができました。学生と教職員が互いに勉強しているところを見ることができ、大学という場ならではだなととても感慨深い気持ちになるとともに、このような姿を目指していかなければならないと改めて感じたところです。

基調講演「学習成果をどう評価するか？－評価課題とルーブリックの開発－」（松下 京都大学高等教育研究開発推進センター教授）