批判的思考評価教育評価方法心理測定学

比較判断と独立評価

比較判断と独立評価は、批判的思考の文脈における質の評価において、2つの異なるアプローチを示す。比較判断は作品間の相対的な比較に基づいているのに対し、独立評価は各項目に個別に適用される絶対的な基準を用いる。どちらの方法も、教育および研究の現場で実績がある。

ハイライト

比較判断ではペアワイズ比較を用いるのに対し、独立評価では絶対的なルーブリックを適用する。
ブラッドリー・テリーのような統計モデルは、比較判断の信頼性を支えている。
標準化された試験や資格認定の分野では、独立した評価が主流となっている。
比較判断は、集計された比較を通じて個々の評価者の偏りを軽減する。

比較判断とは？

評価者が2つの項目を比較し、より優れた方を選択する相対評価方法。

1920年代にサーストンの比較判断の法則から発展した
絶対的なスコアリングスケールではなく、ペアワイズ比較を使用する
ブラッドリー・テリーモデルを利用して、ペアワイズ選択をランキングに変換する。
統計的信頼性を確保するためには、複数の審査員が多数の比較を行う必要がある。
英国の教育制度において、生徒の作文能力を評価するために広く採用されている。

独立評価とは？

各項目を固定された基準に基づいて個別に評価する、絶対評価方式。

伝統的な心理測定理論に基づいている
各項目に個別に適用されるルーブリック、チェックリスト、または評価尺度を使用する
あらかじめ定められた基準との直接比較を可能にする
世界中のほとんどの標準化されたテストフレームワークの基礎を形成している。
明確なベンチマークが既に存在する場合に、より迅速な評価を可能にする

比較表

機能	比較判断	独立評価
評価タイプ	相対的（ペアワイズ比較）	絶対的（基準に基づく）
採点方法	審査員は2つのアイテムのうちより良い方を選ぶ	各項目は定められた評価基準に基づいて採点される。
統計モデル	ブラッドリー・テリーモデルまたはサーストンモデル	古典的テスト理論または項目反応理論
裁判官の業務量	高い（多くの比較が必要）	中程度（項目ごとに1つの評価）
バイアス耐性	個々の裁判官の偏見に強く反対する	個々の評価者の評価のずれに影響を受けやすい
最適な使用例	総合的な品質評価	標準規格に基づく認証
フィードバック速度	比較量が多いため処理速度が遅くなります	確立された評価基準により、より迅速に
信頼性情報源	審査員間の多くの比較	調整済みの評価基準と訓練を受けた評価者

詳細な比較

コアメソッド

根本的な違いは、それぞれの評価方法における品質へのアプローチ方法にある。比較判断では、評価者は2つの項目を並べてどちらが優れているかを判断し、絶対的な点数を割り当てる難しさを回避する。一方、独立評価では、評価者は各項目をあらかじめ定められた基準または尺度に基づいて採点し、提出されたすべての項目を独立した事例として扱う。

信頼性と一貫性

比較評価は、膨大な数のペアワイズ比較によって信頼性を高め、統計モデルによって個々の評価者の癖を平滑化します。一方、独立評価は評価基準の明確さと評価者のトレーニングに大きく依存するため、評価プロセスに調整セッションを組み込まない限り、評価者間で一貫性が大きく異なる可能性があります。

実用的応用

教育現場では、比較判断法は、チェックリストへの準拠よりも総合的な質が重視される作文ポートフォリオの評価において、ますます注目を集めている。一方、独立評価法は、標準化されたテスト、専門資格認定、および合否判定が固定された能力基準に合致する必要があるあらゆる場面において、依然として主流となっている。

長所と短所

比較評価は、ルーブリックでは捉えきれない微妙な品質の違いを捉えるのに優れていますが、統計的に有意な結果を得るにはより多くの時間とより多くの審査員が必要です。独立評価は迅速で明確な基準を提供しますが、複雑な作業をチェックリストのスコアに還元してしまうため、全体的な品質という大きな視点を見失う可能性があります。

研究支援

英国の研究によると、比較判断は従来の採点方法と同等の評価者間信頼性を持ちながら、全体的に迅速な評価が可能であることが示されています。独立評価は、ブルームの分類法や現代の能力ベースの評価モデルといった枠組みを通して、数十年にわたる心理測定学的研究によってその妥当性が裏付けられています。

長所と短所

比較判断

長所

+ 個人の偏見を軽減する
+ 総合的な品質を捉える
+ 強力な統計的裏付け
+ 自然な意思決定プロセス

コンス

− 時間のかかるセットアップ
− 多くの裁判官が必要
− 説明するのが難しい
− もっと比較が必要だ

独立評価

長所

+ 明確な基準
+ より迅速な対応
+ 広く理解されている
+ 標準化しやすい

コンス

− 評価基準への依存
− 評価者ドリフトのリスク
− 過度に単純化できる
− ニュアンスが捉えられていない

よくある誤解

神話

比較判断は、裁判官間の単なる人気投票に過ぎない。

現実

この手法は、高度な統計モデルを用いて多数の独立した比較を集約し、個々の判断者の偏りを排除します。十分な数の比較対象者と人数があれば、得られるランキングは、特定の審査員の好みではなく、真の品質差を反映したものとなります。

神話

独立評価は、評価基準を用いるため、完全に客観的である。

現実

詳細な評価基準があっても、採点のあらゆる段階で人間の判断が主観性を持ち込む。評価基準は、評価者が実際の作品に基準を適用する際に下す解釈上の選択を減らすことはできるが、完全に排除することはできない。

神話

比較判断は学習者へのフィードバックを提供することはできません。

現実

最新のシステムでは、どの項目が常に高い評価を得ているかを分析し、上位にランクインした作品と下位にランクインした作品を区別する特徴を特定することで、詳細なフィードバックを生成できる。

神話

独立評価は、より新しい方法と比較すると時代遅れである。

現実

医療免許、法律資格、標準化された試験など、重大な結果が伴う場面では、独立した評価が依然として最高水準の基準となっている。なぜなら、人命や資格が左右される状況では、絶対的な基準が重要となるからである。

よくある質問

比較判断と独立評価の主な違いは何ですか？

比較判断では、評価者は2つの項目を比較してより優れた方を選択するのに対し、独立評価では、各項目を定められた基準または尺度に基づいて採点します。前者は相対的な評価であり、後者は絶対的な評価です。

学生の作文能力を評価する上で、どちらの方法がより信頼性が高いでしょうか？

英国の教育制度に関する研究によると、どちらの方法も高い信頼性を達成できるが、比較判断は絶対採点のばらつきを回避できるため、評価者間でより一貫性のある結果が得られることが多い。独立評価は、厳密なルーブリック調整によってこれに匹敵する信頼性を実現できる。

比較判断が機能するためには、いくつの比較が必要ですか？

ほとんどの実装では、各項目を異なる審査員間で少なくとも10回から15回比較する必要があります。提出物が30件の場合、統計的に意味のあるランキングを生成するには、合計で約200回から300回の比較が必要になります。

比較評価は、従来の成績評価を完全に置き換えることができるだろうか？

状況によっては、確かにそうです。No More Markingプラットフォームを採用している学校では、従来のエッセイ採点方式を比較評価方式に置き換えています。ただし、この方式は、重要な資格認定よりも、形成的評価や総合的な評価に最適です。

標準化テストでは、なぜ今でも独立評価が用いられるのか？

標準化されたテストには、特定の能力に基づいた明確な合格／不合格基準が必要です。独立評価は資格認定に必要な絶対的な基準値を提供するのに対し、比較判断は相対的な順位しか示しません。

比較評価は従来の採点方法よりも速いですか？

意外に思えるかもしれないが、答えはイエスだ。それぞれの比較はわずか数秒で済むが、集計方式を採用することで全体の採点時間が短縮される。なぜなら、審査員は複雑な作品に絶対点数をつけるよりも、2つの項目を比較する方が迅速に判断できるからだ。

独立評価を行う審査員には、どのような研修が必要ですか？

評価者は通常、評価基準をサンプル作品に適用する練習や、評価基準の相違点について話し合うための調整セッションを必要とします。ほとんどのプログラムでは、一貫性を維持するために、数時間の研修に加え、継続的な品質チェックが求められます。

両方の方法を組み合わせて1つの評価を行うことは可能ですか？

もちろんです。多くの教育者は、基準に照らし合わせて初期選別を行う際に独立評価法を用い、基準を満たした項目の中から最終的な順位付けを行う際に比較判断法を適用しています。このハイブリッドなアプローチは、両方の方法の長所を活かしたものです。

批判的思考力の評価には、どちらの方法がより適しているでしょうか？

比較判断は、思考をチェックリスト項目に還元するのではなく、総合的な判断を反映するため、批判的思考の質をより包括的に捉える傾向がある。独立評価は、批判的思考の構成要素を明確に定義し、分離できる場合に有効である。

比較判断は、作文以外の科目にも有効でしょうか？

はい、数学の問題解決、科学調査、美術作品のポートフォリオ、さらにはプログラミング課題にも応用されています。総合的な質が重要なあらゆる場面で、ペアワイズ比較は有用なランキングを生み出すことができます。

評決

複数の提出物全体にわたる総合的な品質を評価する場合は、比較判断を選択してください。訓練を受けた複数の審査員が、多数の比較を行います。一方、独立評価は、認定試験や能力チェックなど、明確な正解がある確立された基準に基づいて迅速な判断が必要な場合に適しています。

比較判断と独立評価

ハイライト

比較判断とは？

独立評価とは？

比較表

詳細な比較

コアメソッド

信頼性と一貫性

実用的応用

長所と短所

研究支援

長所と短所

比較判断

長所

コンス

独立評価

長所

コンス

よくある誤解

よくある質問

評決

関連する比較

ゲームにおける戦略的思考 vs 直感的な意思決定

データの真実性 vs 視覚的表現

シグナルオーバーストーリー vs ストーリーオーバーシグナル

シンプルさ vs 複雑さ

なぜそうなのかを理解することと、どのようにすればいいのかを知ることの違い