教育教育学学生評価K12教育

標準化テストと形成的評価

標準化されたテストは、生徒の学習成果を全国的なベンチマークと比較した高レベルのスナップショットを提供する一方、形成的評価は日々の学習のGPSとして機能します。前者はカリキュラムの最終目標を測り、後者は実際の指導プロセスにおいて、課題を乗り越え、生徒の理解を深めるために必要なリアルタイムのフィードバックを提供します。

ハイライト

標準化されたテストは学習の「程度」を測定しますが、形成的評価は学習の「程度」を測定します。
形成的学習法では、教室内で即座に進路を修正することができます。
標準化されたスコアは、政策や資金の決定に必要な俯瞰的な視点を提供します。
形成的評価は、失敗のリスクを下げることで生徒の不安を軽減します。

標準化されたテストとは？

大規模な集団間で生徒の成績を比較するために、一貫した方法で実施され、採点される統一された試験。

統計的な信頼性を確保するために、テストはすべての学生に対して同一になるように設計されています。
結果によって、学校の資金、教師の評価、卒業資格が決まることがよくあります。
質問は通常、機械による迅速な採点を可能にするために、複数選択形式または短い回答形式になっています。
評価は通常、学年または特定の学年の終わりに行われます。
データは主に政策立案者や管理者によって高レベルの監視のために使用されます。

形成的評価とは？

教師が指導を適応させ、生徒の学習をリアルタイムで向上させるために使用する継続的な指導チェック。

方法には、出口チケット、シンク・ペア・シェア、低リスクのクイズなどがあります。
フィードバックは、単なる数値スコアではなく、即時かつ説明的なものです。
主な目標は、トピックを教えている間に学習のギャップを特定することです。
評価は非公式に行われることが多く、毎日の授業計画に自然に組み込まれます。
生徒の進歩は、同級生グループではなく個人の成長に対して測定されます。

比較表

機能	標準化されたテスト	形成的評価
主な目的	説明責任とランキング	学習と成長
頻度	毎年または半年ごと	毎日または毎週
ステークホルダー	州/全国委員会	教師と生徒
フィードバック速度	数ヶ月後	即時または翌日
賭け金のレベル	高（資金／卒業）	低（無グレードまたは低グレード）
形式	堅固で構造化された	柔軟性と多様性
料金	高価（ベンダーベース）	最小限（教師作成）

詳細な比較

評価のタイミング

標準テストは本質的に総括的なものであり、単元または学年を終えた時点での学習の剖検のような役割を果たします。一方、形成的評価は健康診断のような役割を果たし、生徒が概念を理解していない場合、教師は「指導」や授業計画を即座に変更することができます。形成的評価は、これまでの学習成果を振り返り、形成的評価は、次に何が必要かを見据えた評価です。

教室での指導への影響

形成的評価は授業に深く組み込まれており、指導者と生徒の会話の自然な一部のように感じられることがよくあります。しかしながら、標準化されたテストでは、教師が通常のカリキュラムを数週間中断し、受験戦略に集中する必要が生じることがよくあります。この「テストのための指導」は標準化されたシステムの特徴ですが、形成的学習では、永久記録を恐れることなく、探求と試行錯誤を促します。

データとフィードバックループ

生徒が標準テストを終えると、そのデータはしばしば州のデータベースに消えてしまい、数ヶ月後にパーセンタイル順位として戻ってくる。形成的評価は即時のフィードバックループによって効果を発揮する。例えば、教師は簡単なアンケートで5人の生徒が無表情なのを見て、その場で講義の最後の10分をもう一度教え直すことを決めるかもしれない。これにより、生徒は誤解が深く根付く前に、自らの誤解を正すことができる。

標準化とパーソナライゼーション

標準化されたテストの最大の強みは、異なる人口統計や地域を「同一条件」で比較できることです。形成的評価では、こうした大まかな比較は無視し、徹底的な個別化を重視します。ある生徒は視覚的な補助教材を必要とし、別の生徒は実践的な活動を必要とする場合があることを認識し、教師は教室にいるすべての生徒に個別指導を行うために必要な具体的なデータを得ることができます。

長所と短所

標準化されたテスト

長所

+ 客観的な比較指標
+ 達成ギャップを特定する
+ カリキュラムの整合性を確保する
+ 高い信頼性

コンス

− 学生のストレスが増大
− カリキュラムを絞り込む
− 遅延フィードバック
− 文化的偏見の可能性

形成的評価

長所

+ 生徒の自信を育む
+ 即時の指導調整
+ ストレスの少ない環境
+ 高度にパーソナライズされた

コンス

− 教師にとって時間のかかる
− 大規模に追跡するのは困難
− 主観的な評価
− 専門家のトレーニングが必要

よくある誤解

神話

標準化されたテストは学校の質を測る唯一の方法です。

現実

これらのテストは特定の日のパフォーマンスを示すものですが、建物内で行われている実際の指導の質よりも、コミュニティの社会経済的地位を反映することが多いです。

神話

形成的評価は単なる抜き打ちテストの別名です。

現実

抜き打ちの小テストは形成的なものになり得ますが、真の形成的評価には、口頭での質問、ピア編集、自己反省演習などの採点されないアクティビティが含まれます。

神話

標準化されたテストは生徒が間違いから学ぶのに役立ちます。

現実

生徒が間違えた具体的な問題やその理由を知ることはほとんどないため、これらのテストは学習者自身にとってほとんど教育的価値がありません。

神話

遠隔学習環境では形成的評価を行うことはできません。

現実

アンケート、チャットベースのチェックイン、インタラクティブなスライドデッキなどのデジタルツールにより、仮想教室での形成的フィードバックがこれまで以上に簡単かつ迅速になりました。

よくある質問

標準化されたテストは実際に生徒の成績を向上させるのでしょうか?

証拠は様々です。成績不振の学校に注目を集め、生徒が知っておくべき知識の基準を設定する一方で、本質的には教材を教えるものではありません。生徒の成績向上は、テストを受けるという行為自体ではなく、問題を特定した後に実施される指導方法の変更によってもたらされる場合がほとんどです。

形成的評価は成績評価に使用できますか?

理想的には、形成的評価は「リスクなし」、あるいは「リスクが非常に低い」ものであるべきです。形成的課題に高い点数をつけると、生徒はリスクを負うことを恐れたり、混乱していることを認めようとしなくなり、本来の目的が損なわれてしまいます。形成的評価は、成績表の集計というよりも、教師のためのロードマップとして活用する方が適切です。

標準化されたテストはそれほど議論の余地があるのに、なぜいまだに使用されているのでしょうか?

これらは、数百万人の生徒のデータを同時に収集する最も効率的かつ費用対効果の高い方法です。これらがなければ、政府はリソースをどこに配分すべきか、あるいは複数の州や学区にまたがる教育システムの体系的な欠陥をどのように特定すべきかを把握することが極めて困難になるでしょう。

こんなに忙しいスケジュールの中で、教師たちはどうやって形成的評価のための時間を見つけるのでしょうか?

効果的な教師は、理解を深めることを余計な課題にするのではなく、授業の中に組み込んでいきます。生徒に親指を立てて（上、横、下のいずれかに）概念を理解したことを示すように指示するなど、簡単なことでも構いません。これは5秒かかりますが、非常に重要な情報を提供します。

標準化されたテストにおける「ウォッシュバック」とは何ですか?

ウォッシュバックとは、テストが教育と学習に与える影響を指します。肯定的なウォッシュバックは、特定の科目のより厳格な学習を促す可能性がありますが、否定的なウォッシュバックは、カリキュラムを試験範囲のみに限定し、芸術、体育、ソフトスキルなどを無視することにつながることがよくあります。

形成的評価は進捗を測定するのに信頼できるのでしょうか?

個々の教師のニーズには非常に高い信頼性がありますが、個別化され、多様化しているため、異なる都市の生徒同士を比較するには信頼性に欠けます。生徒を曲線でランク付けするのではなく、時間の経過に伴う成長を測定するものです。

形成的評価の一般的な例にはどのようなものがありますか?

一般的な例としては、生徒が帰る前に学んだことを 1 つ書く「Exit Tickets」、隣の生徒とアイデアを話し合う「Think-Pair-Share」、ガイド付きのグループ対話で複雑なトピックを探る「ソクラテス式セミナー」などがあります。

テクノロジーは標準化されたテストをどのように変えましたか?

現代の標準テストは多くの場合「適応型」です。つまり、コンピュータが前の問題の正答率に基づいて次の問題の難易度を調整します。これにより、紙のテストよりも短時間で、生徒の能力レベルをより正確に測定できます。

評決

標準化されたテストは、幅広い教育水準を維持し、体系的な不平等を大規模に特定するために不可欠です。しかし、子どもたちの理解と自信を高めるための日々の取り組みにおいては、形成的評価こそが教師にとってはるかに強力なツールとなります。