pembelajaran mesinsistem rekomendasiumpan balik manusiaalgoritma pemeringkatankecerdasan buatan
Pembelajaran Preferensi Berpasangan vs Model Penilaian Absolut
Pembelajaran preferensi berpasangan melatih model dengan membandingkan dua item secara langsung untuk menentukan mana yang lebih disukai, sementara model penilaian absolut mengevaluasi item secara independen menggunakan skala peringkat tetap. Kedua pendekatan ini mendukung sistem rekomendasi, peringkat pencarian, dan penyelarasan preferensi manusia dalam sistem AI, tetapi keduanya berbeda secara mendasar dalam cara mereka menangkap dan merepresentasikan penilaian manusia.
Sorotan
Metode berpasangan menghilangkan masalah kalibrasi skala yang mengganggu peringkat absolut, karena 'A lebih baik daripada B' tidak memerlukan pemahaman numerik bersama.
Sistem penilaian absolut memungkinkan agregasi dan penentuan ambang batas yang mudah—sangat penting untuk keputusan moderasi konten yang membutuhkan batasan yang jelas.
Penyelarasan LLM modern sebagian besar bergantung pada preferensi berpasangan karena annotator manusia cenderung kurang berbeda pendapat ketika membandingkan output secara langsung.
Sistem Elo menunjukkan bagaimana hasil permainan berpasangan secara implisit dapat menghasilkan peringkat keterampilan absolut, menjembatani kedua pendekatan tersebut.
Apa itu Pembelajaran Preferensi Berpasangan?
Pendekatan pelatihan yang belajar dari perbandingan relatif antara pasangan item, bukan dari penilaian individual.
Berasal dari ilmu kognitif dan psikometri sebelum diadopsi dalam pembelajaran mesin.
Membentuk dasar dari RLHF (Reinforcement Learning from Human Feedback) modern dalam sistem seperti ChatGPT dan Claude.
Model Bradley-Terry (1952) menyediakan kerangka kerja matematika awal untuk analisis preferensi berpasangan.
Membutuhkan perbandingan O(n²) dalam kasus terburuk, meskipun pembelajaran aktif mengurangi hal ini secara signifikan.
Unggul dalam menangkap penilaian subjektif di mana skala absolut bervariasi antar individu.
Apa itu Model Penilaian Absolut?
Model yang memberikan skor numerik independen pada setiap item menggunakan kriteria penilaian yang konsisten.
Berlandaskan pada psikometri klasik dengan skala Likert dan metodologi pengujian standar.
Digunakan secara luas dalam moderasi konten, sistem penilaian produk, dan penilaian akademik.
Sistem peringkat bintang di Amazon, IMDB, dan Yelp mewakili implementasi penilaian absolut yang populer.
Biasanya diasumsikan adanya transitivitas dan penggunaan skala yang konsisten di semua penilai.
Aktifkan operasi aritmatika langsung: penghitungan rata-rata, penentuan ambang batas, dan agregasi statistik.
Tabel Perbandingan
Fitur
Pembelajaran Preferensi Berpasangan
Model Penilaian Absolut
Mekanisme Inti
Bandingkan dua barang, pelajari preferensi relatifnya.
Berikan skor independen untuk setiap item.
Persyaratan Skala
Preferensi ordinal atau biner sudah cukup.
Membutuhkan skala interval atau rasio yang telah dikalibrasi.
Konsistensi Penilai
Mampu mentolerir variasi skala individu.
Mengasumsikan interpretasi skala yang seragam
Asumsi Transitivitas
Memodelkan atau menguji transitivitas secara eksplisit.
Secara implisit mengasumsikan transitivitas
Biaya Komputasi
Lebih tinggi (kuadrat dalam jumlah item)
Lebih rendah (linier dalam jumlah item)
Upaya Manusia
Diperlukan lebih banyak perbandingan, tetapi masing-masing lebih mudah.
Diperlukan lebih sedikit penilaian, tetapi setiap penilaian lebih sulit.
Interpretasi Keluaran
Peringkat dan probabilitas
Skor numerik langsung
Kasus Penggunaan Terbaik
Preferensi subjektif, estetika, kualitas
Atribut objektif, kriteria yang jelas
Perbandingan Detail
Filsafat Fundamental
Pembelajaran preferensi berpasangan memperlakukan penilaian sebagai sesuatu yang pada dasarnya bersifat komparatif. Ketika Anda bertanya kepada seseorang apakah mereka lebih menyukai liburan A atau liburan B, mereka biasanya dapat menjawab dengan yakin. Namun, jika Anda meminta mereka untuk menilai setiap liburan pada skala 1-10, Anda akan mendapatkan hasil yang tidak konsisten. Sebaliknya, model penilaian absolut mengasumsikan bahwa kita dapat membangun tolok ukur universal yang ditafsirkan secara identik oleh semua orang. Perbedaan filosofis ini membentuk setiap keputusan selanjutnya dalam desain sistem.
Pengumpulan dan Anotasi Data
Mengumpulkan preferensi berpasangan seringkali terasa lebih ringan bagi pemberi anotasi. Mengklik 'kiri lebih baik' membutuhkan beban kognitif yang lebih sedikit daripada menetapkan nilai numerik yang tepat. Namun, Anda membutuhkan label berpasangan yang jauh lebih banyak untuk membuat peringkat yang lengkap. Pemberian skor absolut memungkinkan Anda untuk menggabungkan data yang jarang—jika sepuluh orang memberi peringkat film 7/10, Anda memiliki sinyal yang bermakna. Dengan perbandingan berpasangan, perbandingan yang hilang menciptakan celah dalam grafik peringkat Anda yang harus disimpulkan.
Landasan Matematika
Metode berpasangan terhubung dengan teori pilihan sosial dan algoritma pemeringkatan turnamen. Sistem peringkat Elo dalam catur menerjemahkan hasil permainan berpasangan menjadi skor kontinu. Pemberian skor absolut berasal dari teori tes klasik dan teori respons item, di mana sifat laten diperkirakan dari respons yang diamati. Pendekatan neural modern seperti model Bradley-Terry dengan embedding mendalam menggabungkan kedua tradisi tersebut.
Penerapan di Dunia Nyata
GPT-4 dari OpenAI dan Claude dari Anthropic sangat bergantung pada preferensi manusia secara berpasangan selama pelatihan RLHF. Annotator manusia membandingkan keluaran model, dan data preferensi tersebut menyempurnakan model penghargaan. Netflix secara historis menggunakan peringkat bintang (absolut) tetapi beralih ke jempol ke atas/bawah (secara efektif berpasangan) setelah menemukan bahwa yang terakhir menghasilkan sinyal yang lebih andal. Peringkat Google Search menggabungkan keduanya: nilai relevansi absolut untuk pasangan kueri-dokumen, ditambah eksperimen interleaving berpasangan untuk evaluasi langsung.
Ketahanan dan Mode Kegagalan
Penilaian absolut akan runtuh ketika penilai menggunakan skala yang berbeda—nilai 5/10 bagi satu orang mungkin sama dengan nilai 7/10 bagi orang lain. Metode berpasangan kebal terhadap masalah penskalaan monotonik ini tetapi rentan terhadap preferensi intransitif. Jika A mengalahkan B, B mengalahkan C, namun C mengalahkan A, model harus menyelesaikan siklus ini. Preferensi manusia yang sebenarnya sering melanggar transitivitas, menciptakan tantangan filosofis dan praktis yang nyata bagi kedua pendekatan tersebut.
Pendekatan Hibrida
Sistem yang lebih canggih semakin menggabungkan kedua paradigma tersebut. Skor absolut memberikan acuan; perbandingan berpasangan menyempurnakan peringkat. Beberapa platform mengumpulkan peringkat absolut tetapi melatih model berpasangan dengan menghasilkan pasangan perbandingan secara dinamis dari distribusi peringkat. Strategi hibrida ini berupaya untuk menggabungkan efisiensi pengumpulan absolut dengan kekokohan pembelajaran berpasangan.
Kelebihan & Kekurangan
Pembelajaran Preferensi Berpasangan
Keuntungan
+Tahan terhadap variasi skala penilai.
+Tugas anotasi yang lebih mudah
+Menangkap nuansa subjektif
+Sangat cocok untuk RLHF
+Menghindari penetapan ambang batas yang sewenang-wenang
Tersisa
−Pertumbuhan perbandingan kuadratik
−Tantangan pemeringkatan yang tidak lengkap
−Penanganan preferensi intransitif
−Lebih sulit dijelaskan kepada pengguna.
−Biasanya dibutuhkan lebih banyak data.
Model Penilaian Absolut
Keuntungan
+Keluaran numerik langsung
+Pengumpulan data yang efisien
+Metode agregasi sederhana
+Aplikasi ambang batas yang jelas
+Antarmuka pengguna yang familiar
Tersisa
−Interpretasi skala bervariasi
−Efek penjangkaran umum
−Perbandingan yang lebih sulit antar penilai
−Masalah granularitas paksa
−Kurang dapat diandalkan untuk item subjektif.
Kesalahpahaman Umum
Mitologi
Metode berpasangan selalu membutuhkan lebih banyak data daripada penilaian absolut.
Realitas
Meskipun jumlah perbandingan berpasangan meningkat secara kuadratik, setiap anotasi menjadi lebih cepat dan lebih andal. Studi dalam crowdsourcing menunjukkan bahwa untuk target akurasi yang setara, total waktu anotasi sering kali lebih menguntungkan metode berpasangan. Efisiensi sangat bergantung pada strategi pembelajaran aktif yang memilih pasangan yang paling informatif.
Mitologi
Skor absolut lebih mudah diinterpretasikan karena berupa angka.
Realitas
Nilai '7 dari 10' tampak konkret, tetapi maknanya berubah secara dramatis di berbagai budaya, konteks, dan suasana hati individu. Penelitian tentang inflasi peringkat menunjukkan bahwa pengguna Netflix yang sebelumnya memberi 3 bintang sekarang memberi jempol untuk konten yang identik. Peringkat berpasangan sering kali lebih stabil dalam mencerminkan perilaku pengguna yang sebenarnya.
Mitologi
Anda dapat dengan mudah mengkonversi skor absolut menjadi peringkat berpasangan.
Realitas
Perbandingan skor sederhana mengabaikan ketidakpastian dan kepercayaan. Dua item yang diberi nilai 7,0 dan 7,1 mungkin secara statistik tidak dapat dibedakan, namun konversi yang naif memaksakan pengurutan. Konversi yang tepat memerlukan pemodelan varians peringkat, yang memperkenalkan kembali kompleksitas yang secara alami ditangani oleh metode berpasangan.
Mitologi
Preferensi manusia pada dasarnya bersifat transisi.
Realitas
Penelitian psikologis secara konsisten menunjukkan intransitivitas dalam preferensi nyata. Orang mungkin lebih menyukai pizza berukuran besar karena harga, ukuran sedang karena kemudahan, namun ukuran kecil karena alasan kesehatan—menciptakan siklus. Kedua pendekatan pemodelan harus menangani atau mengabaikan realitas ini, dengan metode berpasangan memiliki alat yang lebih eksplisit untuk melakukannya.
Mitologi
Metode berpasangan hanya berlaku untuk preferensi biner.
Realitas
Kerangka kerja berpasangan modern menangani preferensi bertingkat, urutan parsial, dan bahkan perbandingan multi-aspek. Label 'berpasangan' merujuk pada struktur perbandingan, bukan format respons. Pemberi anotasi dapat mengekspresikan kekuatan preferensi, ketidakpastian, atau penilaian multi-dimensi dalam kerangka kerja berpasangan.
Pertanyaan yang Sering Diajukan
Mengapa Netflix beralih dari peringkat bintang ke jempol ke atas/ke bawah?
Netflix menemukan bahwa peringkat bintang eksplisit kurang akurat dalam memprediksi perilaku menonton yang sebenarnya. Pengguna mungkin memberi peringkat 5 bintang pada film seni tetapi menonton sitkom secara maraton. Sistem jempol, meskipun lebih kasar, menghasilkan sinyal preferensi yang lebih andal untuk algoritma rekomendasi mereka. Ini menggambarkan pola yang lebih luas: preferensi berpasangan atau biner seringkali berkorelasi lebih baik dengan preferensi yang terungkap daripada peringkat absolut.
Bagaimana cara kerja pembelajaran preferensi berpasangan dalam pelatihan ChatGPT?
Selama RLHF, annotator manusia membandingkan beberapa keluaran model untuk perintah yang sama dan menunjukkan mana yang lebih baik. Perbandingan ini melatih model penghargaan yang memprediksi preferensi manusia. Model penghargaan kemudian memandu penyempurnaan melalui pembelajaran penguatan. Pendekatan berpasangan ini sangat penting karena penilaian absolut langsung terhadap kualitas percakapan terbukti tidak dapat diandalkan di antara para annotator.
Apakah penilaian absolut dapat mengungguli metode berpasangan?
Tentu saja. Saat mengevaluasi atribut objektif dan terukur—resolusi gambar, kecepatan pemuatan, akurasi faktual—skala absolut dengan kriteria yang jelas seringkali sudah cukup dan membutuhkan lebih sedikit data. Penilaian diagnostik medis, kontrol kualitas manufaktur, dan banyak aplikasi teknik mendapat manfaat dari kerangka kerja absolut. Kuncinya adalah mencocokkan metode dengan jenis penilaian.
Apa itu model Bradley-Terry dan mengapa model ini penting?
Model Bradley-Terry menetapkan parameter 'kekuatan' laten untuk setiap item, kemudian memodelkan probabilitas bahwa satu item mengalahkan item lain menggunakan fungsi logistik dari perbedaan kekuatan mereka. Ini adalah tulang punggung matematis yang menghubungkan hasil berpasangan dengan peringkat kontinu. Varian pembelajaran mendalam modern menyematkan item ke dalam ruang vektor di mana jarak mengkodekan probabilitas preferensi.
Bagaimana Anda menangani preferensi intransitif dalam sistem berpasangan?
Terdapat beberapa strategi: mendeteksi dan mengecualikan pemberi anotasi yang tidak konsisten, memodelkan noise secara eksplisit dalam model preferensi, atau menggunakan urutan parsial daripada memaksakan peringkat lengkap. Beberapa metode canggih memperlakukan intransitivitas sebagai sinyal—menunjukkan pengambilan keputusan multi-kriteria daripada kesalahan—dan memodelkannya dengan model campuran atau preferensi yang bergantung pada konteks.
Mengapa Elo dianggap sebagai sistem preferensi berpasangan?
Pemain catur tidak pernah menerima 'skor keterampilan catur' absolut secara langsung. Sebaliknya, hasil permainan (perbandingan berpasangan) memperbarui peringkat Elo mereka. Perbedaan peringkat antara dua pemain memprediksi probabilitas kemenangan. Sistem elegan ini, yang dikembangkan oleh Arpad Elo pada tahun 1960, menunjukkan bagaimana pengamatan berpasangan yang berulang dapat secara implisit menghasilkan skala absolut yang bermakna.
Apakah peringkat absolut benar-benar hilang dalam AI modern?
Tidak sama sekali. Peringkat absolut tetap umum digunakan dalam ulasan produk, toko aplikasi, dan riset survei. Banyak sistem hibrida menggunakan peringkat absolut untuk penyaringan awal dan metode berpasangan untuk pemeringkatan yang lebih rinci. Pilihannya bergantung pada keputusan spesifik yang dibuat dan biaya kesalahan anotasi.
Bagaimana pembelajaran aktif mengurangi biaya perbandingan berpasangan?
Alih-alih membandingkan semua pasangan yang mungkin, algoritma pembelajaran aktif memilih perbandingan yang paling informatif berdasarkan ketidakpastian model saat ini. Jika model sudah sangat lebih menyukai A daripada B, membandingkannya lagi akan membuang-buang upaya. Seleksi strategis dapat mengurangi perbandingan yang dibutuhkan dari O(n²) menjadi O(n log n) atau lebih baik sambil mempertahankan akurasi peringkat.
Apa yang membuat anotasi berpasangan 'lebih mudah' bagi manusia?
Penelitian ilmu kognitif menunjukkan bahwa penilaian komparatif membutuhkan memori kerja yang lebih sedikit daripada evaluasi absolut. Saat menilai film secara absolut, Anda harus mengingat seluruh skala kualitas dan memetakan film tersebut ke skala tersebut. Saat membandingkan dua film, Anda hanya perlu menentukan mana yang lebih memenuhi kriteria Anda. Beban kognitif yang berkurang ini sering menghasilkan hasil yang lebih konsisten.
Bisakah metode-metode ini digabungkan dalam satu sistem?
Semakin sering, ya. Beberapa platform mengumpulkan peringkat absolut tetapi memperoleh data pelatihan berpasangan dari peringkat tersebut. Platform lain menggunakan skor absolut untuk pengelompokan kasar, kemudian perbandingan berpasangan di dalam kelompok. Penelitian tentang 'belajar memberi peringkat' sering menggabungkan pendekatan poin (absolut), berpasangan, dan daftar, dengan kombinasi optimal bergantung pada ketersediaan data dan persyaratan tugas.
Apa saja metrik evaluasi utama untuk setiap pendekatan?
Metode berpasangan umumnya menggunakan tau Kendall, perolehan kumulatif terdiskonto yang dinormalisasi (NDCG), atau akurasi dalam memprediksi preferensi yang ditahan. Penilaian absolut menggunakan kesalahan kuadrat rata-rata, korelasi Pearson, atau metrik kalibrasi. Yang penting, model berpasangan dapat dievaluasi berdasarkan kualitas absolut dari peringkat yang dihasilkannya, dan sebaliknya—meskipun ini memerlukan pemilihan metrik yang cermat.
Bagaimana perbedaan budaya memengaruhi pendekatan-pendekatan ini?
Gaya respons budaya sangat memengaruhi peringkat absolut. Beberapa budaya menghindari skor ekstrem, menekan peringkat ke arah tengah. Budaya lain menggunakan skala secara berbeda berdasarkan norma kesopanan. Metode berpasangan agak lebih kuat terhadap efek ini karena hanya membutuhkan penilaian relatif, meskipun preferensi budaya itu sendiri masih bervariasi. Platform global harus mempertimbangkan kedua fenomena ini dalam pengumpulan data dan desain model mereka.
Putusan
Pilih pembelajaran preferensi berpasangan saat menangkap penilaian subjektif manusia—kualitas rekomendasi, kebermanfaatan konten, atau preferensi estetika—di mana skala individu bervariasi secara tidak terduga. Pilih penilaian absolut saat mengevaluasi atribut objektif dan terdefinisi dengan baik dengan kriteria yang stabil, atau saat Anda memerlukan operasi aritmatika pada output. Banyak sistem produksi sekarang menggabungkan keduanya: peringkat absolut untuk penyaringan kasar, penyempurnaan berpasangan untuk peringkat akhir.