pembelajaran mesinsistem rekomendasiumpan balik manusiaalgoritma pemeringkatankecerdasan buatan

Pembelajaran Preferensi Berpasangan vs Model Penilaian Absolut

Pembelajaran preferensi berpasangan melatih model dengan membandingkan dua item secara langsung untuk menentukan mana yang lebih disukai, sementara model penilaian absolut mengevaluasi item secara independen menggunakan skala peringkat tetap. Kedua pendekatan ini mendukung sistem rekomendasi, peringkat pencarian, dan penyelarasan preferensi manusia dalam sistem AI, tetapi keduanya berbeda secara mendasar dalam cara mereka menangkap dan merepresentasikan penilaian manusia.

Sorotan

Metode berpasangan menghilangkan masalah kalibrasi skala yang mengganggu peringkat absolut, karena 'A lebih baik daripada B' tidak memerlukan pemahaman numerik bersama.
Sistem penilaian absolut memungkinkan agregasi dan penentuan ambang batas yang mudah—sangat penting untuk keputusan moderasi konten yang membutuhkan batasan yang jelas.
Penyelarasan LLM modern sebagian besar bergantung pada preferensi berpasangan karena annotator manusia cenderung kurang berbeda pendapat ketika membandingkan output secara langsung.
Sistem Elo menunjukkan bagaimana hasil permainan berpasangan secara implisit dapat menghasilkan peringkat keterampilan absolut, menjembatani kedua pendekatan tersebut.

Apa itu Pembelajaran Preferensi Berpasangan?

Pendekatan pelatihan yang belajar dari perbandingan relatif antara pasangan item, bukan dari penilaian individual.

Berasal dari ilmu kognitif dan psikometri sebelum diadopsi dalam pembelajaran mesin.
Membentuk dasar dari RLHF (Reinforcement Learning from Human Feedback) modern dalam sistem seperti ChatGPT dan Claude.
Model Bradley-Terry (1952) menyediakan kerangka kerja matematika awal untuk analisis preferensi berpasangan.
Membutuhkan perbandingan O(n²) dalam kasus terburuk, meskipun pembelajaran aktif mengurangi hal ini secara signifikan.
Unggul dalam menangkap penilaian subjektif di mana skala absolut bervariasi antar individu.

Apa itu Model Penilaian Absolut?

Model yang memberikan skor numerik independen pada setiap item menggunakan kriteria penilaian yang konsisten.

Berlandaskan pada psikometri klasik dengan skala Likert dan metodologi pengujian standar.
Digunakan secara luas dalam moderasi konten, sistem penilaian produk, dan penilaian akademik.
Sistem peringkat bintang di Amazon, IMDB, dan Yelp mewakili implementasi penilaian absolut yang populer.
Biasanya diasumsikan adanya transitivitas dan penggunaan skala yang konsisten di semua penilai.
Aktifkan operasi aritmatika langsung: penghitungan rata-rata, penentuan ambang batas, dan agregasi statistik.

Tabel Perbandingan

Fitur	Pembelajaran Preferensi Berpasangan	Model Penilaian Absolut
Mekanisme Inti	Bandingkan dua barang, pelajari preferensi relatifnya.	Berikan skor independen untuk setiap item.
Persyaratan Skala	Preferensi ordinal atau biner sudah cukup.	Membutuhkan skala interval atau rasio yang telah dikalibrasi.
Konsistensi Penilai	Mampu mentolerir variasi skala individu.	Mengasumsikan interpretasi skala yang seragam
Asumsi Transitivitas	Memodelkan atau menguji transitivitas secara eksplisit.	Secara implisit mengasumsikan transitivitas
Biaya Komputasi	Lebih tinggi (kuadrat dalam jumlah item)	Lebih rendah (linier dalam jumlah item)
Upaya Manusia	Diperlukan lebih banyak perbandingan, tetapi masing-masing lebih mudah.	Diperlukan lebih sedikit penilaian, tetapi setiap penilaian lebih sulit.
Interpretasi Keluaran	Peringkat dan probabilitas	Skor numerik langsung
Kasus Penggunaan Terbaik	Preferensi subjektif, estetika, kualitas	Atribut objektif, kriteria yang jelas

Perbandingan Detail

Filsafat Fundamental

Pembelajaran preferensi berpasangan memperlakukan penilaian sebagai sesuatu yang pada dasarnya bersifat komparatif. Ketika Anda bertanya kepada seseorang apakah mereka lebih menyukai liburan A atau liburan B, mereka biasanya dapat menjawab dengan yakin. Namun, jika Anda meminta mereka untuk menilai setiap liburan pada skala 1-10, Anda akan mendapatkan hasil yang tidak konsisten. Sebaliknya, model penilaian absolut mengasumsikan bahwa kita dapat membangun tolok ukur universal yang ditafsirkan secara identik oleh semua orang. Perbedaan filosofis ini membentuk setiap keputusan selanjutnya dalam desain sistem.

Pengumpulan dan Anotasi Data

Mengumpulkan preferensi berpasangan seringkali terasa lebih ringan bagi pemberi anotasi. Mengklik 'kiri lebih baik' membutuhkan beban kognitif yang lebih sedikit daripada menetapkan nilai numerik yang tepat. Namun, Anda membutuhkan label berpasangan yang jauh lebih banyak untuk membuat peringkat yang lengkap. Pemberian skor absolut memungkinkan Anda untuk menggabungkan data yang jarang—jika sepuluh orang memberi peringkat film 7/10, Anda memiliki sinyal yang bermakna. Dengan perbandingan berpasangan, perbandingan yang hilang menciptakan celah dalam grafik peringkat Anda yang harus disimpulkan.

Landasan Matematika

Metode berpasangan terhubung dengan teori pilihan sosial dan algoritma pemeringkatan turnamen. Sistem peringkat Elo dalam catur menerjemahkan hasil permainan berpasangan menjadi skor kontinu. Pemberian skor absolut berasal dari teori tes klasik dan teori respons item, di mana sifat laten diperkirakan dari respons yang diamati. Pendekatan neural modern seperti model Bradley-Terry dengan embedding mendalam menggabungkan kedua tradisi tersebut.

Penerapan di Dunia Nyata

GPT-4 dari OpenAI dan Claude dari Anthropic sangat bergantung pada preferensi manusia secara berpasangan selama pelatihan RLHF. Annotator manusia membandingkan keluaran model, dan data preferensi tersebut menyempurnakan model penghargaan. Netflix secara historis menggunakan peringkat bintang (absolut) tetapi beralih ke jempol ke atas/bawah (secara efektif berpasangan) setelah menemukan bahwa yang terakhir menghasilkan sinyal yang lebih andal. Peringkat Google Search menggabungkan keduanya: nilai relevansi absolut untuk pasangan kueri-dokumen, ditambah eksperimen interleaving berpasangan untuk evaluasi langsung.

Ketahanan dan Mode Kegagalan

Penilaian absolut akan runtuh ketika penilai menggunakan skala yang berbeda—nilai 5/10 bagi satu orang mungkin sama dengan nilai 7/10 bagi orang lain. Metode berpasangan kebal terhadap masalah penskalaan monotonik ini tetapi rentan terhadap preferensi intransitif. Jika A mengalahkan B, B mengalahkan C, namun C mengalahkan A, model harus menyelesaikan siklus ini. Preferensi manusia yang sebenarnya sering melanggar transitivitas, menciptakan tantangan filosofis dan praktis yang nyata bagi kedua pendekatan tersebut.

Pendekatan Hibrida

Sistem yang lebih canggih semakin menggabungkan kedua paradigma tersebut. Skor absolut memberikan acuan; perbandingan berpasangan menyempurnakan peringkat. Beberapa platform mengumpulkan peringkat absolut tetapi melatih model berpasangan dengan menghasilkan pasangan perbandingan secara dinamis dari distribusi peringkat. Strategi hibrida ini berupaya untuk menggabungkan efisiensi pengumpulan absolut dengan kekokohan pembelajaran berpasangan.

Kelebihan & Kekurangan

Pembelajaran Preferensi Berpasangan

Keuntungan

+ Tahan terhadap variasi skala penilai.
+ Tugas anotasi yang lebih mudah
+ Menangkap nuansa subjektif
+ Sangat cocok untuk RLHF
+ Menghindari penetapan ambang batas yang sewenang-wenang

Tersisa

− Pertumbuhan perbandingan kuadratik
− Tantangan pemeringkatan yang tidak lengkap
− Penanganan preferensi intransitif
− Lebih sulit dijelaskan kepada pengguna.
− Biasanya dibutuhkan lebih banyak data.

Model Penilaian Absolut

Keuntungan

+ Keluaran numerik langsung
+ Pengumpulan data yang efisien
+ Metode agregasi sederhana
+ Aplikasi ambang batas yang jelas
+ Antarmuka pengguna yang familiar

Tersisa

− Interpretasi skala bervariasi
− Efek penjangkaran umum
− Perbandingan yang lebih sulit antar penilai
− Masalah granularitas paksa
− Kurang dapat diandalkan untuk item subjektif.

Kesalahpahaman Umum

Mitologi

Metode berpasangan selalu membutuhkan lebih banyak data daripada penilaian absolut.

Realitas

Meskipun jumlah perbandingan berpasangan meningkat secara kuadratik, setiap anotasi menjadi lebih cepat dan lebih andal. Studi dalam crowdsourcing menunjukkan bahwa untuk target akurasi yang setara, total waktu anotasi sering kali lebih menguntungkan metode berpasangan. Efisiensi sangat bergantung pada strategi pembelajaran aktif yang memilih pasangan yang paling informatif.

Mitologi

Skor absolut lebih mudah diinterpretasikan karena berupa angka.

Realitas

Nilai '7 dari 10' tampak konkret, tetapi maknanya berubah secara dramatis di berbagai budaya, konteks, dan suasana hati individu. Penelitian tentang inflasi peringkat menunjukkan bahwa pengguna Netflix yang sebelumnya memberi 3 bintang sekarang memberi jempol untuk konten yang identik. Peringkat berpasangan sering kali lebih stabil dalam mencerminkan perilaku pengguna yang sebenarnya.

Mitologi

Anda dapat dengan mudah mengkonversi skor absolut menjadi peringkat berpasangan.

Realitas

Perbandingan skor sederhana mengabaikan ketidakpastian dan kepercayaan. Dua item yang diberi nilai 7,0 dan 7,1 mungkin secara statistik tidak dapat dibedakan, namun konversi yang naif memaksakan pengurutan. Konversi yang tepat memerlukan pemodelan varians peringkat, yang memperkenalkan kembali kompleksitas yang secara alami ditangani oleh metode berpasangan.

Mitologi

Preferensi manusia pada dasarnya bersifat transisi.

Realitas

Penelitian psikologis secara konsisten menunjukkan intransitivitas dalam preferensi nyata. Orang mungkin lebih menyukai pizza berukuran besar karena harga, ukuran sedang karena kemudahan, namun ukuran kecil karena alasan kesehatan—menciptakan siklus. Kedua pendekatan pemodelan harus menangani atau mengabaikan realitas ini, dengan metode berpasangan memiliki alat yang lebih eksplisit untuk melakukannya.

Mitologi

Metode berpasangan hanya berlaku untuk preferensi biner.

Realitas

Kerangka kerja berpasangan modern menangani preferensi bertingkat, urutan parsial, dan bahkan perbandingan multi-aspek. Label 'berpasangan' merujuk pada struktur perbandingan, bukan format respons. Pemberi anotasi dapat mengekspresikan kekuatan preferensi, ketidakpastian, atau penilaian multi-dimensi dalam kerangka kerja berpasangan.

Pertanyaan yang Sering Diajukan

Mengapa Netflix beralih dari peringkat bintang ke jempol ke atas/ke bawah?

Netflix menemukan bahwa peringkat bintang eksplisit kurang akurat dalam memprediksi perilaku menonton yang sebenarnya. Pengguna mungkin memberi peringkat 5 bintang pada film seni tetapi menonton sitkom secara maraton. Sistem jempol, meskipun lebih kasar, menghasilkan sinyal preferensi yang lebih andal untuk algoritma rekomendasi mereka. Ini menggambarkan pola yang lebih luas: preferensi berpasangan atau biner seringkali berkorelasi lebih baik dengan preferensi yang terungkap daripada peringkat absolut.

Bagaimana cara kerja pembelajaran preferensi berpasangan dalam pelatihan ChatGPT?

Selama RLHF, annotator manusia membandingkan beberapa keluaran model untuk perintah yang sama dan menunjukkan mana yang lebih baik. Perbandingan ini melatih model penghargaan yang memprediksi preferensi manusia. Model penghargaan kemudian memandu penyempurnaan melalui pembelajaran penguatan. Pendekatan berpasangan ini sangat penting karena penilaian absolut langsung terhadap kualitas percakapan terbukti tidak dapat diandalkan di antara para annotator.

Apakah penilaian absolut dapat mengungguli metode berpasangan?

Tentu saja. Saat mengevaluasi atribut objektif dan terukur—resolusi gambar, kecepatan pemuatan, akurasi faktual—skala absolut dengan kriteria yang jelas seringkali sudah cukup dan membutuhkan lebih sedikit data. Penilaian diagnostik medis, kontrol kualitas manufaktur, dan banyak aplikasi teknik mendapat manfaat dari kerangka kerja absolut. Kuncinya adalah mencocokkan metode dengan jenis penilaian.

Apa itu model Bradley-Terry dan mengapa model ini penting?

Model Bradley-Terry menetapkan parameter 'kekuatan' laten untuk setiap item, kemudian memodelkan probabilitas bahwa satu item mengalahkan item lain menggunakan fungsi logistik dari perbedaan kekuatan mereka. Ini adalah tulang punggung matematis yang menghubungkan hasil berpasangan dengan peringkat kontinu. Varian pembelajaran mendalam modern menyematkan item ke dalam ruang vektor di mana jarak mengkodekan probabilitas preferensi.

Bagaimana Anda menangani preferensi intransitif dalam sistem berpasangan?

Terdapat beberapa strategi: mendeteksi dan mengecualikan pemberi anotasi yang tidak konsisten, memodelkan noise secara eksplisit dalam model preferensi, atau menggunakan urutan parsial daripada memaksakan peringkat lengkap. Beberapa metode canggih memperlakukan intransitivitas sebagai sinyal—menunjukkan pengambilan keputusan multi-kriteria daripada kesalahan—dan memodelkannya dengan model campuran atau preferensi yang bergantung pada konteks.

Mengapa Elo dianggap sebagai sistem preferensi berpasangan?

Pemain catur tidak pernah menerima 'skor keterampilan catur' absolut secara langsung. Sebaliknya, hasil permainan (perbandingan berpasangan) memperbarui peringkat Elo mereka. Perbedaan peringkat antara dua pemain memprediksi probabilitas kemenangan. Sistem elegan ini, yang dikembangkan oleh Arpad Elo pada tahun 1960, menunjukkan bagaimana pengamatan berpasangan yang berulang dapat secara implisit menghasilkan skala absolut yang bermakna.

Apakah peringkat absolut benar-benar hilang dalam AI modern?

Tidak sama sekali. Peringkat absolut tetap umum digunakan dalam ulasan produk, toko aplikasi, dan riset survei. Banyak sistem hibrida menggunakan peringkat absolut untuk penyaringan awal dan metode berpasangan untuk pemeringkatan yang lebih rinci. Pilihannya bergantung pada keputusan spesifik yang dibuat dan biaya kesalahan anotasi.

Bagaimana pembelajaran aktif mengurangi biaya perbandingan berpasangan?

Alih-alih membandingkan semua pasangan yang mungkin, algoritma pembelajaran aktif memilih perbandingan yang paling informatif berdasarkan ketidakpastian model saat ini. Jika model sudah sangat lebih menyukai A daripada B, membandingkannya lagi akan membuang-buang upaya. Seleksi strategis dapat mengurangi perbandingan yang dibutuhkan dari O(n²) menjadi O(n log n) atau lebih baik sambil mempertahankan akurasi peringkat.

Apa yang membuat anotasi berpasangan 'lebih mudah' bagi manusia?

Penelitian ilmu kognitif menunjukkan bahwa penilaian komparatif membutuhkan memori kerja yang lebih sedikit daripada evaluasi absolut. Saat menilai film secara absolut, Anda harus mengingat seluruh skala kualitas dan memetakan film tersebut ke skala tersebut. Saat membandingkan dua film, Anda hanya perlu menentukan mana yang lebih memenuhi kriteria Anda. Beban kognitif yang berkurang ini sering menghasilkan hasil yang lebih konsisten.

Bisakah metode-metode ini digabungkan dalam satu sistem?

Semakin sering, ya. Beberapa platform mengumpulkan peringkat absolut tetapi memperoleh data pelatihan berpasangan dari peringkat tersebut. Platform lain menggunakan skor absolut untuk pengelompokan kasar, kemudian perbandingan berpasangan di dalam kelompok. Penelitian tentang 'belajar memberi peringkat' sering menggabungkan pendekatan poin (absolut), berpasangan, dan daftar, dengan kombinasi optimal bergantung pada ketersediaan data dan persyaratan tugas.

Apa saja metrik evaluasi utama untuk setiap pendekatan?

Metode berpasangan umumnya menggunakan tau Kendall, perolehan kumulatif terdiskonto yang dinormalisasi (NDCG), atau akurasi dalam memprediksi preferensi yang ditahan. Penilaian absolut menggunakan kesalahan kuadrat rata-rata, korelasi Pearson, atau metrik kalibrasi. Yang penting, model berpasangan dapat dievaluasi berdasarkan kualitas absolut dari peringkat yang dihasilkannya, dan sebaliknya—meskipun ini memerlukan pemilihan metrik yang cermat.

Bagaimana perbedaan budaya memengaruhi pendekatan-pendekatan ini?

Gaya respons budaya sangat memengaruhi peringkat absolut. Beberapa budaya menghindari skor ekstrem, menekan peringkat ke arah tengah. Budaya lain menggunakan skala secara berbeda berdasarkan norma kesopanan. Metode berpasangan agak lebih kuat terhadap efek ini karena hanya membutuhkan penilaian relatif, meskipun preferensi budaya itu sendiri masih bervariasi. Platform global harus mempertimbangkan kedua fenomena ini dalam pengumpulan data dan desain model mereka.

Putusan

Pilih pembelajaran preferensi berpasangan saat menangkap penilaian subjektif manusia—kualitas rekomendasi, kebermanfaatan konten, atau preferensi estetika—di mana skala individu bervariasi secara tidak terduga. Pilih penilaian absolut saat mengevaluasi atribut objektif dan terdefinisi dengan baik dengan kriteria yang stabil, atau saat Anda memerlukan operasi aritmatika pada output. Banyak sistem produksi sekarang menggabungkan keduanya: peringkat absolut untuk penyaringan kasar, penyempurnaan berpasangan untuk peringkat akhir.

Perbandingan Terkait

Adaptasi Bahasa dalam AI vs Sistem AI yang Tidak Bergantung pada Bahasa

Adaptasi bahasa dalam AI berfokus pada pengajaran model untuk menangani bahasa tertentu melalui penyempurnaan dan pembelajaran transfer, sementara sistem AI yang tidak bergantung pada bahasa bertujuan untuk memproses bahasa apa pun tanpa pelatihan khusus bahasa. Kedua pendekatan tersebut mengatasi tantangan multibahasa tetapi berbeda secara mendasar dalam arsitektur, data pelatihan, dan penerapan di dunia nyata.

Adaptasi Domain vs Pelatihan Dalam Domain

Perbandingan ini menganalisis pilihan strategis dalam pembelajaran mesin antara Adaptasi Domain, yang mentransfer pengetahuan dari lingkungan sumber berlabel ke lingkungan target yang berbeda, dan Pelatihan Dalam Domain, yang membangun model sepenuhnya berdasarkan data yang dikumpulkan dari pengaturan penerapan target yang tepat.

Agen AI Berorientasi Tugas vs Model Bahasa Serbaguna

Agen AI berorientasi tugas dibangun untuk menyelesaikan alur kerja spesifik secara mandiri, sementara model bahasa tujuan umum berfungsi sebagai generator teks serbaguna yang merespons berbagai macam perintah. Memilih di antara keduanya bergantung pada apakah Anda membutuhkan eksekusi tugas yang andal atau kecerdasan percakapan yang fleksibel.

Agen AI Otonom vs Sistem AI Berbasis Perintah

Agen AI otonom beroperasi secara independen dengan merencanakan, menalar, dan mengeksekusi tugas multi-langkah dengan masukan manusia minimal, sementara sistem AI berbasis perintah merespons instruksi pengguna individual satu interaksi pada satu waktu. Perbedaan utamanya terletak pada kemampuan bertindak: agen mengejar tujuan lintas sesi, sedangkan sistem berbasis perintah menunggu arahan.

Agen AI Pribadi vs. Alat SaaS Tradisional

Agen AI personal adalah sistem baru yang bertindak atas nama pengguna, membuat keputusan dan menyelesaikan tugas multi-langkah secara otonom, sementara alat SaaS tradisional bergantung pada alur kerja yang digerakkan pengguna dan antarmuka yang telah ditentukan sebelumnya. Perbedaan utamanya terletak pada otonomi, kemampuan beradaptasi, dan seberapa besar beban kognitif yang dialihkan dari pengguna ke perangkat lunak itu sendiri.