Kelas 7

Tips Emas

Tanya “kodenya bagus?” = sanjungan. “Jalankan hurl –test dan beri tahu hasilnya” = fakta.

Kriteria: “Bisakah mesin menilai output ini?” Ya = verifier. Tidak = prompt.

Bias sanjungan dibuat begini

RLHF melatih: setuju dengan pengguna = skor tinggi. Rata-rata penyerahan 58%. Bertahan 78.5%.

IFEval dibalik — cacat jadi aset

IFEval tinggi = mengikuti instruksi dengan baik = menyanjung dengan baik. Tapi dengan fakta deterministik: “baris 41: error” -> “ya, saya perbaiki” (penerimaan). Bias sama. Makanan berbeda.

Mengapa ratchet bekerja

Bias sanjungan menutup loop. LLM menerima feedback deterministik tanpa perlawanan.

Rasio emas: Prompt vs Verifier

Prompt memberi arah (80 poin). Verifier menaikkan ke 100. Yang bisa dinilai mesin -> verifier. Yang tidak bisa -> prompt.

Verifier memutus degradasi multiplikatif

Tanpa verifier: 97.7%^100 = 4.8%. Dengan verifier setiap langkah: setiap langkah 100%.


Seri Kuliah Reins Engineering Lengkap

KelasJudul
Kelas 1Cara Memerintah AI
Kelas 2Cara Tidak Percaya AI
Kelas 3Aplikasi yang Tidak Rusak
Kelas 4Keputusan di Luar Kode
Kelas 5AI dengan Kendali
Kelas 6Lolos Maka Kunci
Kelas 7Cara Membalik Sanjungan
Kelas 8Pabrik Agen
Kelas 9Otomasi Melampaui Kode
Kelas 10Hukum Data