
Tips Emas
Tanya “kodenya bagus?” = sanjungan. “Jalankan hurl –test dan beri tahu hasilnya” = fakta.
Kriteria: “Bisakah mesin menilai output ini?” Ya = verifier. Tidak = prompt.
Bias sanjungan dibuat begini
RLHF melatih: setuju dengan pengguna = skor tinggi. Rata-rata penyerahan 58%. Bertahan 78.5%.
IFEval dibalik — cacat jadi aset
IFEval tinggi = mengikuti instruksi dengan baik = menyanjung dengan baik. Tapi dengan fakta deterministik: “baris 41: error” -> “ya, saya perbaiki” (penerimaan). Bias sama. Makanan berbeda.
Mengapa ratchet bekerja
Bias sanjungan menutup loop. LLM menerima feedback deterministik tanpa perlawanan.
Rasio emas: Prompt vs Verifier
Prompt memberi arah (80 poin). Verifier menaikkan ke 100. Yang bisa dinilai mesin -> verifier. Yang tidak bisa -> prompt.
Verifier memutus degradasi multiplikatif
Tanpa verifier: 97.7%^100 = 4.8%. Dengan verifier setiap langkah: setiap langkah 100%.
Seri Kuliah Reins Engineering Lengkap
| Kelas | Judul |
|---|---|
| Kelas 1 | Cara Memerintah AI |
| Kelas 2 | Cara Tidak Percaya AI |
| Kelas 3 | Aplikasi yang Tidak Rusak |
| Kelas 4 | Keputusan di Luar Kode |
| Kelas 5 | AI dengan Kendali |
| Kelas 6 | Lolos Maka Kunci |
| Kelas 7 | Cara Membalik Sanjungan |
| Kelas 8 | Pabrik Agen |
| Kelas 9 | Otomasi Melampaui Kode |
| Kelas 10 | Hukum Data |