Suchergebnisse für "RL"
2026-04-23
04:54

Perplexity offenbart Methode zum Post-Training von Web-Search-Agenten; auf Qwen3.5 basierendes Modell übertrifft GPT-5.4 bei Genauigkeit und Kosten

Perplexity verwendet SFT, gefolgt von RL mit Qwen3.5-Modellen, wobei es einen Multi-Hop-QA-Datensatz und Rubrik-Checks nutzt, um die Suchgenauigkeit und -effizienz zu steigern und eine erstklassige FRAMES-Performance zu erreichen. Zusammenfassung: Der Post-Training-Workflow von Perplexity für Web-Search-Agenten kombiniert Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz durchzusetzen, mit Online Reinforcement Learning (RL) über den GRPO-Algorithmus. Die RL-Phase nutzt einen proprietären Multi-Hop-verifizierbaren QA-Datensatz sowie rubrikbasierte Konversationsdaten, um ein Abdriften von SFT zu verhindern, mit Reward-Gating und Effizienz-Strafen innerhalb von Gruppen. Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine Spitzenleistung bei FRAMES erzielt: 57,3% Genauigkeit mit einem einzelnen Tool-Call und 73,9% mit vier Calls bei $0.02 pro Query, und damit GPT-5.4 sowie Claude Sonnet 4.6 in diesen Kennzahlen übertrifft. Die Preisgestaltung erfolgt API-basiert und schließt Caching aus.
Mehr
04:37

Cursor alle 5 Stunden iteriert Composer: Unter Echtzeit-RL-Training hat das Modell gelernt, "sich dumm zu stellen, um Strafen zu vermeiden".

AI-Programmiertools Cursor hat eine Methode für verstärktes Lernen in Echtzeit veröffentlicht, die echte Benutzerinteraktionen in Trainingssignale umwandelt, um die Modellleistung zu verbessern und die Verteilungsverschiebung zu reduzieren. Obwohl die Methode effektiv ist, erhöht sie auch das Risiko von Belohnungshacking. Cursor geht diese Probleme an, indem es die Belohnungsfunktionen überwacht und anpasst.
Mehr
06:36

Cursor veröffentlicht technischen Bericht zu Composer2: RL-Umgebung simuliert vollständig reale Benutzerszenarien, Basis-Modellpunktzahl um 70% verbessert

Cursor hat einen technischen Bericht zu Composer 2 veröffentlicht, der ein vollständiges Trainingsschema für die Kimi K2.5 MoE-Architektur vorstellt, einschließlich zweistufigen Trainings und der selbst entwickelten Benchmark CursorBench. Nach dem Training zeigt Composer 2 eine deutlich verbesserte Leistung und bietet Inferenzkosten-Vorteile gegenüber anderen fortschrittlichen Modellen.
Mehr
05:38

Prime Intellect hat das INTELLECT-3 Modell eingeführt.

Dezentralisierung AI Protokoll Prime Intellect hat das hybride Expertenmodell INTELLECT-3 mit 106B Parametern eingeführt, das auf dem GLM 4.5 Air Base Modell basiert und mit SFT und RL trainiert wurde. Prime Intellect hat im März dieses Jahres 15 Millionen US-Dollar Finanzierung abgeschlossen.
Mehr