Arena, leaderboard-ul AI de 100 milioane: cum a ajuns acolo

Dacă lucrezi în tech sau urmărești lumea AI, ai auzit aproape sigur de Arena - platforma care pune modelele de limbaj față în față și lasă oamenii să voteze care răspunde mai bine. Ceea ce s-ar putea să nu știi este că această platformă, pornită ca un proiect academic, a ajuns acum la venituri anuale de 100 de milioane de dolari.

Conform TechCrunch, Arena - cunoscută anterior și sub numele Chatbot Arena, creată de cercetători de la UC Berkeley - a atins pragul de 100 de milioane de dolari în venituri anuale recurente și a strâns finanțare semnificativă pentru a-și extinde operațiunile. Platforma a fost separată în propriul startup, numit Nexus, și a primit investiții de la fonduri de capital de risc.

Mecanismul de bază este simplu și tocmai de aceea a funcționat atât de bine: doi utilizatori văd răspunsurile a două modele AI anonimizate la aceeași întrebare și votează care e mai bun. Pe baza acestor voturi, se calculează un scor Elo - același sistem folosit în șah - care produce un clasament actualizat constant. OpenAI, Google, Anthropic, Meta și alte companii urmăresc acest clasament cu atenție, deoarece e considerat unul dintre cele mai credibile benchmarkuri independente din industrie.

De ce contează Arena mai mult decât alte benchmarkuri? În lumea AI există o problemă veche: companiile tind să-și evalueze propriile modele pe teste pe care le-au optimizat să le treacă. Arena rezolvă asta prin evaluare umană reală, pe întrebări spontane, fără să știe utilizatorul cu ce model vorbește. Rezultatul e un feedback mult mai apropiat de experiența reală a utilizatorilor.

Modelul de business a evoluat de la un proiect open-source la un serviciu plătit oferit companiilor care vor să-și evalueze modelele sistematic înainte de lansare sau să înțeleagă cum se poziționează față de competitori. Firmele AI plătesc Arena pentru acces la infrastructura de evaluare și la datele agregate din milioanele de comparații efectuate de utilizatori.

Această tranziție - de la experiment academic la business de 100 de milioane - reflectă o tendință mai largă în industria AI: nevoia de evaluare independentă devine o piață în sine. Pe măsură ce modelele de limbaj proliferează și devin greu de diferențiat, companiile sunt dispuse să plătească pentru claritate.

Rămâne de văzut dacă Arena va putea menține independența editorială pe care i-a construit reputația, acum că are interese comerciale directe cu aceleași companii ale căror modele le clasează. Tensiunea dintre credibilitate și monetizare s-ar putea să fie cea mai mare provocare a platformei în anii care urmează.

Arena, leaderboard-ul AI de 100 milioane: cum a ajuns acolo

SUA oferă 10 milioane pentru hackerii ruși care au spart Signal

US Soccer scanează milioane de copii cu AI să găsească noi talente

China cumpără fețe: boom-ul dramelor AI care plătesc pentru imagine