Google adaugă mai multe limbi la Google Translate – mult mai multe. De data aceasta, 110 dintre ele, inclusiv Manx. Aceasta este cea mai mare extindere unică vreodată a instrumentului de traducere Google. Acum gestionează 243 de limbi diferite, aproape de a dubla numărul de limbi pe care le manipulează.
Extinderea este alimentată de PaLM 2, cea mai recentă lansare a modelului Google Pathways Language Model, pe care l-a introdus în 2022 și apoi a fost îmbunătățit cu versiunea 2 în mai 2023. PaLM 2 a fost o piesă cheie a puzzle-ului, ajutând Traducerea să învețe mai eficient limbi care sunt strâns legate între ele, inclusiv limbi apropiate de hindi, cum ar fi Awadhi și Marwadi, și creole franceze precum creola din Seychellois și creola maurițiană.
Google Translate și-a crescut treptat repertoriul de ani de zile, așa cum a acoperit The Register încă din 2008, când, printre altele, a adăugat limba cehă. A fost o salvare pentru acest vultur, când s-a mutat aici acum un deceniu. După cum am descris anterior, Čeština este o limbă brutal de complexă și dificilă. Anul trecut, corespondentul tău s-a mutat pe Insula Man, care are și propria sa limbă indigenă unică, Manx.
Traducerea automată poate fi foarte valoroasă în eforturile de salvare a limbilor minoritare. Manx a revenit din dispariție în ultimele două decenii. Ultimul vorbitor nativ de Manx, Edward „Ned” Maddrell, a murit în 1974, dar pe măsură ce rămașii vorbitori nativi au îmbătrânit, au fost realizate mai multe înregistrări și videoclipuri ale limbii vorbite, iar astăzi există o nouă generație de vorbitori nativi de Manx care este crescută de adulți care au învățat-o ca a doua limbă și chiar o școală primară în limba manx, Bunscoill Ghaelgagh.
Google Anunta Expansiunea Google Translate cu Inca 110 Limbi
Extinderea din acest an folosește o metodă pe care Google o numește traducere automată Zero Shot. Google Translate folosește modele de rețele neuronale pentru traducere din 2016, iar instruirea fără resurse înseamnă că este posibil să-și antreneze modelele pentru a traduce limbi, chiar dacă baza de date de instruire nu include texte de potrivire unu-la-unu în ambele surse și limbi țintă.
Sunt multe de luat în considerare atunci când adăugați noi limbi în Google Translate – mult mai multe. Totul, de la soiurile pe care le oferim, la ce ortografii specifice folosim. Limbile au o cantitate imensă de variație: soiuri regionale, dialecte, diferite standarde de ortografie. De fapt, multe limbi nu au o singură formă standard, așa că este imposibil să alegeți o varietate „corectă”. Abordarea noastră a fost să acordăm prioritate celor mai frecvent utilizate varietăți ale fiecărei limbi.
De exemplu, romani este o limbă care are multe dialecte în toată Europa. Modelele noastre produc text care este cel mai apropiat de Southern Vlax Romani, o varietate frecvent utilizată online. Dar se amestecă și cu elemente din altele, cum ar fi Northern Vlax și Balkan Romani.
Pe măsură ce tehnologia avansează și pe măsură ce continuăm să colaborăm cu lingviști experți și vorbitori nativi, vom sprijini și mai multe varietăți de limbi și convenții de ortografie de-a lungul timpului. Google adaugă mai multe limbi la Google Translate – mult mai multe, și aceasta este doar începutul.