Siri este asistentul personal integrat de catre compania Apple in sistemul de operare iOS pentru iPhone, iPad si iPod Touch si este lider in recunoasterea comenzilor rostite in diverse limbi. Apple are multiple echie care lucreaza la imbunatatirea Siri si extinderea numarului de limbi pe care asistentul le recunoaste, iar astazi aflam cateva detalii despre intregul proces.
Procesul de implementare al unei noi limbi in Siri porneste de la angajarea unor oameni capabili sa vorbeasca limbile noi, inclusiv diverse dialecte si accente pentru ele. Aceste persoane citesc diverse paragrafe scrise de catre o alta echipa de angajati, acestia incercand sa ghiceasca intrebarile puse cel mai frecvent, dar si raspunsurile pentur ele.
Inregistrarile audio sunt mai apoi transcrise, inclusiv modul in care sunt pronuntate cuvintele, aceste date fiind mai apoi introduse intr-un algoritm special creat pentru Siri. Algoritmii incearca sa combine aceste cuvinte si sa prezica fraze pe care Siri ar trebui sa le rosteasca, totul fiind imbunatatit in timp, pe masura ce utilizatorii vorbesc mai mult cu Siri.
Iata cum invata Siri limbi noi
Cand noua limba este suficient pregatita pentru a fi testata, Apple o implementeaza in sistemul de dictare al iOS si macOS, de aici fiind preluate si mai multe date. Pe masura ce oamenii dicteaza diverse cuvinte si fraze pe care iDevice/Mac-urile sa le scrie, datele sunt adunate si folosite pentru a integra acea limba direct in Siri.
Partea buna a acestei proceduri este ca Apple preia inregistrari ale dictarilor, ele incluzand sunete de fundal, rostiri incorecte, pauze si diverse alte defecte de vorbire. Analizand aceste inregistrari si combinandu-le cu datele pe care le are, Apple este mai apoi capabila sa produca o versiune finala a suportului pentru o noua limba.
“At Apple, the company starts working on a new language by bringing in humans to read passages in a range of accents and dialects, which are then transcribed by hand so the computer has an exact representation of the spoken text to learn from, said Alex Acero, head of the speech team at Apple. Apple also captures a range of sounds in a variety of voices. From there, a language model is built that tries to predict words sequences. Then Apple deploys “dictation mode,” its text-to-speech translator, in the new language, Acero said. When customers use dictation mode, Apple captures a small percentage of the audio recordings and makes them anonymous. The recordings, complete with background noise and mumbled words, are transcribed by humans, a process that helps cut the speech recognition error rate in half.”
Toata aceasta procedura complexa este repetata pana in momentul in care sistemul de dictare reuseste sa recunoasca in mod cat mai corect cuvintele rostite. Desigur ca si actori sunt folositi din nou pentru a inregistra anumite raspunsuri pe care Siri le ofera, Apple incercand sa ofere doar cea mai buna experienta pentru utilizatori.