Cercetatorii de la o universitate din Oxford au creat cel mai precis software pentru citirea de pe buze – LipNet.
Software-ul a atins o acuratete de 93,4% , comparativ cu doar 52% maximul atins de un cercetator expert in domeniu.
Lipreading is the task of decoding text from the movement of a speaker’s mouth. Traditional approaches separated the problem into two stages: designing or learning visual features, and prediction. More recent deep lipreading approaches are end-to-end trainable (Wand et al., 2016; Chung & Zisserman, 2016a). All existing works, however, perform only word classification, not sentence-level sequence prediction. Studies have shown that human lipreading performance increases for longer words (Easton & Basala, 1982), indicating the importance of features capturing temporal context in an ambiguous communication channel. Motivated by this observation, we present LipNet, a model that maps a variable-length sequence of video frames to text, making use of spatiotemporal convolutions, an LSTM recurrent network, and the connectionist temporal classification loss, trained entirely end-to-end.
Explicatia stiintifica este destul de greu de inteles de noi, ” muritorii de rand “, insa cert este faptul ca LipNet ar putea servi ca un instrument extraordinar pentru persoanele cu deficiente de auz. Software-ul nu analizeaza inregistrarea cuvant cu, cuvant ci intreaga propozitie. Acesta foloseste sistemul Deep Learning pentru a descifra fiecare cuvant în parte. Chiar daca persoanele cu deficiente stiu deja cum sa citeasca pe buze, ar putea ajuta la cresterea intelegerii lor de cei din jur. Astfel, cei fara abilitati de citire de buze nu ar mai avea probleme de interactiune cu o persoana care nu cunoaste limbajul semnelor.