iun. 30

Cum va suna o baza de date cu voci?

Cum va suna o baza de date cu voci?

Danuta are nevoie de ajutor la un proiect foarte fain la care lucreaza. Incearca sa construiasca o baza de date cu inregistrari de voci care sa poata fi folosite pentru diverse proiecte de cercetare in cadrul universitatilor sau chiar pentru proiecte individuale. O treaba foarte dificila, avand in vedere ca multe dintre inregistrari sunt facute neprofesional si fie au un zgomot de fundal prea pronuntat, fie sunt inregistrate prea departe de microfon si sunt prea slabe din punct de vedere al semnalului.

Am sa va rog totusi sa incercati sa lasati o inregitrare aici folosind cuvintele scrise acolo in text.

Mai mult chiar, cand totul parea ca merge perfect, m-am trezit ca 70% dintre inregistrari nu pot fi nici macar ascultate. Se pare ca firefox-ul foloseste un codec numit Opus si care face ca lucrurile sa fie putin diferite la fisierele .wav inregistrate cu ajutorul firefox. Pana la urma, am gasit pe linux cateva tool-uri care refac fisierul in standard .wav si astfel problema s-a rezolvat.

La ce sunt folosite aceste voci?

Credeti-ma ca e foarte greu de explicat si nici eu nu am inteles prea bine intregul proces. Ideea e ca ele ajung in baza de date ca inregistrari mono. De acolo mai departe, in functie de necesitati, vocile respective sunt transformate in niste simple matrici cu numere. In functie de metoda aplicata: analiza cepstrala, liniar predictiva, Fourier, liniar perceptuala, homomorfica (va dati seama ca nu inteleg nici eu nimic din analizele alea), rezulta niste valori numerice. Mai departe … nu mai stiu nici eu….

Si acum sa va explic varianta populara, adica aia pe intelesul tuturor. Ai 1000 de voci care spun „porneste” in baza de date, in functie si de metoda aplicata, comparand cu o alta inregistrare care nu se gaseste in baza de date, o poti identifica daca este sau nu „porneste”. Sau mai bine zis, te scoli dimineata somnoros si mergi la bucatarie, te apropii usor de expresorul de cafea si ii zici „porneste” si iti vezi de treaba ca el iti face cafeaua. Mai ciudat o sa fie cand o sa zici „porneste” si o sa porneasca simultan plita electrica, cuptorul cu microunde, expresorul de cafea si alte cateva electrocasnice de prin bucatarie.

Pana atunci insa mai e, deocamdata lucrurile sunt la nivel de studiu academic, iar eu prefer sa vorbesc in engleza cu Note-ul meu atunci cand sunt la volan si nu pot sa scriu un sms scurt, ca de, la capitolul limba romana, si el mai are de invatat.

  1. „analiza cepstrala, liniar predictiva, Fourier, liniar perceptuala, homomorfica ” . Asta sigur lamureste o gramada de lucruri 🙂

    • Dragos Schiopu 30/06/2014, 2:51 pm

      si daca ti-as spune ca lucrurile complicate urmeaza abia dupa aceea in recunoasterea vocii? Oricum nici eu nu le pricep si mi le-a dictat cineva ca altfel nu am auzit in viata mea de ele, exceptand Fourier de care m-am mai lovit pe la restante in facutlate :))

  2. Probabil se vrea crearea unei baze de date pentru compararea si generarea ulterioara de amprente vocale… Scopul mi-e un pic neclar.

    • Dragos Schiopu 30/06/2014, 3:27 pm

      Nu are nici o treaba cu amprente vocale, ma rog nici nu stiu ce-s alea, sincer, are treaba cu motoarele de IA pentru recunoasterea unor comenzi vocale. O sa va prezint un video prin toamna sau in Ianuarie la anul ca sa vedeti aplicatia in sine cum functioneaza.

Comentariile sunt inchise.