De la procesarea limbajului natural la ‘Bring IT on’

Sigla Facultății de Informatică din IașiInițiat și coordonat de profesorul Dan Cristea, în facultate își desfășoară activitatea grupul dedicat domeniului prelucrării limbajului natural (NLP – Natural Language Processing) și al lingvisticii computaționale (computational linguistics).

Unul dintre proiectele FII de anvergură este eDTLR – Dicționarul Tezaur al Limbii Române în format electronic.

eDTLR reprezintă un proiect finanțat și derulat între septembrie 2007 și decembrie 2010. Proiectul și-a propus realizarea formatului electronic al marelui Dicționar al Limbii Române, lucrare de o însemnătate colosală pentru cultura românească, efectuată de Academia Română pe parcursul unui secol (finalizat în formatul tipărit în 2010).

O primă parte a proiectului a inclus următoarele operații:

  • scanarea volumelor (care nu au fost culese pe calculator la momentul realizării lor),
  • transformarea lor în text editabil,
  • corectarea lor (operație realizată de voluntari, prin intermediul unui sit Web, și apoi de către experți lexicografi),
  • depistarea automată a câmpurilor intrărilor de dicționar,
  • reprezentarea conținutului în format XML (conform standardelor de dicționar TEI-P5),
  • realizarea accesului la informațiile marcate în XML via interfața Web dedicată utilizatorilor.

A doua parte a vizat scanarea bibliografiei (doar volumele neprotejate de legea drepturilor de autor – aproximativ 1200 de volume, din cele aproape 3000 din care s-au extras citatele) și realizarea legăturilor dintre citate și paginile de carte (format imagine). Acest aspect va permite accesul din citate direct în originalul surselor. FII speră că Academia Română să-și dea acordul pentru ca accesul la eDTLR să fie oferit publicului larg, gratuit.

Parteneri în proiect sunt Universitatea “Alexandru Ioan Cuza” Iași, cu Facultatea de Informatică (coordonatoare) și Facultatea de Litere, plus Academia Română, cu diverse institute de cercetare din București, Cluj-Napoca și Iași.

Un alt proiect european de cercetare, aflat în derulare, este ALEAR care are drept scop studiul evoluției limbajului folosind roboți autonomi.

În cadrul proiectului există două componente majore: una de birotică, realizată de echipe de la universităţile Humboldt (Berlin) şi Osnabrück, ambele din Germania, și o componentă pentru studiul evoluției limbajului, la care contribuie echipe de cercetători din Paris, Bruxelles, Murcia (Spania), Valencia și Iași. Modelul conceptual pentru studiul evoluției limbajului este reprezentat de gramatici de construcție (Construction Grammars). Acestea pun accentul pe de o parte pe o legătura structurală foarte strânsă între sintaxă și semantică și, pe de altă parte, pe bidirecționalitate în funcționarea gramaticii – procesare (parsing) şi generare. Aceste caracteristici impun „designerului” de gramatică o disciplină foarte riguroasă: fiecare regulă trebuie să fie astfel concepută încât ea să fie folosită atât la procesare, cât și la generare, iar cele două procese să fie (pe cât posibil de mult) unul inversul celuilat.

Una dintre activități este cea de a explora „învățabilitatea” (learnability) unor astfel de gramatici. Această caracteristică se referă la posibilitatea extinderii automate a unei gramatici de construcție pe baza unor aşa-numite jocuri de limbaj, care constau în dialoguri purtate de roboţi umanoizi operând cu gramatici diferite. O altă parte a proiectului vizează studierea modalităților de gestionare optimă a memoriei de către roboții umanoizi.

Bring IT on

Bring IT on! (10 decembrie, ora 10, în Sala Pașilor Pierduți — UAIC)

Cu această ocazie, semnalăm faptul că o parte dintre numeroasele proiecte ale Facultății de Informatică – unele dintre ele realizate în colaborare cu studenți, masteranzi și doctoranzi – vor fi etalate vineri, 10 decembrie, începând cu orele 10:00, în Sala Pașilor Pierduți a UAIC, în cadrul evenimentului Bring IT on – atelier de lucru pentru prospectarea conexiunilor dintre cercetarea în informatică și industrie.

Scopul acestui workshop este cel de a face cunoscute mediului de afaceri românesc, dar și colegilor din alte unități de cercetare universitară, posibilitățile de investiții generate de cercetările în IT desfășurate la FII.

Consultați lista proiectelor FII care vor fi expuse și prezentate la evenimentul Bring IT on.

3 răspunsuri to “De la procesarea limbajului natural la ‘Bring IT on’”

  1. Sabin Buraga Says:

    Câteva dintre evenimentele importante privind procesarea limbajului natural organizate în acest an de către FII au fost CICLing 2010, PROMISE și ConsILR 2010.


Comentariile sunt închise.

%d blogeri au apreciat: