Căutarea full-text

Pentru a crea un sistem de programe în care trebuie să căutați un text integral, puteți folosi o componentă care permite găsirea cuvintelor indiferent de forma sub care apar în text. Cu alte cuvinte, atunci când căutați expresia cursul acțiunii, programul găsește atât articolul care conține expresia întreagă cursul acțiunii, cât și articolele care conțin doar cuvântul acțiune. Această componentă oferă două avantaje: 

  • obținerea formei de bază a cuvântului pornind de la o formă aleatorie
  • generarea tuturor formelor pornind de la forma de bază dată

Forma de bază a cuvântului (lema) este, de cele mai multe ori, forma cuvântului în cazul nominativ, la numărul singular, de ex. acțiune. În cazul verbelor, forma de bază este forma de infinitiv, de ex. a căuta. În unele limbi există excepții de la această regulă. De ex. în limba bulgară, unde nu există infinitiv, forma de bază este cea de pers. I, nr. singular. Limba maghiară, pe de altă parte, deși are infinitiv, folosește ca lemă forma de pers. a III-a, nr. singular. 

Secțiunea lingvistică

La baza sistemului, la fel ca în cazul corectorului de greșeli de dactilografiere, se află descrierea formală morfologică, însă, spre deosebire de corector, sistemul de căutare dispune de o multitudine de informații suplimentare. Printre acestea se numără toate categoriile gramaticale:

  • cazul, numărul și genul substantivelor
  • persoana, numărul, modul, timpul și aspectul verbelor
  • categoria pronumelor, numeralelor, adverbelor și conjuncțiilor

Cu toate acestea, găsirea formei de bază a unui cuvânt nu este un procedeu atât de simplu cum ar putea părea la prima vedere. În afară de formele regulate ale verbelor, trebuie rezolvate alternanțele rădăcinilor care apar la numeroase cuvinte din limba română. Este vorba despre perechile de tipul floare-flori, frate-frați, om-oameni, ou-ouăsoră-surori, roșu-roșie, rău-rea, veni-vin, sau verbe ca a fi-sunt-ești etc., unde se schimbă chiar prima literă din cuvânt. Exemple similare apar în toate limbile. Chiar și în engleză, o limbă relativ ușoară, găsim exemple de acest tip: come-came, break-broken, sau go-went.

Cea de-a doua problemă apare din cauza omonimelor. Există cuvinte a căror rădăcină nu este clară. De exemplu: ochi poate fi verbul a ochi la timpul perfect simplu, persoana a III-a, sau substantivul ochi. Substantivul ochi însuși are mai multe sensuri: organ de văz, componentă a aragazului etc. Există multe astfel de cazuri, de aceea, nu este de mirare că uneori programul va găsi mai multe rezultate. Puteți însă, fi siguri că toate rezultatele găsite sunt corecte. 

Soluții pentru programe

Soluția oferită de program este foarte eficientă. În limba română există câteva milioane de forme diferite, în funcție de categoriile gramaticale în care se încadrează cuvintele folosite. Alături de informațiile morfologice, necesare toate acestea intră într-un fișier de 1 MB. 

Funcții disponibile

  • Întoarcere la forma de bază a cuvântului.
  • Întoarcere la toate formele înrudite morfologic ale cuvântului dat.
  • Declinarea întregului grup nominal format din substantive și adjective, de ex. societate pe acțiuni, societatea pe acțiuni, societății pe acțiuni, societăți pe acțiuni, societăților pe acțiuni etc.

Momentan oferim suport pentru căutarea full-text în mai multe limbi (vezi tabelul). Dacă doriți să faceți căutarea mai plăcută pentru utilizator, vă recomandăm încă o componentă - Dicționarul de sinonime. Pentru căutarea multilingvă se pot combina și alte tehnologii de traducere, iar pentru căutarea în fișierele audio și video se pot adăuga tehnologii de căutare orală.  

Recomandări

Cel mai bine este să testați posibilitățile de căutare morfologică pentru diferite limbi în aplicațiile Lingea Lexicon. Acest sistem de căutare este utilizat în programele de căutare ale diverselor produse sau sisteme utilizate în firme.