Rječnici

Rječnici su najveće komponente sustava za SP zbog količine informacija koje sadrže. Ako su više od obične liste riječi (a trebali bi biti ako je sustav kvalitetno izveden) onda mogu biti i najskuplja komponenta kod izgradnje. Više nego bilo koja druga komponenta, veličina i kvaliteta rječnika ograničava doseg (pokrivanje) sustava i kvalitetu prevođenja koju možemo očekivati. Rječnici su gotovo uvijek jedini dio sustava gdje korisnik može nešto mijenjati, oni moraju osigurati mogućnost dodavanja novih riječi kako bi ga sustav za SP učinili stvarno korisnim.

Papirnati rječnici

Obični, papirnati rječnici su u biti lista riječi s informacijom o različitim svojstvima. Dok gramatička pravila definiraju sve moguće lingvističke strukture u jeziku, opis individualnih riječi koje se mogu pronaći u rječnicima govori koja riječ se može pojaviti u nekoj od različitih struktura. Opće, iako ne sasvim točno stanovište, je da rječnici sadrže sve individualne, nepravilne ili nepredvidive informacije o riječima, dok gramatika osigurava općenita pravila o klasama riječi i frazama (to je jedino točno ako isključimo morfološka (morfologija = grana gramatike koja proučava strukturu ili oblike riječi) pravila i idiome (idiom = niz riječi koji semantički funkcionira kao cjelina, a ima nepredvidljivo značenje) iz rječnika - prva barataju klasama riječi, a potonji su fraze). Pravu predodžbu o potrebnom obimu riječi steći ćemo ako kažemo da se za leksikon (sinonim za rječnik) za komercijalne svrhe 20 000 ulaza smatra minimumom. To je još uvijek skroman postotak postojećih riječi - Oxford English Dictionary sadrži oko 250 000 unosa, a da još nisu iscrpljene riječi iz opće upotrebe. Ustvari, niti jedan rječnik ne može nikada biti završen. Nove riječi se konstantno stvaraju, posuđuju iz drugih jezika, koriste u novim rečenicama i formiraju normalnim morfološkim procesima.

Rječnici i morfologija

Morfologija se bavi unutrašnjom strukturom riječi i time kako se riječi mogu formirati. Obično razlikujemo tri različita procesa formiranja riječi:

  1. procesi infleksije (sklanjanja) - kod kojih riječ doživljava neke gramatičke promjene (u broju, licu, padežu), ali zadržava isti govorni dio ili kategoriju (npr. eng. walk, walks);
  2. derivacijski procesi (procesi izvođenja) u kojima se riječ različite kategorije izvodi iz druge riječi ili korijena riječi primjenom nekih procesa (npr. eng. grammar-grammatical, grammatical-grammaticality);
  3. sastavljanje, u kojem nezavisne riječi na neki način dolaze zajedno kako bi stvorile novu cjelinu (npr. eng. buttonhole).

U engleskom jeziku procesi infleksije i derivacijski procesi uključuju prefikse (kao u undo) i sufikse (kao u stupidity) i ono što zovemo konverzijom, ili eng. zero-affixation gdje postoji promjena kategorije, ali nema promjene forme (primjer bi bio proces koji povezuje imenicu button s glagolom). Naravno, prefiksi i sufiksi (zajedno zvani afiksi) ne mogu samostalno stajati kao riječi. Kod sastavljanja je drukčije jer dijelovi mogu svaki dolaziti kao pojedinačne riječi. Sastavljanje je vrlo produktivan fenomen u germanskim jezicima, ali donosi neke posebne probleme u SP.

Terminologija

Kada riječ (ili kolekcija riječi u više jezika) tvori jedan koncept, ona se zove termin. Primjeri termina uključuju imena materijalnih objekata, ali i apstraktnih entiteta (procesa, svojstava, funkcija itd). Koncepti, i odatle pridruženi termini, mogu biti organizirani u konceptualne strukture, temeljene na vezi koja postoji između njih. Npr. stolovi, stolice, kuhinjski ormari itd. mogu biti grupirani u namještaj, s posebnom podjelom na kućni namještaj i uredski namještaj. Termini mogu biti jednostavne riječi ili izrazi koji se sastoje od više riječi. Sintaktički (sintaksa = gramatičko pravilo koje određuje načine na koje se kombiniraju riječi da tvore rečenice i fraze u jeziku), termini se ne razlikuju od običnog jezika iako imaju jaku tendenciju da budu imenice, često složene imenice.

Još jedan često korišten termin kod rječnika za SP je banka termina. Banke termina su u osnovi baze podataka koje sadrže više tisuća unosa, po jedan za svaki termin. Ti se unosi sastoje, kao i unosi u rječniku, od nekoliko polja, ali tip informacije dan u tim poljima je bitno drugačiji od onoga kojeg nalazimo u običnom rječniku. Djelomično je to tako stoga što pravilna dokumentacija termina zahtijeva specifičnu informaciju o porijeklu unosa, o tome kada je kreirana i kada modificirana. Druga informacija bi se tipično ticala povezanih termina (sinonima, antonima, kratica, nadređenih termina i hiponima), područja (npr. geologija) i izvora i daljnjih informacija (npr. specijalizirani rječnici). S druge strane, informacija o gramatičkim svojstvima i izgovoru je obično nedovoljna. To je djelomično zbog toga što su termini vrlo često nove riječi ili riječi posuđene iz drugih jezika, i obično slijede regularna morfološka pravila jezika. Slično tome, manjak fonoloških (fonologija = grana lingvistike koja proučava zvučne sustave jezika; fonološka pravila opisuju uzorke različitih zvukova koji se koriste u jeziku, a fonologiste zanima što tvori moguće zvučne sustave prirodnog jezika) informacija nastaje dijelom stoga što su unosi orijentirani na pisani materijal, ali i stoga što se očekuje da će riječi biti fonološki pravilne (slijedit će pravila koja se odnose na jezik ili pravila koja se primjenjuju na posuđene riječi).

Osim kućnih banaka termina koje su vezane za pojedinu organizaciju, postoji veliki broj banaka termina koje nude slobodan pristup (ponekad uz malu naknadu). Primjeri su: Eurodicautom (European Commission), Termium (kanadska vlada), Normaterm (French standards organization) i Frantext (National Institute of the French Language), koje nude širok raspon terminoloških područja uključujući znanost, tehnologiju, administraciju, poljoprivredu, medicinu, pravo i ekonomiju. Osiguranje jasnog i konzistentnog korištenja i prevođenja terminologije, značajan je faktor u procesu prevođenja, koji najčešće u tehničkim domenama zahtijeva stvaranje i održavanje banaka termina - što je skup i vremenski zahtjevan posao.