|
Arhitectura general? a unui program de cercetare documentar?
Un sistem de cercetare documentar? se bazeaz? pe capacitatea SGBD-ului de a înmagazina, ordona, selecta, interoga BD ?i a realiza rapoarte text, grafice sau diagrame. SGBD interogheaz? documentele structurate în fi?ierele memorate pe supor?i externi, semnalând pe cele în care figureaz? cuvântul sau combina?ia de cuvinte ce descriu conceptul la care se refer? documentarea.
Adres?m calculatorului cuvântul vizat pentru ca el s? afi?eze ansamblul documentelor aflate în memorie ?i care con?in cel pu?in o dat? cuvântul “DIVOR?”, deci care teoretic trateaz? acest subiect.
Programele de cercetare documentar? func?ioneaz? aproape toate prin utilizarea a trei fi?iere principale: lexicul, fi?ierul index sau fi?ierul inversat ?i fi?ierul text (full text).
- Lexicul (tezaurul) sau fi?ierul de leg?turi
Lexicul cuprinde ansamblul de cuvinte, adic? lan?uri de caractere semnificative, pe care sistemul le recunoa?te. Acest fi?ier are rol în utilizarea vocabularului, dar lista de cuvinte pe care sistemul o caut? este indispensabil? pentru ca acestea s? fie identificate.
În general, tezaurul este completat de lista de leg?turi de caractere pe care sistemul are dreptul s? le ignore: cuvintele nule sau cuvintele goale (de sens), articole, prepozi?ii etc. Astfel, compara?ia mesajului-întrebare de pe aceste dou? liste permite calculatorului s? reac?ioneze la primirea unui termen care nu este cuprins nici în Lexic, nici în lista cuvintelor nule. Calculatorul r?spunde printr-un mesaj de eroare, ceea ce înseamn? c? ignor? acest cuvânt sau c? acesta con?ine o gre?eal? de ortografie sau de implementare.
- Fi?ierul index
Dup? ce calculatorul a primit instruc?iunile pentru recunoa?terea cuvintelor, el poate s? g?seasc? documentele care con?in cuvintele dorite printr-o simpl? trecere secven?ial? în revist?. În ciuda rapidit??ii oper?rii cu sistemele informa?ionale, acest mod este foarte lent prin interogarea b?ncilor de date, care con?in mii sau milioane de informa?ii (admi?ând c? verificarea existen?ei unui termen într-un document care cuprinde 20 rânduri necesit? 1/10 secunde, ar trebui 1 or? pentru a epuiza un fi?ier de 36.000 documente). Lexicul este, în general, inversat într-un fi?ier index, adic? un fi?ier care regrupeaz? pentru fiecare din formele alfanumerice, ce constituie lexicul, grupul de adrese al documentelor în care acestea figureaz?. Timpul de lectur? este astfel redus considerabil, datorit? num?rului mic de caractere.
- Fi?ierul text (full text)
|