Table des matières
SolR
Se prononça solar o sòlar
Es un logicial per organizar un motor de cèrca. SolR es una basa de donadas textuala e li fa besonh d'una configuracion per foncionar. Dins nòstre cas un adobament especific a la lenga nòstra es indefugible. Mai precisament calriá dins l'absolut far un trabalh per cada dialècte.
Esquema
Per configurar la basa textuala un esquema pòt èsser necesari pas obligatòri. L'esquema dona las indicacions per lo trachament de certas informacions que se pòdon identifiar. Un numero de comanda, un prètz, un resumit, un títol, eca. Basicament l'esquema es compausat de noms de camps, de tipes de camps segon la lista classica (int, float, double, date, string, …) mas en revenge per lo tèxte, la classificacion es mai precisa.
Per cada idòm es possible de fargar un tipe de donadas especific amb fòrça trachaments dessus, elision, flexion, correccion, netejament de mots non significatius, lemmatizacion, eca. Aquelas directivas son compresas dins l'esquema.
Un fichièr schema.xml es previst per cada colleccion mas un fichièr fargat automaticament per SolR pòt existir managed_schema.xml çai es pas cambiadís e per defaut es el que s'aplica.
Adobament idomatic
Per ilustrar lo propaus: es possible de donar un trachament particulièr a la lenga causida per un camp de la basa textuala. Anam dire que lo camp « biografia » presenta en occitan un autor. Lo trachament d'aquèl contengut deu tenir compte de la lenga de l'escrich. Doncas lo camp biografia serà de type «text_oc». Per cada lenga, es possible de porgir:
- las contraccions ex: contractions_ca.txt
- los mots tròp usuals de pas indexar ex: stopword_ca.txt
- una tièra especifica a una lenga e una grafia ex: stoptags_ja_txt
- las trencaduras ex: hyphenations_ga.txt
- un diccionari de lemas ex: stemdict_nm.txt
- un diccionari especific ex: userdict_ja.txt
Se pòt pensar que la configuracion de SolR per l'occitan aduirà una soscadissa sul sicut e demandarà d'entresenhar las tièras susmencionadas.
Analisi de la lenga per SolR Catalan