/armtreebank

Armenian Treebank http://armtreebank.yerevann.com/

Primary LanguageCSS

ArmTreeBank

«ՀայՇտեմը» ՆԵՐԿԱՅԱՑՈՒՑՉԱԿԱՆ է ու ոչ դիախրոնիկ. պարունակում է շուրջ 100 հազար բառամթերք և 5 հազար շարահյուսական ծառ, որը թույլ է տալիս ապահովել լեզվական այն նյութի ծավալը, երբ լեզվական միավորների հաճախականությունը մոտ է օրինաչափ լինելու մակարդակին (երբ միավորների հաճախականությունը սկսվում է կրկնվել => օրինաչափ է)։ Լեզվական բազմազանության ներկայացվածությունը կորպուսում (balance), պայմանավորված կորպուսի նպատակներով, ապահովելու են.

  • Դասագրքային օրինակներ — թույլ է տալու բառակազմական-ձևաբանական ու շարահյուսական վերլուծիչների մշակման, ապա և նեյրոնայցին ցանցերի վարժեցման ընթացքում ունենալ բառակազմական կաղապարnերի, ձևաբանական կարգերի ու շարահյուսական կառույցների այն ամբողջությունը, որը մինչ այս անհրաժեշտ ու բավարար է եղել արևելահայերենի լեզվաբանական դասագրքերի/ուսումնասիրությունների համար։ Կորպուսի այս բաղադրիչը թույլ կտա «ՀայՇտեմի» ստեղծման առաջին փուլում ունենալ արևելահայերենի քերական կառուցվածքի մասին ամբողջական տվյալներ և դրանք ցուցադրող օրինակներ, նաև՝ ձևաբանական պիտակների, բառակազմական կաղապարների ու շարահյուսական ծառերի տիպային ցանկ։ Որպես ենթակորպուս՝ գիտական հետաքրքրություն է ներկայացնում հայ լեզվաբանության պատմության/պատմագրության համար։
  • Մամուլ — տեքստեր պարբերական մամուլից (էլեկտրոնային), լրագրողական երեք ժանրերում՝ ռեպորտաժ/վերլուծություն, հրապարակախոսություն/սյունակ, հարցազրույց։ Ոլորտային ընդգրկումը՝ քաղաքականություն, սոցիալական թեմաներ, տնտեսություն։ Հարցազրույցներն անցումային օղակ են լինելու գրավորից բանավոր/բարբառային նյութի համար։
  • Գեղարվեստական գրականություն — բաղադրիչը ենթադրում է արձակ տեքստեր սկսած 1980-ականներից։ «ՀայՇտեմի» ընդլայնմանը զուգահեռ՝ առանձին ենթակորպուս է կազմելու թարգմանական գրականությունը. առանձնացվելու են թարգմանությունները ռուսերենից, անգլերենից, գերմաներենից. առանձին բաժին է լինելու (ռուսերենից, անգլերենից, գերմաներենից,) միջնորդավորված թարգմանությունների համար։ Չափածո առայժմ չի ներառվելու. ազատ բանաստեղծությունից է սկվկելու չափածոյի ենթակորպոսւի մշակումը։ Բանավոր նյութի մշակման սկսվելու է գեղարվեստական այնպիսի արձակով, որում մեծ է տարածքային առանձնահատուկ (բարբառային) լեզվական նյութի բաղադրիչը։

«ՀայՇտեմը» ՊԻՏԱԿԱՎՈՐՎԱԾ և ԾԱՆՈԹԱԳՐՎԱԾ է(tagging, annotation) ինչպես լեզվաբանական, այնպես էլ մատենագիտական մետատվյալների համակարգերով։ Տեքստերի մատենագիտական ծանոթագրման համակարգը ամբողջականացնում է որոնման համակարգն ու կոնկորդանսը և ապահովում լրացուցիչ հնարավորություններ կորպուսի հետ աշխատանքում՝ ենթակորպուսների կառուցում, նյութի տեսակավորում ըստ առանձին չափանիշների (տարեթիվ, ժանր, ոլորտ, հեղինակ և այլն)։