← На головну

Про проєкт

verba — відкритий, уніфікований корпус українських прислів'їв, приказок і висловів, зведений із п'яти оцифрованих зібрань від 1841 року до сучасності.

48 787 записів; кожен — із сучасним написанням і тематичними мітками, із пошуком за словом, темою, джерелом і за змістом.

Що це

Десятиліттями українська пареміологія лишалася розпорошеною по окремих друкованих збірках із різним правописом і без спільного машиночитного формату. verba зводить ці зібрання в один корпус і робить його придатним для пошуку, дослідження та повторного використання.

Кожен запис містить: оригінальний текст (зі збереженням історичного правопису джерела), сучасне написання, 1–3 теми з фіксованих 27, джерело та посилання, і групу варіантів (зв'язок ймовірних діалектних відповідників).

Джерела

Як зроблено

Історичні видання оцифровано; для сканів застосовано оптичне розпізнавання (tesseract), а матеріал Номиса здобуто з критичного апарату видання. Дублікати м'яко об'єднано, а ймовірні діалектні варіанти зв'язано, а не знищено. Тексти подано якнайближче до джерел.

Чесно про межі: збірка Номиса (1864) — це найкраще можливе OCR (≈75–80 % точності символів), тож поодинокі помилки розпізнавання трапляються. Сучасне написання й теми згенеровані штучним інтелектом і є орієнтовними (сучасне написання ≈95 % прийнятне, теми ≈85 %). Найнадійніша мітка — основна тема.

У самих даних типографіку зведено до простого ASCII (прямі лапки, апостроф, дефіс) — щоб корпус було легко обробляти кодом; українську типографіку (« », тире, ') застосовано лише на показ — на сайті та картках.

Як користуватися

Ліцензія та цитування

Упорядкування та збагачення (структура корпусу, сучасне написання, теми, очищені пояснення, групи варіантів) — CC BY 4.0. Історичні тексти (1841–1909) — суспільне надбання. Сучасні збірки (Бобкова; Млодзинський, 2009) лишаються під правами видавців; включено для досліджень та освіти, з атрибуцією за полем sources.

Як цитувати:

Yemelianov, Dmytro (2026). verba — Ukrainian Proverbs Corpus (v1.0.2). https://verbacorpus.org · ORCID 0009-0002-9244-7426

Автор: Дмитро Ємельянов · Версія 1.0.2 · GitHub · Карта даних · API