Про проєкт
verba — відкритий, уніфікований корпус українських прислів'їв, приказок і висловів, зведений із п'яти оцифрованих зібрань від 1841 року до сучасності.
48 787 записів; кожен — із сучасним написанням і тематичними мітками, із пошуком за словом, темою, джерелом і за змістом.
Що це
Десятиліттями українська пареміологія лишалася розпорошеною по окремих друкованих збірках із різним правописом і без спільного машиночитного формату. verba зводить ці зібрання в один корпус і робить його придатним для пошуку, дослідження та повторного використання.
Кожен запис містить: оригінальний текст (зі збереженням історичного правопису джерела), сучасне написання, 1–3 теми з фіксованих 27, джерело та посилання, і групу варіантів (зв'язок ймовірних діалектних відповідників).
Джерела
Як зроблено
Історичні видання оцифровано; для сканів застосовано оптичне розпізнавання (tesseract), а матеріал Номиса здобуто з критичного апарату видання. Дублікати м'яко об'єднано, а ймовірні діалектні варіанти зв'язано, а не знищено. Тексти подано якнайближче до джерел.
Чесно про межі: збірка Номиса (1864) — це найкраще можливе OCR (≈75–80 % точності символів), тож поодинокі помилки розпізнавання трапляються. Сучасне написання й теми згенеровані штучним інтелектом і є орієнтовними (сучасне написання ≈95 % прийнятне, теми ≈85 %). Найнадійніша мітка — основна тема.
У самих даних типографіку зведено до простого ASCII (прямі лапки, апостроф, дефіс) — щоб корпус було легко обробляти кодом; українську типографіку (« », тире, ') застосовано лише на показ — на сайті та картках.
Як користуватися
- Вебдодаток — пошук, фільтри за темою й джерелом, семантичний пошук «за змістом», режим «Гортати» та збережені прислів'я.
- REST API (
/api/v1) — JSON · JSONL · XML · CSV · TSV; див. документацію API. - Завантаження — повний корпус у кожному форматі, разом із картою даних і метаданими Croissant, у релізах на GitHub.
Ліцензія та цитування
Упорядкування та збагачення (структура корпусу, сучасне написання, теми, очищені пояснення, групи
варіантів) — CC BY 4.0. Історичні тексти (1841–1909) — суспільне надбання. Сучасні збірки
(Бобкова; Млодзинський, 2009) лишаються під правами видавців; включено для досліджень та освіти, з атрибуцією за
полем sources.
Як цитувати:
Yemelianov, Dmytro (2026). verba — Ukrainian Proverbs Corpus (v1.0.2). https://verbacorpus.org · ORCID 0009-0002-9244-7426