Как русский RAG-сплиттер может перевернуть ваш подход к документообороту

🔥 40 мин назад · ⏱ 1 мин чтения

Как я обучил русский RAG‑сплиттер, который режет документы по индексам, а не по тексту

🧩 Как русский RAG-сплиттер может перевернуть ваш подход к документообороту

В мире технологий, где каждый байт на счету, новый RAG-сплиттер для русских документов может стать настоящим спасением. Задумка проста: вместо переписывания текста модель просто возвращает индексы границ, по которым потом режется оригинал. Это как если бы вы резали пирог по заранее намеченным линиям, а не пытались выдумывать новые. В итоге, ваш текст остается нетронутым — а это критично для точности в системах, где важна каждая запятая.

Обучение этой модели заняло всего 3,5 часа на RTX 5090, съев 25,4 ГБ памяти. Результаты впечатляют: тестовый документ из девяти юнитов обрабатывается за 1,2 секунды. Но самое интересное — это возможность избежать классических ошибок, которые делают другие чанкеры. Например, таблицы остаются целыми, если их правильно распознал upstream-парсер, а это значит, что вы больше не потеряете важные заголовки и метаданные.

◾️ Обучение: 3,5 часа, 25,4 ГБ VRAM
◾️ Скорость: 1,2 секунды на документ
◾️ Память: 5,9 ГБ на AMD Strix Halo
◾️ Точность: boundary-F1 @±1 = 0.821

> «Заметная часть проблем «русского чанкинга» — просто цена кириллицы в токенах.»

Так что, возможно, в ближайшем будущем ваш документооборот станет на порядок эффективнее. Готовы ли вы к новым возможностям русского RAG?

Оцените:

#Nvidia #Процессоры

Первоисточник ↗

Как русский RAG-сплиттер может перевернуть ваш подход к документообороту

ChatGPT и однообразный код: миф или реальность?

Как выглядела бы Декларация независимости, если бы её писали с помощью ИИ?

Midjourney требует от Голливуда раскрыть секреты использования ИИ