OpenAI и Международное общество «Қазақ тілі» представили результаты совместного проекта по развитию казахского языка в ИИ

Едил Аманжол

Редактор

05.06.2026, 13:32

Фото: Пресс-служба Международного общества «Қазақ тілі»

Созданы крупные текстовые и аудиокорпуса, а также система оценки LLM для повышения качества обработки казахского языка в цифровой среде

В рамках заявленного партнёрства Международного общества «Қазақ тілі» и OpenAI представлены первые результаты масштабного проекта по развитию казахского языка в технологиях искусственного интеллекта. Среди ключевых достижений — многомиллиардный текстовый корпус, аудиобаза свыше 10 тысяч часов и специализированный бенчмарк для оценки языковых моделей, передает Bairaqmedia.kz.

Согласно представленному материалу, в рамках совместного проекта сформирован Kazakh Text Corpus объёмом более 10 миллиардов токенов. Корпус основан на реальных источниках, прошёл очистку, фильтрацию конфиденциальных данных и включает тексты из различных сфер — от науки и права до медиа и детской литературы, а также отражает историческое развитие казахского языка и его диаспор.

Параллельно создан аудиокорпус объёмом свыше 10 800 часов, включая 1 000 часов «золотого стандарта» с ручной транскрипцией и экспертной проверкой. Сообщается, что более 70% данных записаны с высокой частотой дискретизации (44 кГц и выше). Точность моделей распознавания речи на казахском языке превышает 92%, при этом отмечаются ошибки, когда система путает казахский с другими тюркскими языками.

Отдельно разработан AI Evaluation Benchmark Suite — система оценки больших языковых моделей по направлениям: понимание текста, грамматика, естественность языка, пословицы и идиомы, академический и художественный перевод, перевод детской литературы, а также безопасность и этнографические знания. На данный момент часть модулей уже завершена, остальные находятся в финальной стадии.

По приведённым результатам, показатели качества варьируются: понимание текста — 76,89%, грамматика — 72,24%, естественность языка — 23,08%, при этом переводческие задачи демонстрируют более высокие значения (до 89,22% в переводе детской литературы).

Также отмечается высокая эффективность технологий обработки документов: OCR и layout parsing достигают точности около 99%. В перспективе заявлена цель довести качество распознавания и обработки казахской речи до 99% и усилить присутствие языка в цифровой и AI-экосистеме.