В рамках заявленного партнёрства Международного общества «Қазақ тілі» и OpenAI представлены первые результаты масштабного проекта по развитию казахского языка в технологиях искусственного интеллекта. Среди ключевых достижений — многомиллиардный текстовый корпус, аудиобаза свыше 10 тысяч часов и специализированный бенчмарк для оценки языковых моделей, передает Bairaqmedia.kz.
Согласно представленному материалу, в рамках совместного проекта сформирован Kazakh Text Corpus объёмом более 10 миллиардов токенов. Корпус основан на реальных источниках, прошёл очистку, фильтрацию конфиденциальных данных и включает тексты из различных сфер — от науки и права до медиа и детской литературы, а также отражает историческое развитие казахского языка и его диаспор.
Параллельно создан аудиокорпус объёмом свыше 10 800 часов, включая 1 000 часов «золотого стандарта» с ручной транскрипцией и экспертной проверкой. Сообщается, что более 70% данных записаны с высокой частотой дискретизации (44 кГц и выше). Точность моделей распознавания речи на казахском языке превышает 92%, при этом отмечаются ошибки, когда система путает казахский с другими тюркскими языками.
Отдельно разработан AI Evaluation Benchmark Suite — система оценки больших языковых моделей по направлениям: понимание текста, грамматика, естественность языка, пословицы и идиомы, академический и художественный перевод, перевод детской литературы, а также безопасность и этнографические знания. На данный момент часть модулей уже завершена, остальные находятся в финальной стадии.
По приведённым результатам, показатели качества варьируются: понимание текста — 76,89%, грамматика — 72,24%, естественность языка — 23,08%, при этом переводческие задачи демонстрируют более высокие значения (до 89,22% в переводе детской литературы).
Также отмечается высокая эффективность технологий обработки документов: OCR и layout parsing достигают точности около 99%. В перспективе заявлена цель довести качество распознавания и обработки казахской речи до 99% и усилить присутствие языка в цифровой и AI-экосистеме.