Для распознавания голосовых ответов используется специально адаптированная нами нейросеть — модифицированная версия модели Whisper (open source). Мы оптимизировали её, чтобы она распознавала речь более чем на десяти языках, автоматически переводила её на английский (с помощью встроенной функции en-force), а затем на русский. Модель поддерживает широкий перечень аудиоформатов (OGG, OGA, WAV, MP3, MP4), а также способна работать с видеозаписями.