105 млн параметров и обучение на 5000 часах обезличенной медицинской речи для точной расшифровки терминов.

Ошибиться в медицинской диктовке проще простого: одно неверно распознанное слово, и «похожий» термин превращает смысл фразы в противоположный. На этом фоне появился MedASR, специализированный speech to text для медицины, который рассчитан именно на диктовку врачей и расшифровку клинических разговоров, а не на «среднюю температуру» по всем аудиозаписям мира.
Модель построена на архитектуре Conformer и предварительно обучена на большом массиве обезличенной медицинской речи. В описании говорится примерно о 5000 часах данных, куда вошли как врачебные диктовки, так и фрагменты клинических диалогов. Корпус собирали из разных направлений, упоминаются радиология, внутренние болезни и семейная медицина, то есть там, где встречаются и узкие термины, и разговорная речь пациента.
По характеристикам MedASR это модель на 105 миллионов параметров. На вход она принимает моноаудио 16 кГц в виде waveform формата int16 и выдает только текстовую расшифровку. То есть это именно «движок распознавания», без попыток понять смысл или сразу оформить документ.
Разработчики позиционируют MedASR как базовую основу для голосовых приложений в здравоохранении. В практических сценариях это может быть более аккуратная расшифровка радиологических заключений с анатомическими и патологическими терминами, а также перевод в текст бесед врача и пациента, чтобы дальше помогать с заполнением клинических заметок. При этом уточняется, что использовать модель можно в рамках условий Health AI Developer Foundations.
Отдельный акцент сделан на том, что MedASR можно дообучать под свои задачи: например, под конкретные акценты, шумные кабинеты и неидеальные микрофоны, расширение словаря, а также более стабильное распознавание дат, времени и длительностей. А если нужно не просто получить расшифровку, а дальше извлечь смысл, сделать резюме или ответить на вопросы по тексту, транскрипт предлагают передавать в генеративные модели вроде MedGemma. В типовом конвейере это выглядит так: сначала MedASR превращает аудиозапись приема в текст, затем другая модель по этому тексту формирует, например, SOAP заметку или кратко сводит ключевые симптомы и лекарства.