Преобразование речи в текст с помощью ИИ

OCI Speech — это основанный на технологии автоматического распознавания речи ИИ-сервис для преобразования аудиоконтента в текст. Делая вызовы API, разработчики легко могут интегрировать предварительно обученные модели OCI Speech в свои приложения. OCI Speech можно использовать для точной расшифровки аудио с нормализацией текста и простановкой тайм-кодов через консоль и API REST, а также в виде интерфейсов командной строки или SDK. OCI Speech можно также использовать в сеансе блокнота OCI Data Science. OCI Speech позволяет отфильтровывать нецензурную лексику, определять степень достоверности как для отдельных слов, так и для расшифровки в целом и т. д.

Возможности OCI Speech

Готовые акустические и языковые модели

OCI Speech использует автоматическое распознавание речи — процесс глубокого обучения, который обеспечивает точную транскрипцию живой речи. Благодаря готовым акустическим и языковым моделям начать работу очень просто, даже не имея опыта в сфере интеллектуальной обработки данных.

Анализ данных из аудио- и видеофайлов

Поиск, индексация и дешифровка данных, которые содержатся в ваших аудиофайлах. Преобразование аудиозаписей диалогов в текст для анализа с помощью сервисов искусственного интеллекта. Например, можно использовать OCI Language для анализа тональности текста, а возможности OCI Speech по выявлению отклонений — для прогнозирования оттока клиентов.

Нативная поддержка нескольких языков

Модели ASR OCI Speech поддерживают английский, испанский и португальский языки, так что вы можете транскрибировать аудиозаписи на нужном языке.

Диаризация для повышения удобства чтения и понимания

OCI Speech поддерживает диаризацию для организации, анализа и извлечения важной информации из разговорного общения.


Встроенный сервис транскрипции

Откажитесь от использования сторонних предложений по транскрипции и улучшите контроль над своими данными, укрепив защиту и соблюдая нормативные требования.

Простая интеграция

OCI Speech — это универсальный сервис, который можно вызывать с помощью REST API, различных SDK и Oracle CLI. Разработчики могут без труда развернуть масштабируемый сервис распознавания речи, не имея опыта в области data science или машинного обучения.

Разработано с учетом требований к безопасности и конфиденциальности

Oracle Cloud Infrastructure Speech обеспечивает конфиденциальность данных заказчика. Готовые модели автоматического распознавания речи транскрибируют ваш контент, но не сохраняют никакие данные для обучения, отладки или иных целей.


Встроенный сервис транскрипции

OCI Speech использует собственные модели и инфраструктуру, которые позволяют быстро преобразовывать речь в текст.

Оценка достоверности для слов

Мы добавили оценку достоверности на уровне слова, чтобы вам было проще обнаружить слова, которые могли быть затранскрибированы с ошибками. Используйте оценку достоверности на уровне слов, чтобы определить, на что обратить особое внимание при создании приложения.

Фильтры нецензурной лексики

Мы добавили готовый фильтр, который использует подготовленный список нецензурной лексики. Нецензурные слова можно скрыть, удалить или отметить тегом.


Примеры использования OCI Speech

  • Анализ отзывов заказчиков

  • Поиск содержимого цифровых мультимедийных материалов и субтитры

    Автоматически предоставляйте субтитры в рабочих процессах на платформе OCI для всего содержимого, созданного и отбираемого сервисом цифровых мультимедийных материалов. Индексируйте контент с помощью OCI Speech, чтобы было удобнее и проще искать содержимое.

  • Центры обработки звонков, анализ вызовов

    OCI Speech может транскрибировать вызовы заказчиков, чтобы было легко выполнять поиск и извлекать нужную информацию. OCI Language и Anomaly Detection вместе позволяют определять настроение, прогнозировать отток заказчиков и выявлять возможности для обучения персонала.

Ресурсы OCI Speech

27 апреля 2022 г.

В OCI Speech теперь доступны пунктуация, субтитры и модели для частоты дискретизации 8 кГц.

Гай Микаэли (Guy Michaeli), старший менеджер по продуктам,

Сегодня мы с радостью представляем вам три новые возможности, которые теперь доступны в сервисе Speech без дополнительной платы. Это встроенная поддержка аудиофайлов с частотой дискретизации 8 кГц, поддержка вывода в формат SRT (формат субтитров) и автоматическая расстановка знаков препинания в полученном тексте. Эти новые функции теперь доступны во всех регионах коммерческого распространения OCI. Мы подготовили это обновление в рамках непрекращающейся работы по созданию доступного сервиса высококачественного транскрибирования.

Читать статью полностью

Начало работы с OCI Speech


Oracle Cloud Free Tier

Создавайте, тестируйте и разворачивайте приложения в Oracle Cloud бесплатно.