Hola,
Después de dos domingos sin aparecer, ya me tienes de vuelta con las pilas puestas tras un pequeño traspiés de salud y con muchas ganas de seguir compartiendo.
Antes de seguir avanzando, si te gusta el contenido que te traigo cada semana, compártelo con amigos y colegas de trabajo. Seguro que a unos cuantos les resultará un contenido interesante.
En esta ocasión, vengo con una pequeña colección de API sobre síntesis de voz y Speech to text.
Desde la incursión de la IA en el campo de la síntesis de audio, la generación de voces y locuciones artificiales viene avanzando a pasos agigantados; tanto que hasta podrías confundirla con voz humana y que incluso, casi sería capaz de llorar. Y a la inversa también: la capacidad de reconocer el habla para transcribirlo al texto, también va como un auténtico cohete.
La síntesis de voz se remonta mucho más atrás en el tiempo y si tienes un poco de curiosidad, date un paseo por la Wikipedia.
Hablar de Loquendo o incluso Siri, Google Assistant y Alexa es una referencia fácil y cercana a todas las personas con un dispositivo móvil.
Sin embargo, al menos para mi, hay tres momentos, que fueron terroríficamente épicos en el avance de la síntesis de voz sumado al ML / IA:
Adobe VoCo[video], el prototipo de “photoshop de la voz” que nunca vió la luz.
Lyrebird[video], que fue adquirida por $15M de nada Descript.
Wavenet[wiki].
¿De verdad que tengo que contarte sobre aplicaciones prácticas de esta tecnología? Creo que no.
Sin más vueltas, voy a la chicha, empezando por las API más conocidas – y en ocasiones, complejas de manejar – y luego, por otras opciones muy interesantes:
📂 TEXT TO SPEECH API
Google Cloud TTS. MS Azure TTS. Amazon Polly. IBM Watson TTS.
PLAY.HT también te resultará interesante incluso si no necesitas API. Es una mágnifica herramienta online capaz de crear unas voces sorprendentemente humanas. Puedes suscribirte desde 90$ / año o comprando “Bolsas de palabras” desde 50k por unos 30€.
Te permitirá crear audio desde texto creado por ti, a partir de un enlace o poder incrustarlo en Medium, WordPress o hasta crear tu propio podcast a partir de un texto escrito/url. Además pondrá a tu disposición las mejores voces de Google, Amazon, IBM y Microsoft.
Importante: Si quieres tener acceso a la API, tienes que solicitarla al equipo de soporte.
Se compone de varios productos: Replica Voice es capaz de clonar tu voz mediante generado con IA. A partir de una hora de muestras de tu propia voz, su algoritmo será capaz de producir una copia de alta calidad. Replica Studio te permitirá realizar un prototipado rápido de guiones e interpretaciones vocales. Replica API, para que puedas integrar sus productos dentro de tu proyecto. Y además, un plugin para Unreal Engine, siendo capaz de crear voces de forma dinámica para los personajes, aplicando énfasis y emociones para dar una mayor inmersión en el juego. No dispone de voces en español.
Resemble también es un potente motor de conversión de texto a voz para crear experiencias con casi cualquier tipo de voz. Dispone de un catálogo de más de 40k voces. ¿Pero sabes lo que más me llamó la atención de este proyecto? Pues que podrías ganar hasta 50$ cediendo tu voz y el 50% de los beneficios compartidos cuando otros profesionales que contraten esta herramienta utilicen un modelo generado a partir de tu voz.
📂 SPEECH TO TEXT API
Google Cloud STT. MS Azure STT. Amazon Transcribe. IBM Watson STT.
Disponible para español. Su API es capaz de funcionar de forma asíncrona y en tiempo real.
📂 Carpeta “Otros Enlaces”
Simplql.com es una maravillosa herramienta que funciona dentro del navegador y que permite arrastrar archivos CSV, JSON o XLS y realizar consultas SQL contra ellos.
Datanews.io con esta API podrás consultar noticias que ocurren en casi todo el planeta. Puedes abrir una cuenta gratuita que te permite realizar 3k peticiones / mes. No recoge noticias de España.
Metricool (Lifetime). Si quieres automatizar casi al completo la gestión de redes sociales de tus clientes o tu negocio, serán los euros mejor invertidos del 2021 en herramientas.