AWS anuncia tres servicios de inteligencia artificial
Entender una conversación natural y reconocer objetos/escenas; sin requerir inversiones de infraestructura.
Seattle, EEUU. Amazon Web Services (AWS) anunció tres servicios de Inteligencia Artificial (AI) que facilitan la construcción de cualquier desarrollador. Aplicaciones que pueden entender el lenguaje natural, convertir el texto en un discurso realista, tener conversaciones usando voz o texto, analizar imágenes y reconocer rostros; objetos y escenas. Amazon Lex, Amazon Polly y Amazon Rekognition, se basan en la misma tecnología probada y altamente escalable de Amazon construida por miles de expertos en aprendizaje profundo y aprendizaje de máquinas en toda la compañía.
Los servicios de IA de Amazon ofrecen funciones de AI de alta calidad, alta precisión escalables y rentables. Los servicios de AI de Amazon son servicios totalmente administrados, por lo que no hay algoritmos de aprendizaje profundo para construir, no se necesitan modelos de aprendizaje de máquinas para entrenar y no se requieren compromisos iniciales ni inversiones de infraestructura. Esto libera a los desarrolladores de centrarse en la definición y construcción de una nueva generación de aplicaciones que pueden ver, escuchar, hablar, entender e interactuar con el mundo que los rodea. Para obtener más información, puede visitar: https://aws.amazon.com/amazon-ai
Hasta ahora, muy pocos desarrolladores han sido capaces de construir, desplegar y ampliar suficientemente las aplicaciones con capacidades similares a las de AI, ya que hacerlo requiere acceso a grandes cantidades de datos y conocimientos especializados en aprendizaje de máquinas y redes neuronales. La aplicación eficaz de la IA implica un esfuerzo manual extensivo para desarrollar y afinar muchos tipos diferentes de aprendizaje automático y algoritmos de aprendizaje profundo (por ejemplo, reconocimiento automático de voz, comprensión del lenguaje natural, clasificación de imágenes), recoger y limpiar los datos de entrenamiento y entrenar y ajustar los modelos de aprendizaje automático.
Este proceso debe repetirse para cada característica de objeto, cara, voz y lenguaje en una aplicación. Los servicios de IA de Amazon eliminan todo este trabajo pesado, haciendo que AI sea ampliamente accesible para todos los desarrolladores de aplicaciones ofreciendo los poderosos y probados algoritmos y tecnologías de aprendizaje profundo de Amazon como servicios completamente administrados que cualquier desarrollador puede acceder a través de una llamada API o unos pocos clics en AWS Management Consola. Los servicios de Amazon AI aprovechan toda la potencia de la comprensión del lenguaje natural de Amazon, el reconocimiento de voz, el texto a voz y las tecnologías de análisis de imágenes a cualquier escala, para cualquier aplicación, en cualquier dispositivo y en cualquier lugar.
“La combinación de mejores algoritmos y un amplio acceso a cantidades masivas de datos y una potencia de cálculo rentable proporcionada por la nube, convierten a AI en una realidad para los desarrolladores de aplicaciones. AWS es el hogar de algunas de las aplicaciones de IA más innovadoras y creativas hoy en día “, dijo Raju Gulabani, vicepresidente de bases de datos, análisis y AI, AWS. “Miles de expertos en aprendizaje automático y en aprendizaje profundo de Amazon han estado desarrollando tecnologías de IA durante años para predecir lo que los clientes podrían leer, impulsar eficiencias en nuestros centros de cumplimiento a través de la robótica y las tecnologías de visión por computadora”,
La firma pone la tecnología subyacente a estas innovaciones a disposición de cualquier desarrollador en la forma de tres servicios administrados de Amazon AI que son fáciles de usar, potentes y rentables con el fin de construir una nueva generación de aplicaciones que tienen inteligencia humana y pueden ver, escuchar, hablar e interactuar con la gente y sus entornos.
Conversaciones inteligentes con Amazon Lex
Amazon Lex es un nuevo servicio para la creación de interfaces conversacionales utilizando la voz y el texto que está construido sobre la misma tecnología de reconocimiento de voz automático (ASR) y la comprensión del lenguaje natural (NLU) que usa Amazon Alexa.
Amazon Lex hace que sea fácil traer sofisticadas capacidades de lenguaje natural a prácticamente cualquier aplicación. Los desarrolladores pueden crear y robots de prueba (aplicaciones conversacionales que realizan tareas automatizadas como la comprobación de la climatología o para reservar vuelos) directamente desde la consola de administración de AWS escribiendo en unas pocas frases de muestra (por ejemplo, “encontrar un vuelo,” o “reservar un vuelo”) junto con instrucciones para obtener los parámetros necesarios para completar la tarea (por ejemplo, la fecha de viaje y destino) y las preguntas aclaratorias correspondientes para pedir al usuario (por ejemplo, “¿Cuándo quiere viajar?” y “¿Dónde quieres ir?” ).
Amazon Lex se encarga del resto, construye el modelo de lenguaje y hace las preguntas de seguimiento necesarias para completar la tarea. Debido a que Amazon Lex está integrado con AWS Lambda, los desarrolladores pueden configurar Amazon Lex para invocar el servicio de back-end apropiado (por ejemplo, el servicio de reservas de vuelos) a través de una función de AWS Lambda. Los desarrolladores también pueden utilizar conectores empresariales pre-construidos que ejecutan funciones AWS Lambda para responder a preguntas como “¿Cuáles son mis 10 mejores cuentas de Salesforce.com?” por ir a buscar los datos de los sistemas empresariales como Salesforce, Microsoft Dynamics, Marketo, Zendesk, QuickBooks y HubSpot.
Los robots construidos con Amazon Lex pueden utilizarse en cualquier lugar: desde aplicaciones web, hasta aplicaciones de chat y mensajería como Slack y Facebook Messenger, o mediante aplicaciones de voz en dispositivos móviles o conectados. Amazon Lex maneja la autenticación requerida por diferentes plataformas y simplifica el diseño de la interfaz de usuario al no requerir que los desarrolladores escriban código personalizado para cada plataforma. Por otra parte, los desarrolladores no tienen que preocuparse de escalar su infraestructura como Amazon Lex escalas automáticamente como el tráfico a un bot aumenta, y los desarrolladores pagan sólo por las llamadas realizadas a la Amazon Lex API.
Capital One ofrece un amplio espectro de productos y servicios financieros a consumidores, pequeñas empresas y clientes comerciales a través de una variedad de canales. “Como usuario fiel de AWS, la integración perfecta de Amazon Lex con otros servicios de AWS como AWS Lambda y Amazon DynamoDB es realmente atractiva”, dijo Firoze Lafeer, director de tecnología de Capital One Labs, Capital One. “Una solución altamente escalable. Amazon Lex también ofrece potencial para acelerar el tiempo de lanzamiento al mercado para una nueva generación de interacciones de voz y texto, como nuestra recién lanzada habilidad de Capital One para Alexa”.
OhioHealth es una organización de salud nacionalmente reconocida con una red de más de 11 hospitales en 47 condados. “Estamos muy entusiasmados con la utilización de la evolución del reconocimiento de voz y la tecnología de procesamiento de lenguaje natural para mejorar la vida de nuestros clientes. Amazon Lex representa una gran oportunidad para ofrecer una nueva experiencia a nuestros pacientes “, dijo Michael Krouse, Vicepresidente Senior de Soporte Operacional y Director de Información de OhioHealth. “Todo lo que hacemos en OhioHealth es, en última instancia, proporcionar el cuidado adecuado a nuestros pacientes en el momento y en el lugar correcto. La tecnología de próxima generación de Amazon Lex y las innovadoras aplicaciones que estamos desarrollando al usarla, ayudarán a proporcionar una experiencia mejorada al cliente. Sólo estamos rascando la superficie de lo que es posible.”
HubSpot es un líder en marketing y ventas de software. “El GrowthBot de HubSpot es un chatbot todo en uno que ayuda a los vendedores a ser más productivos proporcionando acceso a datos y servicios relevantes usando una interfaz de conversación. Con GrowthBot, los vendedores pueden obtener ayuda para crear contenido, investigar a los competidores y supervisar sus análisis. A través de Amazon Lex, estamos agregando sofisticadas capacidades de procesamiento de lenguaje natural que ayudan a GrowthBot a proporcionar una interfaz de usuario más intuitiva para nuestros usuarios “, dijo Dharmesh Shah, director de tecnología y fundador de HubSpot. “Amazon Lex nos permite aprovechar la IA avanzada y el aprendizaje automático sin tener que codificar los algoritmos nosotros mismos.”
Twilio ayuda a las empresas a hacer las comunicaciones relevantes y contextuales al permitir incorporar fácilmente capacidades de comunicación y autenticación en tiempo real directamente en las aplicaciones de software. “Los desarrolladores y las empresas utilizan Twilio para crear aplicaciones que pueden comunicarse con los clientes en prácticamente todos los rincones del mundo”, dijo Benjamin Stein, Director de Messaging Products, Twilio. “Amazon Lex proporcionará a los desarrolladores una arquitectura modular fácil de usar y API completas para permitir la construcción y despliegue de robots conversacionales en plataformas móviles. Esperamos ver lo que nuestros clientes construyen utilizando Twilio y Amazon Lex.”
Amazon Polly
Amazon Polly facilita a los desarrolladores añadir capacidades de voz con sonido natural a aplicaciones existentes como lectores de noticias y plataformas de e-learning, o crear categorías completamente nuevas de productos habilitados para voz, desde aplicaciones móviles a aplicaciones. Amazon Polly es fácil de usar; Los desarrolladores pueden enviar texto a Amazon Polly utilizando el SDK o desde AWS Management Console y Polly devuelve inmediatamente una secuencia de audio que se puede reproducir directamente o almacenar en un formato de archivo de audio estándar. Con 47 voces realistas y soporte para 24 idiomas, los desarrolladores pueden elegir entre voces masculinas y femeninas con una variedad de acentos para hacer aplicaciones para usuarios de todo el mundo. Y la pronunciación fluida de Amazon Polly de contenido de texto significa que las aplicaciones ofrecen una salida de voz de alta calidad a través de una amplia variedad de formatos de texto. Amazon Polly es escalable, devuelve un discurso rápido de alta calidad, incluso al convertir grandes volúmenes de texto a voz. Con Amazon Polly, los desarrolladores pagan sólo por el texto que convierten, y pueden almacenar en caché el discurso generado y reproducirlo tantas veces como quieran sin restricciones.
El Washington Post es una empresa de medios y tecnología ganadora del Premio Pulitzer que publica más de 1200 historias al día. “Hemos estado interesados en ofrecer versiones de audio de nuestras historias, pero hemos descubierto que las soluciones de texto a voz existentes no son rentables para la calidad del habla que ofrecen”, dijo Joseph Price, Gerente Senior de Producto de The Washington Post. “Con la llegada de Amazon Polly y sus voces de alta calidad, esperamos ofrecer a los lectores formas más ricas y versátiles de experimentar nuestro contenido”.
GoAnimate es una plataforma de creación de video animada basada en la nube, diseñada para permitir a los empresarios sin experiencia en animación crear rápida y fácilmente vídeos animados. “Amazon Polly da a los usuarios de GoAnimate la capacidad de dar voz inmediatamente a los personajes que animan usando nuestra plataforma. Esto es especialmente útil en escenarios en los que la voz en directo es un recurso o un tiempo prohibitivo, como cuando se desarrolla un vídeo en muchos idiomas o dentro de la preproducción para acelerar el proceso de aprobación “, dijo Alvin Hung, CEO y Fundador de GoAnimate. “El discurso de Amazon Polly se integra perfectamente con nuestro rico conjunto de activos preanimados, lo que refuerza la facilidad de uso de GoAnimate y ofrece a nuestros clientes eficiencia y rapidez en el mercado”.
Análisis inteligente con Amazon Rekognition
Amazon Rekognition permite a los desarrolladores crear rápida y fácilmente aplicaciones que analizan imágenes y reconocen rostros, objetos y escenas. Amazon Rekognition utiliza tecnologías de aprendizaje profundo para identificar automáticamente objetos y escenas, como vehículos, mascotas o muebles, y proporciona una puntuación de confianza que permite a los desarrolladores etiquetar imágenes para que los usuarios de aplicaciones puedan buscar imágenes específicas utilizando palabras clave.
Amazon Rekognition puede localizar las caras dentro de las imágenes y detectar atributos, como si la cara está sonriendo o los ojos están abiertos. Amazon Rekognition también soporta avanzadas funcionalidades de análisis faciales, tales como; comparación facial y búsqueda facial. Usando Rekognition, los desarrolladores pueden construir una aplicación que mide la probabilidad de que las caras en dos imágenes sean de la misma persona, pudiendo así verificar un usuario con una foto de referencia en tiempo casi real. Del mismo modo, los desarrolladores pueden crear colecciones de millones de caras (detectadas en imágenes) y pueden buscar una cara similar a su imagen dentro de la colección. Amazon Rekognition elimina la complejidad y la sobrecarga requerida para desarrollar y administrar tuberías costosas de procesamiento de imágenes, haciendo que la capacidad de clasificación, detección y administración de imágenes esté disponible en un servicio AWS simple, rentable y confiable. No hay costos iniciales para Amazon Rekognition, los desarrolladores pagan sólo por las imágenes que analizan y los vectores de características faciales que almacenan.
Redfin es un corretaje de servicio completo que utiliza tecnología moderna para ayudar a la gente a comprar y vender casas. “A los usuarios de Redfin les encanta ver imágenes de propiedades en nuestro sitio y aplicaciones móviles, y queremos que sea más fácil para nuestros usuarios revisar cientos de millones de anuncios e imágenes”, dice Yong Huang, Director de Big Data & Analytics, Redfin.
“Amazon Rekognition genera un rico conjunto de etiquetas directamente desde imágenes de propiedades. Esto hace que sea relativamente sencillo construir una función de búsqueda inteligente que ayuda a los clientes a descubrir casas en función de sus necesidades específicas, como una chimenea, patio o piscina. Y como Rekognition acepta las URL de Amazon S3, es un gran ahorro de tiempo para detectar objetos, escenas y caras sin tener que mover imágenes.
SmugMug es un hogar seguro y hermoso para las fotos que almacena millones de fotos para millones de clientes cada día. “Los clientes de SmugMug quieren dedicar su tiempo a hacer más recuerdos, no a gestionar manualmente su colección de fotos”, dijo Don MacAskill, Cofundador, Director Ejecutivo y Chief Geek de SmugMug. “Amazon Rekognition nos permitirá identificar automáticamente el contenido en las fotos de los clientes, desbloqueando una serie de características que les permitirá a ellos ya sus visitantes tener más tiempo para concentrarse en disfrutar de la vida y celebrar sus fotos”.
Aprendizaje Profundo y AI en AWS
Amazon Polly está disponible hoy en las regiones del este de los Estados Unidos (Virginia del Norte), del este de los EEUU (Ohio), del oeste de los EEUU (Oregon), y de la UE (Dublín), y ampliará a las regiones adicionales en los meses que vienen. Amazon Rekognition está disponible en las regiones del este de los Estados Unidos (Virginia del Norte), del oeste de los Estados Unidos (Oregón) y de la UE (Dublín), y se expandirá a otras regiones en los próximos meses. Los clientes pueden inscribirse para la vista previa de Amazon Lex a partir de hoy.
Además de estos servicios, AWS anunció recientemente que está invirtiendo significativamente en MXNet, un framework de aprendizaje profundo distribuido de código abierto, inicialmente desarrollado por la Universidad Carnegie Mellon y otras universidades de primer nivel, aportando código y mejorando la experiencia del desarrollador. MXNet permitirá a los científicos de aprendizaje a construir modelos escalables de aprendizaje profundo que pueden reducir significativamente el tiempo de entrenamiento para sus aplicaciones. Para obtener más información sobre el soporte de AWS para MXNet, visite: http://www.allthingsdistributed.com/2016/11/mxnet-default-framework-deep-learning-aws.html.
AWS también hace que sea fácil para los desarrolladores ejecutar sus propias cargas de trabajo de aprendizaje profundo y de aprendizaje automático para construir su propia plataforma de AI en la parte superior de AWS. Amazon Elastic Compute Cloud (Amazon EC2), con su amplio conjunto de tipos de instancia y GPUs con grandes cantidades de memoria, es ideal para la formación de aprendizaje profundo. Las instancias de P2, lanzadas en septiembre de 2016, fueron diseñadas para el aprendizaje en máquina a gran escala y el aprendizaje en profundidad con hasta 8 NVIDIA Tesla K80 Accelerators, cada una ejecutando un par de GPUs NVIDIDA GK210 con 12 GB de memoria y 2.496 núcleos de procesamiento paralelo.
Y los clientes pueden hacer uso del AMI de Aprendizaje Profundo de AWS, el cual contiene seis frameworks de aprendizaje profundo pre configurados y probados previamente incluyendo todas las dependencias, controladores Nvidia y herramientas de ciencias de datos como Jupyter y Anaconda. Además, las plantillas AWS CloudFormation están disponibles para el entrenamiento de redes neuronales profundas a escala en tan sólo unos clics.