El reconocimiento visual de Microsoft supera al ojo humano

En los últimos años, Microsoft ha desarrollado sus sistemas de reconocimiento de imagen y audio. Si bien es cierto que no nos afecta ya que no se usa en productos de consumo, el trabajo es asombroso. El otro día estuvimos hablando sobre su reconocimiento de audio y cómo pasó el oído humano y ahora han pasado el ojo humano.

los sistemas de lenguaje visual (VL) le permite encontrar las imágenes relevantes para una consulta de texto (o viceversa) y describir el contenido de una imagen utilizando lenguaje natural. Normalmente, un sistema VL utiliza un módulo de codificación de imágenes y un módulo de fusión de lenguaje de visión. Microsoft Research desarrolló recientemente un nuevo modelo de detección de atributos de objetos para la codificación de imágenes llamado VinVL (Funciones visuales en Vision-Language).

Índice

    El reconocimiento de objetos de Microsoft supera al ojo humano

    La forma de conseguir este nuevo disco es a través de VinVL. Esto se combina con módulos de fusión VL como OSCAR y VIVO. Como resultado, el nuevo sistema VL de Microsoft pudo alcanzar el primer lugar en las clasificaciones VL más competitivas. Otras grabaciones incluyen Respuesta visual a preguntas. (VQA), Título de imagen de Microsoft COCO y Subtitulado de objetos innovadores (KO). El equipo de investigación de Microsoft también señaló que este nuevo sistema LV supera significativamente el desempeño humano en el ranking KO en términos de CIDEr (92.5 vs 85.3).

    Microsoft-Vision-Language-System supera al ojo humano

    VinVL ha demostrado un gran potencial para mejorar la codificación de imágenes para comprender la VL. El modelo de codificación de imágenes puede beneficiarse de una amplia gama de tareas VL. A pesar de los resultados prometedores que obtuvieron, el modelo de ninguna manera alcanza la inteligencia humana para comprender la LV.

    En Microsoft, están buscando ampliar aún más el entrenamiento previo a la detección de atributos de objetos. Explotando datos masivos de clasificación / etiquetado de imágenes. Por otro lado, expanda los métodos de renderizado Vehículos ligeros multimodales. Aprendiendo y construyendo modelos de lenguaje basados ​​en la percepción que pueden anclar conceptos visuales en el lenguaje natural y viceversa como lo hacen los humanos.

    Microsoft VinVL se está integrando en Servicios cognitivos de Azure, que impulsa varios servicios de Microsoft. El equipo de investigación de Microsoft también dará a conocer el modelo VinVL y el código fuente al público.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Subir