sábado, 23 de mayo de 2009

textos automatizados

SISTEMA AUTOMATIZADO DE TRANSCRIPCION Y METODO QUE USA DOS MODELOS DE CONVERSION DE VOZ Y CORRECCION ASISTIDA POR COMPUTADORA.

Resumen:
Se describe un sistema para automatizar de manera substancial los servicios de transcripción para uno o más usuarios de voz. Este sistema recibe un archivo de dictado de voz de un usuario actual que se convierte automáticamente en un primer texto escrito en base a un primer grupo de variables de conversión. El mismo archivo de dictado de voz se convierte automáticamente en un segundo texto escrito en base a un segundo grupo de variables de conversión. Los grupos primero y segundo de variables de conversión tienen cuando menos una diferencia, tal como diferentes programas de reconocimiento de voz, diferentes vocabularios, y similares. El sistema, además, incluye un programa para editar manualmente una copia de textos escritos primero y segundo para crear un texto verbatim de archivo de dictado de voz (40). Este texto verbatim puede entonces ser presentado al usuario actual en forma de texto transcrito. El texto verbatim también puede ser retroalimentado a cada nivel de reconocimiento de voz para mejorar la precisión de cada nivel con respecto a la voz humana en el archivo.




Resúmenes automatizados





*
Definición
*
Tipos
*
Técnicas
*
Ejemplos



“La práctica de resumir se inserta en el paradigma de la representación documental o conjunto de procesos que experimentan los documentos en el seno de una colección determinada, con el objetivo de facilitar su recuperación, y sobre todo de potenciar su capacidad informativa. Su resultado es el resumen, documento secundario muy apreciado entre profesionales y estudiosos por su potencial informativo, convirtiéndose en el más importante vehículo de información referencial al servicio del principio de entropía que rige el comportamiento humano. El resumen es un instrumento eficaz en los sistemas de recuperación automatizados, ya que muchos creadores de bases de datos lo utilizan como fuente de indización para la selección de palabras claves representativas, y por tanto como clave de búsqueda en texto libre. Incluso en el contexto de los documentos electrónicos enlazados de un modo reticular, el resumen sigue siendo el metadato de más complejidad y relevancia informativa” (María Pinto Molina)





Definición:



El resumen de documentos ha sido siempre considerado una labor lenta y tediosa para los profesionales de la documentación. Hace años que existen ciertos avances enfocados hacia la automatización de esta tarea, aunque ha sido la explosión de Internet el verdadero motor del resumen automático de documentos.



¿Cómo obtener únicamente los documentos y la información que nos interesa entre toda la maraña de documentos y millones de páginas que pueblan la red? Según María Jesús Lamarca, “una ayuda importante sería que alguien o algo nos informara del contenido de los documentos para así obtener, filtrar, clasificar y extraer la información que nos interese.”



De esta forma, el buscador ideal encontraría la información que buscamos preguntándole en nuestra propia lengua, nos presentaría los documentos por orden de relevancia, los clasificaría de acuerdo a los criterios dados y haría un resumen sintético del contenido de cada documento. (Ver artículo sobre la web semántica)



El resumen automático de documentos está íntimamente relacionado con el análisis del contenido y con la búsqueda y recuperación de la información. Es decir, “con poder obtener los documentos que se ajustan a unos criterios dados y con la posibilidad de extraer de ellos sólo la información que nos interesa, generando, por ejemplo, un nuevo documento en el que se presente sólo la información relevante o creando algún tipo de estructura temática en el que aparezcan clasificados dichos documentos”.



Según Lamarca, las dos líneas de investigación actuales en el ámbito del resumen documental automatizado tienen que ver con:



*
la búsqueda y recuperación de la información documental
*
la extracción de la información relevante



Tipos de resúmenes:



La misma autora señala como en la actualidad existen tres tipos de resúmenes automáticos, aunque muchos sistemas son híbridos y combinan varias de estas técnicas:





*
Resúmenes por extracción: operan sobre uno o varios documentos entresacando la información más relevante por medio de la extracción de las oraciones que responden a unos criterios determinados y presentando únicamente las oraciones del texto original que más se ajustan a los criterios dados. Seleccionan la información en función de la frecuencia de las palabras clave, de la localización de información y de otros parámetros relevantes. Los sistemas de extracción más sofisticados son capaces, también, no sólo de extraer oraciones, sino de insertar material léxico para que el texto resultante tenga cohesión.



*
Resúmenes por abstracción: no se limitan a extraer las oraciones del texto original, sino que generan un nuevo documento con una nueva redacción, a partir de la información contenida en el primero. Este tipo de resúmenes presentan una excesiva dificultad técnica y la investigación en este ámbito apenas ha comenzado a dar sus primeros pasos por medio de los recientes avances en el procesamiento del lenguaje natural.



*
Resúmenes gráfico-relacionales: basados en técnicas vectoriales y algoritmos gráficos de mapeo de la información que comparan conjuntos de documentos para extraer sus similitudes y diferencias.







Técnicas del resumen documental:



El resumen automático de documentos se puede realizar de muy diversas formas, pero las técnicas utilizadas se pueden resumir en tres:



*
Técnicas sin análisis lingüístico: tratan el texto de forma superficial, como si se tratara de una simple cadena de caracteres. La oración se distinguiría como una cadena que comienza por una mayúscula y termina con un punto. Los métodos son variados: selección de los términos más frecuentes y extracción de las oraciones que los contienen, selección de fragmentos que ocupan posiciones destacadas como el título, subtítulos, encabezamientos, o las que contienen cadenas de caracteres tales como: es importante, en conclusión, en suma, en resumen, etc.



*
Técnicas basadas en el análisis lingüístico morfosintáctico: permiten reconocer las unidades lingüísticas mediante algún tipo de reconocimiento y clasificación del léxico utilizando, por ejemplo, analizadores morfológicos y desambiguadores léxicos, lematizadores, sistemas de resolución de referencias anafóricas, bases de conocimiento léxico, reconocedores de entidades que no forman parte de los diccionarios o vocabularios comunes, como por ejemplo, siglas o nombres propios, etc. Esto permite representar las conexiones del texto en forma de grafos para determinar qué oraciones son las más relevantes para el resumen.



*
Técnicas basadas en la estructura discursiva: se trata ya de técnicas muy sofisticadas en donde entra en juego la ingeniería lingüística puesto que se trata de analizar la estructura argumental del documento para poder detectar los fragmentos más relevantes. Para ello, serán de gran ayuda la detección y análisis de marcadores discursivos tales como ejemplo: "en primer lugar", "en segundo término", "por el contrario", "sin embargo", "además", "es importante", "en conclusión", "en suma", "en resumen", etc.
También es importante la estructura del propio documento hipertextual ya que la propia armazón del documento HTML permite reconstruir la estructura argumental del documento y de los fragmentos más relevantes. Por otro lado, será más fácil de analizar aún, cualquier documento estructurado en XML que contenga metadatos, esquemas o que contenga algún tipo de estructuración semántica basada en RDF, OWL o cualquier otro lenguaje de estructuración semántica.



“Los sistemas de resumen automáticos, al contrario de lo que pudiera pensarse, no se construyen para que imiten los razonamientos de la mente humana, sino que siguen otras estrategias distintas que tienen como fin emular un comportamiento inteligente, pero diferente del pensamiento racional humano. A nadie se le escapa la dificultad técnica que supone la puesta en marcha de cualquier sistema de resumen automático, una dificultad que tiene que ser resuelta por medio de la colaboración entre agentes de diversas disciplinas y campos dispares como la inteligencia artificial, la ingeniería lingüística, la informática, las ciencias de la información y documentación, etc.” (Lamarca)





Herramientas y programas para realizar resúmenes automáticos:



*
La herramienta Autorresumen de Microsoft Word

*
Extractor

*
SweSum

*
Summarizer

No hay comentarios:

Publicar un comentario