Jone´s Blog

Just another WordPress.com weblog

OpenTrad y sus objetivos. January 24, 2007

Filed under: Language Resources — juanitabanana @ 10:22 pm

En este proyecto se crearán los sistemas de traducción automática de código abierto para algunos pares de lenguas importantes del Estado. Este objetivo se concreta y se desglosa como sigue:

Desarrollar dos ingenios o motores de traducción automática de alta velocidad y de código abierto: uno de transferencia sintáctica parcial para pares de lenguas emparentadas y otro de transferencia sintáctica completa para pares de lenguas más divergentes, basándose en los motores ya desarrollados por uno de los grupos participantes. Un apéndice técnico al final de este proyecto describe con más detalle el diseño de los sistemas de traducción automática proyectados.

Los pares de lengua son las siguientes:

  • español->catalán/valenciano y catalán/valenciano->español [demo]

  • español->gallego y gallego->español [demo]

  • español->euskara [demo]


El objetivo final del proyecto es contar con un prototipo de sistema capaz de realizar la Traducción entre los pares de lenguas arriba mencionados, y difundir y comercializar el sistema por las empresas participantes en el consorcio. 
Novedades tecnológicas:

Las novedades tecnológicas principales de este proyecto son:

  • La creación de sistemas de Traducción Automática para el par español-euskera, inexistente hasta la fecha.

  • La apertura y la estandardización de código y datos lingüísticos para la traducción automática entre lenguas del Estado, con la consiguiente interoperabilidad, modularidad e integrabilidad en procesos de generación de contenido plurilingüe.

  • La velocidad de traducción, obtenida con el uso de las tecnologías existentes en los grupos universitarios (p.e., técnicas de estados finitos).

 

Language Resources. January 24, 2007

Filed under: Language Resources — juanitabanana @ 10:17 pm

 http://portal.bibliotekivest.no/terminology.htm

Language resources are essential components of language engineering.  They are one of the main ways of representing the knowledge of language which is used for the analytical work leading to recognition and understanding. The work of producing and maintaining language resources is a huge task.  Resources may be produced, according to standard formats and protocols to enable access, in many EU languages, by research laboratories and public institutions.  Many of these resources are being made available through the European Language Resources Association (ELRA).  Lexicons, terminology databases dictionaries of proper names, terminology databases, grammars, wordnets, and corpora are all repositories of language knowledge.

 

IdiomaX January 23, 2007

Filed under: Language Resources — juanitabanana @ 5:08 pm

 IdiomaX es un traductor inteligente que permite traducir documentos de todo tipo analizando oraciones completas.Con Traductor IdiomaX, tienes en tus manos un programa en forma de asistente que te permite revisar la ortografía, marcar las frases que no desees traducir y seleccionar las especialidades del texto antes de comenzar el proceso de traducción.La calidad de traducción no llega a ser como la obtenida por el servicio de traducción humana, sin embargo, si ejecutas los pasos que te propone el asistente, lograrás que mejore día a día.Este traductor no es un intérprete de palabras, sino un programa inteligente capaz de reconocer las reglas gramaticales para la formación de la oración como un todo. Para llegar a la traducción resultante, se conjugan verbos, se concuerdan sustantivos y adjetivos, se buscan frases idiomáticas, se intercambian patrones, de forma tal que la oración traducida se comprenda en el idioma de llegada.Con el Traductor IdiomaX se pueden traducir desde las siguientes parejas de idiomas:

  • Inglés -> Español & Español -> Inglés
  • Italiano -> Español & Español -> Italiano
  • Inglés -> Italiano & Italiano -> Inglés
  • Inglés -> Francés & Francés -> Inglés
  • Italiano -> Francés & Francés -> Italiano
  • Italiano -> Alemán & Alemán -> Italiano

Más programas del mismo autor:

·        IdiomaX Dictionary Pro v2.2 (Es-Ing)

·        IdiomaX Dictionary Pro v2.2 (Es-It)

·        Ayudante de Traducción IdiomaX v4.0

·        Mail Translator v4.0

·        Web Translator v4.0

·        Office Translator v4.0

·        Suite de Traducción IdiomaX v4.0


También se recomiendan los siguientes programas:

 

Translation dictionary, Bilingual dictionary and Multilingual translation dictionary. (with references). January 23, 2007

Filed under: Language Resources — juanitabanana @ 4:56 pm

A translation dictionary (or sometimes translator) is a specialized lexicon designed for giving users rough equivalences of words and phrase equivalences between two distinct languages. A user desiring a translation using a translation dictionary may start with the words or phrases in his own language, the source language, and reference words or phrases in the foreign language, or target language, for speaking and writing. Conversely, for listening and reading works in a foreign tongue, there is a second section of the dictionary designed for converting the foreign expressions as the source back to the user’s own language (as the target). For example, an “English-Spanish Translation Dictionary” will include one section for translations from English to Spanish, and one for Spanish to English, though both sections will be designed with the English speaker in mind, as indicated by ‘English’ appearing first in the language pair.

Sample bilingual dictionaries online:

Some multilingual translation dictionaries:

Useful others:

 

Exercice with Systran. January 22, 2007

Filed under: Language Resources — juanitabanana @ 10:03 pm

In this article, the main objective is to show how the Systran translator works. We introduce a text, so we put the original one, the human translation and, finally, the text translated by Systran. Is there any difference? Of course there is. As you can see, the authomatic translator translates everything literally, and in some cases, words or sentences are wrong. They sometimes have no sense.

ORIGINAL TEXT IN ENGLISH:

“You cannot forget the past. I dream of the tortures. How can I forget that? “said Matias Esteban, 85, a veteran communist who has a small scars on his left wrist from the restraints applied to him during 11years in prison. He was arrested when he was 19. He was beaten repeatedly and moved from jail to jail, he said. Many of the survivors are concerned that the gouvernment´s efforts will fall short. They expected more from the ruling socialists; Zapatero´s own grandfather was slain by Franco´s fascism.”

HUMAN TRANSLATION:

“No puedes olvidar el pasado. Yo sueño con las torturas. ¿Cómo puedo olvidar eso? “ dijo Matías Esteban, de 86 años, un veterano comunista que tiene pequeñas cicatrices en su muñeca izquierda por las represiones que sufrió durante once años en prisión. El fue arrestado cuando tenía 19 años. Era golpeado repetidamente y movido de prisión en prisión, dijo él. Muchos de los supervivientes son conscientes de que los esfuerzos del Gobierno caerán en poco tiempo. Ellos esperaban más de los dirigentes socialistas; el propio abuelo de Zapatero fue asesinado por las fuerzas de Franco.”

TEXT ACCORDING TO THE AUTHOMATIC TRANSLATOR:

“Usted no puede olvidarse del pasado. Soño con las torturas. ¿Cómo puedo olvidarme de eso?” dijo Matias Esteban, 85, comunista del veterano que tiene cicatrices pequeñas en su muñeca izquierda de los alojamientos aplicados a él durante 11 años en la prisión. Lo arrestaron cuando él era 19. Lo batieron en varias ocasiones y se movió desde cárcel a la cárcel, él dijo. Muchos de los sobrevivientes se refieren que faltarán los esfuerzos de los gouvernment´s. Contaban con más de los socialistas predominantes; Zapatero´s posee a abuelo fue matado por el fascismo de Franco´s.    

 

The Authomatic Translator: SYSTRAN. January 22, 2007

Filed under: Language Resources — juanitabanana @ 9:45 pm

Firstly, it is important to define what the authomatic translator is, and then put an example to understand everything better.

The authomatic translator:

 The authomatic translator is one of the fastest ways of translating, because what you only have to do, is introduce the word or the text you want. The translator only has to translate what he receives. But, after observing this small fragment, we realize that the authomatic translator can has it´s disadvantages. What this system does, is to translate everything literally. And, usually, if you want to translate something from English to Spanish, you can´t do it literally. So, sometimes this system can help us, but others, it translates the words without any sense.

For example, one authomatic translator would be SYSTRAN

Systran  is an automatic translation system that was created by Peter Toma in 1970. First of all, Toma developed in the Georgetown University a system, that he continued developing during years until he created the final Systran. He was also the chosen to translate it from English to Russian for the American Army. Later, the NASA proved the system in one of its projects, and although it did not give good results, this experience gave more importance to Systran. After becoming famous, the EC asked to Peter Toma for a demonstration  translating something from English to French. After that demonstration, the EC was satisfied. In 1976, Systran was bought by the Comission and developed later. It was the bureaucrat Loll Rolling who introduced the authomatic translation in the European Comission because he obtained the license for using Systran. Consequently, the system dictionaries are full of terminologies about the Comunity. Now, the CE system has 17 pairs of languages which have been added in a linguistic services local net. Nowadays, translations are processed at a speed of 500,000 words per hour.In 1994,  Systran is offered free in the Compuserve chats, and a year later a new version for Windows was created.

But the Systran great success was in 1997, when after signing an agreement with Internet Alta Vista, the translation service BABELFISH  was offered free. Nowadays, Systran is the most developed translation system (with 35 pairs of available languages) and the most used (1,000,000 translations).
 

 

Text Tipology: Corpus Linguistics. January 22, 2007

Filed under: Language Resources — juanitabanana @ 9:14 pm

Corpus Linguistics:

It is the study of language as expressed in samples (corpora) or “real world” text. This method represents a digestive approach to deriving a set of abstract rules by which a natural language is governed or else relates to another language. Originally done by hand, corpora are largely derived by an automated process, which is corrected. The core of a corpus is the derivation of a set of Part-of-speech tags, representing a formal overview of the various types of words and word-relationships in a given language. Computational methods had once been viewed as a holy grail of linguistic research, which would ultimately manifest a ruleset for natural language processing and machine translation at a high level. Such has not been the case, and since the cognitive revolution, cognitive linguistics has been largely critical of many claimed practical uses for corpora. However, as computation capacity and speed have increased, the use of corpora to study language and term relationships has gained some respectability. The corpus approach runs counter to Noam Chomsky’s view that real language is riddled with performance-related errors, thus requiring careful analysis of small speech samples obtained in a highly controlled laboratory setting. Corpus linguistics does away with Chomsky’s competence/performance split; adherents believe that reliable language analysis best occurs on field-collected samples, in natural contexts and with minimal experimental interference.

“Corpora”:

In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis, checking occurrences or validating linguistic rules on specific universe. Corpora are the main knowledge base in corpus linguistics. The analysis and processing of various types of corpora are also the subject of much work in computational linguistics, speech recognition and machine translation, where they are often used to create hidden Markov models for POS-tagging and other purposes. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation.  

TEXTUAL CORPORA:

“Information extraction (IE)”

It is a type of information retrieval whose goal is to automatically extract structured or semistructured information from unstructured machine-readable documents. It is a sub-discipline of language engineering, a branch of computer science. It aims to apply methods and technologies from practical computer science such as compiler construction and artificial intelligence to the problem of processing unstructured textual data automatically, with the objective to extract structured knowledge in some domain. A typical example is the extraction of information on corporate merger events, whereby instances of the relation are extracted from online news (”Yesterday, New-York based Foo Inc. announced their acquisition of Bar Corp.”). The significance of Information Extraction is determined by the growing amount of information available in unstructured (i.e. without metadata) form, for instance on the Internet. This knowledge can be made more accessible by means of transformation into relational form.

The Text Encoding Initiative (TEI)” 

It is a consortium of institutions and research projects which collectively maintains and develops a standard for the representation of texts in digital form. Originally sponsored by three scholarly societies, the TEI is now an independent membership consortium, hosted by academic institutions in the US and in Europe. Its major deliverable is a set of Guidelines, which specify encoding methods for machine-readable texts, chiefly in the humanities, social sciences and linguistics. Since 1994, these guidelines have been a widely-used standard for text materials for performing online research and teaching. The scholarly societies originally sponsoring the TEI are the Association for Computers and the Humanities, the Association for Computational Linguistics, and the Association for Literary and Linguistic Computing. These three groups first organized the TEI in 1987 as a research effort funded exclusively by significant grants from many agencies. Today, the TEI Consortium is a member-funded non-profit corporation hosted by: The Research Technologies Service at the University of Oxford,the Scholarly Technology Group at Brown University,a francophone group comprising ATILF, INIST, and LORIA, co-ordinated at Nancy the Electronic Text Center and the Institute for Advanced Technology in the Humanities at the University of Virginia.

 

Historia de la Traducción Automática. January 22, 2007

Filed under: Language Resources — juanitabanana @ 6:30 pm

Aunque este no sea un tema muy interesante, es importante, saber y conocer de  donde proviene la historia de la traducción automática ya que, hoy en día, se emplea con frecuencia. 

La aspiración de obtener artilugios mecánicos que sirvan para superar las barreras lingüísticas viene de antiguo.

En el siglo XVII se habla de la utilización de diccionarios mecánicos (basados en códigos numéricos universales) para superar las barreras del lenguaje, dentro de un movimiento a favor de la creación de una “lengua universal” no ambigua, basada en principios lógicos y símbolos icónicos, que permitiese comunicarse a toda la humanidad. Este empeño precede por bastante tiempo a la propia existencia del ordenador. Por ello, se puede entender que desde el momento en que un ordenador estuvo disponible en la década de 1940, la traducción automática pasó a convertirse inmediatamente en una de las aplicaciones estrella de la informática. 

Desde entonces, ha dado tiempo a realizar numerosos experimentos, pequeños y grandes, así como inversiones institucionales e industriales sustanciosas. Un referente obligado para conocer con más detalle la evolución de la traducción automática es el académico británico John Hutchins, cuya bibliografía puede, por suerte, ser consultada libremente en Internet. 

LA TRADUCCIÓN AUTOMÁTICA EN ESPAÑA : 

La investigación en España ha pasado a través de tres etapas importantes. Desde 1985, se inicia la investigación con un interés repentino en España. Después de una año a su entrada a la Comunidad Europea. Fueron tres compañías transnacionales quienes financiaron la creación de varios grupos de investigación. IBM, SIEMENS y FUJITSU. Paradójicamente, 1992, que era el año de la celebración del quinto centenario del descubrimiento de América y de los juegos olímpicos también se llevaban a cabo en Barcelona. Primero IBM y luego SIEMENS, formaron en 1985 grupos de I+D en sus laboratorios de Madrid y Barcelona, liderados por Luis de Sopena y Montserrat Meya, respectivamente. IBM utilizó el Centro de Investigación en inteligencia artificial de la Universidad Autónoma de Madrid como sede de un equipo especializado en lenguaje natural.

Este equipo tomó parte primero en el diseno del prototipo MENTOR, junto con otro centro IBM de Israel, y más tarde en la adaptación al espanol de LMT, sistema disenado en el T.J. Watson Research Center de Estados Unidos. A tenor de las publicaciones del grupo en la revista Procesamiento del lenguaje natural, entre los años 1985 y 1992 trabajaron en los proyectos de IBM al menos los siguientes especialistas: Teo Redondo, Pilar Rodríguez, Isabel Zapata, Celia Villar, Alfonso Alcalá, Carmen Valladares, Enrique Torrejón, Begoña Carranza, Gerardo Arrarte y Chelo Rodríguez. Por su parte, SIEMENS decidió acercar a Barcelona el desarrollo del módulo español de su prestigioso sistema METAL.

Montserrat Meya, que hasta entonces había trabajado en los laboratorios centrales de SIEMENS en Munich, contactó con el filólogo e ingeniero Juan Alberto Alonso, y juntos formaron el núcleo de un equipo en el que luego participaría una interminable lista de colaboradores: Xavier Gómez Guinovart, Juan Bosco Camón, Begoña Navarrete, Ramón Fanlo, Clair Corbishley, Begona Vázquez, etc. Después de 1992 el grupo dedicado a proyectos lingüísticos se constituyó en empresa independiente, INCYTA.

Tras un convenio con la Generalidad de Cataluña y la Universidad Autónoma de Barcelona, se desarrolló el módulo catalán, que es ahora su principal línea de actividad. A finales de 1986 se crearon en Barcelona y Madrid dos nuevos grupos entre quienes se repartió el desarrollo de los módulos del sistema EUROTRA, financiado por la Comisión Europea.

Ramón Cerdá reunió en la Universidad de Barcelona a un nutrido grupo de especialistas, integrado por, entre otros, Jesús Vidal, Juan Carlos Ruiz, Toni Badia, Sergi Balari, Marta Carulla y Nuria Bel. Mientras este grupo se ocupaba de las cuestiones de sintaxis y semántica, otro grupo se encargaba en Madrid de los aspectos de morfología y lexicografía, liderados por Francisco Marcos Marín. Colaboraban con él, entre otros, Antonio Moreno, Pilar Salamanca y Fernando Sánchez-León. Un ano más tarde, en 1987, se formó en los laboratorios de I+D de la empresa FUJITSU en Barcelona un quinto grupo para el desarrollo de los módulos de traducción al espanol del sistema japonés ATLAS.

Este grupo estaba liderado por el ingeniero Jorge Vivaldi y los filólogos José Soler, procedente de EUROTRA, y Joseba Abaitua. Juntos crearán el embrión de un equipo al que más adelante se incorporaron Elisabet Cayuelas, Lluis Hernrndez, Xavier Lloré y Ana de Aguilar-Amat. La empresa interrumpió esta línea de investigación en 1992. Otro grupo dedicado a la traducción automática por aquellos anos fue el formado por Isabel Herrero y Elisabeth Nebot en la Universidad de Barcelona. Este grupo, tutelado por Juan Alberto Alonso, creó un prototipo de traducción árabe – espanol en colaboración con la Universidad de Túnez. Está claro que la traducción automática fue el principal catalizador del nacimiento de la lingüística computacional en Espana. No es casualidad que la Sociedad Espanola para el Procesamiento del Lenguaje Natural (SEPLN) se constituyera en 1983.

Junto a Felisa Verdejo, otras dos personas se destacaron en su fundación, los citados Montserrat Meya y Luis de Sopena, quienes por aquel entonces lideraban, como se ha dicho, grupos de traducción automática. El tercer congreso de la asociación (entonces todavía bajo la denominación de Tjornadas técnicast) se celebró en julio de 1987 en la Universidad Politécnica de Cataluña, con dos platos fuertes sobre traducción automática: una conferencia de Sergei Nirenburg, entonces adscrito al Center for Machine Translation de la Universidad Carnegie Mellon, y una mesa redonda participada por Jesús Vidal y Juan Carlos Ruiz (de EUROTRA), Luis de Sopena (de IBM), Juan Alberto Alonso (de SIEMENS), y el propio Nirenburg. Algunos datos estadísticos constatan la relevancia de la traducción automática en la SEPLN entre los anos 1987 y 1991.

Durante aquellos anos, de los 60 artículos publicados en la revista de la asociación, Procesamiento del lenguaje natural, 23 (más de un tercio) versaron sobre traducción automática. El nivel de participación refleja la relevancia de los grupos: 8 describen EUROTRA, 7 las investigaciones de IBM, 4 METAL, de SIEMENS, y 3 ATLAS, de FUJITSU. Sólo uno de los artículos publicados, de los 23, era ajeno a los cuatro proyectos estrella. Éste fue el presentado en el congreso de 1990 por Gabriel Amores, actual investigador del área de traducción automática, con los resultados de su investigación en el Centre for Computational Linguistics de UMIST. Se han citado 35 personas y esta cifra da una idea de la actividad. En una estimación aproximada, se puede calcular que en 1989 la investigación en traducción automática contaba en Espana con un presupuesto anual de unos 200 millones de pesetas., una cifra que, por modesta que parezca, multiplica varias veces la cantidad que se maneja hoy en día en nuestro país, una década después. 

Desde 1998, el Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante desarrolla sistemas de traducción automática entre lenguas románicas; estos sistemas están accesibles libremente por Internet: interNOSTRUM, entre el español y el catalán; Traductor Universia, entre el español y el portugués, y, más recientemente, Apertium, un sistema de traducción automática de código abierto desarrollado en colaboración con un consorcio de empresas y universidades españolas, que actualmente traduce entre el español y el catalán, el gallego y el portugués.

 

¿Qué entendemos por traducción automática? January 22, 2007

Filed under: Language Resources — juanitabanana @ 6:06 pm

La traducción por computadora es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En un nivel básico, la traducción por computadora realiza una substitución simple de las palabras atómicas de un lenguaje natural por las de otro. Por medio del uso de corpora lingüísticos se pueden intentar traducciones más complejas, lo que permite un manejo más apropiado de las diferencias en la tipología linguística, el reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías. Regularmente, los sistemas de traducción automática actuales permiten establecer parámetros (por ejemplo, limitando el rango de sustituciones permitidas) de acuerdo con el dominio o la profesión en la que se hace la traducción, lo que efectivamente mejora el resultado. Esta técnica es particularmente útil en campos donde se emplea un lenguaje formal o basado en formularios, como los reportes del tiempo y los documentos legales o administrativos, pero su uso no es viable en la traducción de conversaciones u otros textos menos estandarizados. 

La intervención humana puede mejorar la calidad de la salida: por ejemplo, algunos sistemas pueden traducir con mayor exactitud si el usuario ha identificado previamente las palabras que corresponden a nombres propios. Con la ayuda de estas técnicas, la traducción por computadora ha mostrado ser un auxiliar útil para los traductores humanos. Sin embargo, y aún cuando en algunos casos pueden producir resultados uilizables «tal cual», los sistemas actuales son incapaces de producir resultados de la misma calidad que un traductor humano, particularmente cuando el texto a traducir usa lenguaje coloquial o familiar. 

 

Las CLAVES de una buena navegación. January 22, 2007

Filed under: Language Resources — juanitabanana @ 5:50 pm

Las páginas web pueden tener, básicamente tres estructuras: secuencial, jerárquica y estructura web propiamente dicha. La elección de una de ellas depende del contenido de la página y del público al que se dirija. 

ESTRUCTURA SECUENCIAL :

 Enlaza una serie de páginas en una cadena que hay que seguir sin saltarse ningún eslabón. Es apropiada para narraciones básicas y lineales . Por ejemplo, un cuento infantil o un manual de instrucciones. Se trata de la estructura que peor rendimiento saca a los hipervínculos. En su estado puro, cada página de una web secuencial tiene un enlace a la anterior y a la siguiente. Es conveniente que estos enlaces tengan más información que una simple flecha apuntando en una u otra dirección; se puede incluir, por ejemplo, el título de los capítulos o secciones que anteceden o siguen a la página. 

ESTRUCTURA JERÁRQUICA :

 Se da en webs con contenidos organizados en secciones que, a su vez, pueden estar divididas en subsecciones. En este tipo de organización, más compleja, conviene que haya enlaces a la portada en todas, o que, al menos, se pueda ir desde cualquier página a la portada de la sección o subsección en la que esté encuadrada. Los periódicos y las revistas digitales suelen tener estructura jerárquica. 

ESTRUCTURA “WEB” :

 Es la organización más habitual. Es ideal para webs complejas, con interrelaciones y saltos frecuentes entre sus diferentes apartados. Este tipo de páginas requiere usuarios más activos, que tomen decisiones sobre sus intereses. Además de los enlaces a la portada recomendados para las estructuras jerárquicas, son muy útiles para estas webs los índices y mapas; estos elementos ayudan a situarse a los internautas menos familiarizados con este tipo de organización. 

Un medio multidireccional :

Una diferencia fundamental entre una web y un libro es que, mientras éste se lee siguiendo el orden secuencial de sus capítulos, a la web se puede acceder desde cualquier página, siguiendo una ruta de enlaces no trazada de antemano. En resumen, la página web es un medio multidireccional; esta característica implica que la navegación debe ser:

 Abierta, para que el usuario pueda desplazarse con facilidad de una página a otra.                                

 *  Consistente, para que el internauta tenga una idea lógica de la estructura de la web y decida cuál es la mejor forma de consultarla.

 

 
Follow

Get every new post delivered to your Inbox.