EL LUGAR DE LAS LENGUAS LATINAS EN INTERNET
Transcrição
EL LUGAR DE LAS LENGUAS LATINAS EN INTERNET
EL LUGAR DE LAS LENGUAS LATINAS EN INTERNET – Edición 2001 IL POSTO DELLE LINGUE LATINE IN INTERNET – Edizione 2001 LUGAR DAS LÍNGUAS LATINAS NA INTERNET – Edição 2001 LOCUL LIMBILOR LATINE PE INTERNET Ediţia2001 EL LUGAR DE LAS LENGUAS LATINAS EN INTERNET – Edición 2001 Resumen Estadísticas (presencia de la lengua latina en Internet) Estudio Índice IL POSTO DELLE LINGUE LATINE IN INTERNET – Edizione 2001 Riassunto Statistiche Studio Indice LUGAR DAS LÍNGUAS LATINAS NA INTERNET – Edição 2001 Resumo Estatísticas Estudo Índice LOCUL LIMBILOR LATINE PE INTERNET - Ediţia2001 Rezumat Statistici Studiu Index Realizado entre agosto 2000 y junio 2001. Publicado: 1/08/2001 Derechos de autor y de explotación ©, 2000-2001, Funredes, Unión Latina. Con el apoyo de la Délégation générale à la langue française Este estudio trata la presencia de cinco idiomas latinos (castellano, francés, italiano, portugués y rumano) en Internet, en relación con el inglés. Es la continuación de versiones realizadas entre 1995 y 1998 sobre la presencia de las lenguas y las culturas latinas en la Red. Se ha conservado el principio metodológico de base de la edición de 1998: calcular con motores de búsqueda la cantidad de ocurrencias de 57 términos de significación y alcance equivalentes en las lenguas estudiadas y analizar los resultados para deducir, estadísticamente, los porcentajes de presencia respectivos. Se ha empezado también a extender la investigación al alemán, con la idea de abarcar después otras lenguas. El entorno de los motores de búsqueda cambió mucho desde la edición anterior, lo que llevó a analizar las implicaciones e introducir mejoras de importancia: Aplicación de varios motores de búsqueda, tras un análisis pormenorizado de los existentes y una selección para obtener resultados rigurosos. Automatización de las mediciones y cálculos mediante un programa que es interfaz entre los términos a contar organizados en una base de datos y los motores. Sistematización del procesamiento de las homografías interlingüísticas de manera automática, agregando solidez metodológica. **** Las dos últimas medidas en % sobre la presencia de las lenguas latinas en Internet (octubre 2001/febrero 2002) Medidas en términos de % de páginas internet en lenguas latinas (y en alemán) en relación con el inglés 10/2001 2/2002 ESPAÑOL 11,36% 11,60% FRANÇAIS 9,14% 9,60% ITALIANO 6,15% 6,51% PORTUGUÊS 5,61% 5,62% ROMANA 0,36% 0,33% DEUTSCH 14,08% 14,41% Sobre la base de estos resultados, los porcentajes de páginas en internet por lengua son los siguientes: (estimación 02/2002 - progresión a partir de 10/2001). ENGLISH 49.0% (- 1,8%) ESPAÑOL 5,68% (- 0,09%) FRANÇAIS 4,70% (+ 0,06%) ITALIANO 3,19% (+ 0,07%) PORTUGUÊS 2,75% (- 0,1%) ROMANA 0,16% (- 0,02%) DEUTSCH 7,06% (- 0,09%) Studio realizzato tra agosto 2000 e giugno 2001 e pubblicato il 01/082001 Diritti d'autore e di gestione ©, 2000-2001, Funredes, Unione Latina. Con il sostegno della Délégation générale à la langue française Questo studio considera la presenza de cinque lingue neolatine (francese, italiano, portoghese romeno e spagnolo) in Internet, rispetto all'inglese. Si tratta della continuazione delle versioni realizzate tra il 1995 e il 1998 (http://www.unilat.org/dtil/lenguainternet/it/l_latine_it.htm) sulla presenza delle lingue e delle culture neolatine sulla Rete. È stato mantenuto il principio metodologico di base dell'edizione del 1998: calcolare con motori di ricerca la quantità delle occorrenze di 57 termini di significato e portata equivalenti nelle lingue studiate e analizzare i risultati per dedurre, statisticamente, le rispettive percentuali di presenza. Inoltre si è cominciato a estendere la ricerca al tedesco, con il proposito di includere in seguito altre lingue. Il profilo dei motori di ricerca è cambiato molto dall'edizione precedente, il che ha portato ad analizzarne le contraddizioni e introdurre miglioramenti d'importanza: Applicazione di vari motori di ricerca, dopo un'analisi dettagliata degli esistenti e una selezione per ottenere risultati rigorosi. Automatizzazione delle misurazioni e calcoli attraverso un programma, che fa da interfaccia tra i termini da contare organizzati in una base di dati e i motori. Sistematizzazione del trattamento delle omografie interlinguistiche in modo automatico, dando così solidità metodologica. **** Le ultime due misurazioni in % della presenza delle lingue neolatine su Internet (ottobre 2001/febbraio 2002) Medie percentuali delle pagine Internet per quanto riguarda le lingue latine (e il tedesco) in rapporto all'inglese 10/2001 2/2002 ESPAÑOL 11,36% 11,60% FRANÇAIS 9,14% 9,60% ITALIANO 6,15% 6,51% PORTUGUÊS 5,61% 5,62% ROMANA 0,36% 0,33% DEUTSCH 14,08% 14,41% Sulla base dei risultati, le percentuali delle pagine Internet per lingua sono le seguenti (stima del febbraio 2002 - progressione dall'ottobre 2001) ENGLISH 49.0% (- 1,8%) ESPAÑOL 5,68% (- 0,09%) FRANÇAIS 4,70% (+ 0,06%) ITALIANO 3,19% (+ 0,07%) PORTUGUÊS 2,75% (- 0,1%) ROMANA 0,16% (- 0,02%) DEUTSCH 7,06% (- 0,09%) Realizado entre agosto de 2000 e junho de 2001. Publicado em 1/08/2001 Direitos autorais e editoriais ©, 2000-2001, Funredes, União Latina. Com o apoio da Délégation générale à la langue française Este estudo dá seguimento aos trabalhos realizados entre 1995 e 1998 (http://www.unilat.org/dtil/lenguainternet/pt/l_latinas_pt.htm), sobre o lugar das línguas e culturas latinas na Web, sendo que esta edição concentra-se no estudo das línguas. O princípio metodológico de base, que mostrou sua solidez quando da edição anterior, foi conservado. Tratase de proceder à medição, em certos espaços da Internet, da quantidade de menções ou ocorrências de 57 palavras ou termos, que possem um significado e um alcance equivalente nas línguas estudadas (espanhol, francês, inglês, italiano, português, romeno) e de analisar e comparar, em seguida, os resultados para, a partir do método estatístico, chegar a porcentagens de presença de cada uma delas. Uma primeira extensão do estudo ao alemão (com a intenção de ampliar, posteriormente, a outras línguas) começou a ser considerada. O ambiente dos motores de busca evoluiu muito desde o estudo realizado anteriormente, o que levou a uma análise das implicações das mudanças em nossa metodologia e das melhorias sensíveis verificadas com relação aos trabalhos anteriores: Aplicação de vários sistemas de busca a partir dos quais foi feita uma seleção ponderada com o objetivo de obter os resultados mais rigorosos possíveis. Automatização da contagem e dos cálculos a partir de um software que funcionava como interface entre os termos a serem medidos, organizados em bases de dados, e os sistemas de busca. No futuro, este investimento possibilitaráa publicação dos resultados em intervalos regulares, constituindo, assim, um verdadeiro observatório. Sistematização do processamento das homografias interlingüísticas administração automatizada, mais sólida no plano metodológico. através de uma **** As dois ultimas medidas em % sobre a presencia das línguas latinas no Internet (outubro 2001/fevreiro 2002) Medidas em términos de % das paginas Internet em línguas latinas (e alemã) em relação com o inglês 10/2001 2/2002 ESPAÑOL 11,36% 11,60% FRANÇAIS 9,14% 9,60% ITALIANO 6,15% 6,51% PORTUGUÊS 5,61% 5,62% ROMANA 0,36% 0,33% DEUTSCH 14,08% 14,41% Sou base destoes resultados, os porcentagens das paginas em Internet por língua são os seguintes: 2/2002 - progressão a partir de 10/2001) ENGLISH 49.0% (- 1,8%) ESPAÑOL 5,68% (- 0,09%) FRANÇAIS 4,70% (+ 0,06%) ITALIANO 3,19% (+ 0,07%) PORTUGUÊS 2,75% (- 0,1%) ROMANA 0,16% (- 0,02%) DEUTSCH 7,06% (- 0,09%) Studiu realizat în perioada august 2000 - iunie 2001şi publicat la 01/08/2001 Drepturi de autor şi de exploatare © 2000-2001, Funredes, Uniunea Latină. Cu sprijinul Délégation générale à la langue française Acest studiu continuă lucrările realizate între anii 1995 şi 1998 (http://www.unilat.org/dtil/lenguainternet/ro/l_latinas_ro.htm), privind locul limbilor şi al culturilor neolatine pe Internet. Această ediţie se concentrează pe studiul limbilor. A fost păstrat principiul metodologic de bază care şi-a demonstrat soliditatea cu ocazia ediţiei precedente a studiului. Este vorba de măsurarea, în anumite spaţii Internet, a numărului de menţionări sau de ocurenţe a 57 cuvinte sau termeni având o semnificaţie echivalentă în limbile studiate (engleză, franceză, italiană, portugheză, română, spaniolă), analizând şi comparând apoi rezultatele pentru a deduce, prin metode statistice, prezenţa, în procente, a fiecăreia dintre limbi. A fost luată în considerare o primă extindere a studiului la limba germană (cu intenţia de a-l lărgi, în continuare, şi la alte limbi). Spaţiul motoarelor de căutare a evoluat foarte mult de la studiul precedent, ceea ce a condus la o analiză a implicaţiilor schimbărilor asupra metodologiei; în consecinţă, s-au produs ameliorări sensibile faţă de cercetările precedente: Aplicarea mai multor motoare de căutare, selecţionate atent în prealabil, în scopul obţinerii de rezultate cât de riguroase posibil. Automatizarea numărătorilor şi a calculelor cu ajutorul unui program având rolul de interfaţă între termenii de contorizat, înregistraţi în baze de date, şi motoarele de căutare. Această investiţie va permite, în viitor, publicarea de rezultate la intervale regulate, realizându-se, astfel, o observare reală. Sistematizarea prelucrării omografiilor interlingvistice printr-o gestiune automatizată, mai solidă pe plan metodologic. **** Ultimele doua masuri în % privind prezenta limbilor latine pe Internet (octombrie 2001/februarie 2002) Medii în % ale paginilor Internet în limbile latine (si în germana) în raport cu engleza 10/2001 2/2002 ESPAÑOL 11,36% 11,60% FRANÇAIS 9,14% 9,60% ITALIANO 6,15% 6,51% PORTUGUÊS 5,61% 5,62% ROMANA 0,36% 0,33% DEUTSCH 14,08% 14,41% Pe baza acestor rezultate procentajele paginilor Internet pentru fiecare limba sunt urmatoarele (estimare 2/2002 progresie de la 10/2001) ENGLISH 49.0% (- 1,8%) ESPAÑOL 5,68% (- 0,09%) FRANÇAIS 4,70% (+ 0,06%) ITALIANO 3,19% (+ 0,07%) PORTUGUÊS 2,75% (- 0,1%) ROMANA 0,16% (- 0,02%) DEUTSCH 7,06% (- 0,09%) EL LUGAR QUE OCUPAN LAS LENGUAS LATINAS EN INTERNET EDICIÓN 2001 Estudio propuesto por: Funredes: http://funredes.org Unión Latina: http://www.unilat.org Realizado entre agosto de 2000 y junio de 2001 Derechos de autor y de explotación ©, 2000-2001, Funredes, Unión Latina. 1 ÍNDICE ÍNDICE .................................................................................................................................................................. 1 1- PRÓLOGO Y ANTECEDENTES................................................................................................................... 4 2- AUTORES ......................................................................................................................................................... 6 3- PRESENTACIÓN GENERAL DEL ESTUDIO Y DE SUS RESULTADOS ............................................. 7 3.1 METODOLOGÍA......................................................................................................................................... 7 3.2 SÍNTESIS COMENTADA DE LOS RESULTADOS.................................................................................. 7 3.2.1 Resultados en relación con el inglés..................................................................................................... 7 3.2.2 Resultados absolutos ............................................................................................................................ 8 3.3 RELACIÓN ENTRE EL NÚMERO DE HABLANTES Y SU PRESENCIA EN LA RED ....................... 10 3.4 VITALIDAD DE LA PRODUCCIÓN DE INFORMACIÓN DE LOS INTERNAUTAS SEGÚN LOS IDIOMAS......................................................................................................................................................... 11 4- DETALLE DE LOS RESULTADOS............................................................................................................ 13 4.1 METODOLOGÍA INTERNET .................................................................................................................. 13 4.1.1 Identificación de los principales motores de búsqueda disponibles en el web y preselección. .......... 13 4.1.2 Validación de los motores seleccionados en función de la metodología utilizada............................. 14 4.1.3 Selección final de los motores de búsqueda para la aplicación de la metodología ........................... 15 4.2 METODOLOGÍA LINGÜÍSTICA............................................................................................................. 15 4.2.1 Nuevos problemas planteados por el alemán ..................................................................................... 16 4.2.2 Otras problemáticas ........................................................................................................................... 16 4.3 METODOLOGÍA ESTADÍSTICA ............................................................................................................ 17 4.3.1 Resultados de las mediciones con los motores de búsqueda preseleccionados.................................. 17 4.3.2 Cálculos estadísticos de los resultados en relación con el inglés ...................................................... 17 4.3.3 Cálculos de los resultados absolutos.................................................................................................. 19 4.4 COMPARACIÓN CON OTROS ESTUDIOS............................................................................................ 21 4.4.1 Comparación con las ediciones anteriores de este estudio ................................................................ 21 4.4.2 Comparación con estudios similares (Alis y Inktomi) ........................................................................ 21 5- TENDENCIA DE LA EVOLUCIÓN DE LAS LENGUAS ESTUDIADAS: ENERO DEL 2001 ........... 23 6- PERSPECTIVAS PARA LA CONTINUIDAD DE LA OBSERVACIÓN ................................................ 25 7- REFERENCIAS, EN INTERNET, SOBRE TRABAJOS CONEXOS ...................................................... 26 ANEXO 1: RECAPITULACIÓN Y REFERENCIAS DE LOS DIVERSOS ESTUDIOS REALIZADOS POR LOS AUTORES ......................................................................................................................................... 27 ANEXO 2: VISUALIZACIÓN DE INTERVALOS DE CONFIANZA EN LOS RESULTADOS POR LENGUA ............................................................................................................................................................. 29 ANEXO 3: LISTA DE LOS TÉRMINOS DE LA MUESTRA DE REFERENCIA ..................................... 30 ANEXO 4: SELECCIÓN DE LOS MOTORES DE BÚSQUEDA DE L5 ..................................................... 42 INTRODUCCIÓN ........................................................................................................................................... 42 LOS RESULTADOS POR MOTOR Y POR LENGUA................................................................................... 42 Datos relativos a Internet y a los motores de búsqueda.............................................................................. 43 Validación de los motores de búsqueda en función de nuestra metodología .............................................. 46 CONCLUSIÓN ................................................................................................................................................ 47 ANEXO 5: INTERFAZ DE AUTOMATIZACIÓN DE L5 ............................................................................ 49 INTRODUCCIÓN ........................................................................................................................................... 49 TECNOLOGÍA UTILIZADA.......................................................................................................................... 49 2 DETALLES DEL FUNCIONAMIENTO DEL SISTEMA .............................................................................. 50 Base de datos............................................................................................................................................... 50 Las interfaces PHP...................................................................................................................................... 50 CONCLUSIONES Y PLAN PARA LA PRÓXIMA VERSIÓN ...................................................................... 53 ANEXO 6: RESULTADOS DE LAS MEDIDAS DE LA CLASIFICACIÓN POR LENGUA DE FASTSEARCH Y COMPARACIÓN................................................................................................................ 54 ANEXO 7: CRITERIOS DE SELECCIÓN DE LOS TÉRMINOS................................................................ 56 ANEXO 8: RESULTADO DEL CONTEO DE CADA VARIANTE POR TÉRMINO Y POR MOTOR…………………………………………………………………………………(EN PREPARACIÓN) ANEXO 9: RESULTADO DEL CONTEO DE LOS TERMINOS POR MOTOR…..(EN PREPARACIÓN) REFERENCIAS DE LOS CUADROS ............................................................................................................. 59 3 1- PRÓLOGO Y ANTECEDENTES Este estudio es la continuación de los trabajos emprendidos por Funredes entre 1995 y 19981 sobre el puesto que ocupan las lenguas y las culturas latinas en la Red. Esta edición se concentra en los idiomas. Conservamos el principio metodológico de base que mostró su solidez en la edición anterior. Se trata de calcular, en ciertos espacios de Internet2, la cantidad de menciones u ocurrencias de 57 palabras o términos de significación y alcance equivalentes en las lenguas estudiadas (inglés, castellano, francés, italiano, portugués, rumano) y de analizar y comparar los resultados para deducir, estadísticamente, porcentajes de presencia de cada idioma. Por otra parte, empezamos ya a extender la investigación al alemán, con la idea de abarcar después varias otras lenguas. El entorno de los motores de búsqueda cambió mucho desde la edición anterior, lo que nos llevó a analizar las implicaciones en nuestra metodología al respecto e introducir mejoras de importancia: • Aplicación de varios motores de búsqueda, tras un análisis pormenorizado de los existentes y una selección para obtener resultados rigurosos. • Automatización de las mediciones y cálculos mediante un programa que es interfaz entre los términos a contar, organizados en una base de datos, y los motores de búsqueda. Esta inversión permitirá publicar en adelante resultados a intervalos regulares, estableciendo un verdadero observatorio de la presencia de los idiomas en la Red. • Sistematización del procesamiento de las homografías interlingüísticas de manera automática. Corregimos también algunos de escritura en algunos términos3. Y, aunque hemos extendido el estudio al alemán, no cambiamos por el momento el método de búsqueda de las formas, lo que ha dado en este idioma resultados de menor precisión que los demás4. 1 Con el apoyo de la Agence de la francophonie para la cuarta edición y en colaboración con la Unión Latina a partir de la tercera edición. 2 En esta edición solo se tomó en cuenta el espacio web (páginas de la Red); el espacio Usenet se dejó de lado. 3 Se trata de errores menores que no implicaron diferencias notables en relación con los resultados de la edición anterior. 4 La forma de composición de palabras en alemán implica que organizar la búsqueda como para las otras lenguas hasta ahora estudiadas dé valores muy por debajo de la realidad lingüística. Los resultados presentados aquí, con las correcciones aumentadas, son aproximados. Los problemas que plantea la adaptación de nuestra metodología al alemán son detallados en 4.2.1. 4 Se harán referencias a las etapas anteriores de este estudio. Una síntesis de éstas, con los enlaces respectivos, se puede leer en el anexo 1. 5 2- AUTORES El equipo de trabajo fue el siguiente: Coordinación general: Dirección del estudio: Supervisión lingüística: Responsable lingüístico: Equipo lingüístico: Automatización de las medidas y de los cálculos estadísticos5: 5 Daniel Pimienta ([email protected]) Benoît Lamey ([email protected]), bajo la dirección de Daniel Pimienta Daniel Prado ([email protected]) Marcelo Sztrum ([email protected]) Dirección Terminología e Industrias de la Lengua de la Unión Latina Benoît Lamey ([email protected]) Con un caluroso agradecimiento a Roger Price, por su apoyo a distancia. 6 3- PRESENTACIÓN GENERAL DEL ESTUDIO Y DE SUS RESULTADOS 3.1 METODOLOGÍA Se conservó la metodología de base utilizada desde 1998. En primer lugar, establecer una selección de 57 términos por lengua, cada uno con variantes ortográficas, según la presencia o no de signos diacríticos, sinonímicas, dialectales o morfosintácticas y con una significación y alcance equivalentes en las lenguas estudiadas (detalles de los criterios lingüísticos en 4.2 y anexo 7). A continuación, analizar y comparar los resultados para deducir, estadísticamente, porcentajes de presencia de cada idioma. Para cada término, la relación de las lenguas latinas con respecto al inglés es utilizada como variable aleatoria y se aplican técnicas de la estadística tomando como hipótesis una distribución matemática corriente de esta variable aleatoria (la curva de Gauss, también llamada distribución "normal"). Los resultados que se presentan más abajo se obtuvieron haciendo la síntesis de los resultados observados en los dos motores de búsqueda que satisficieron los criterios de selección descritos en el anexo 4. Todas las mediciones tomadas en cuenta en esta edición se llevaron a cabo entre agosto de 2000 y junio de 2001. 3.2 SÍNTESIS COMENTADA DE LOS RESULTADOS 3.2.1 Resultados en relación con el inglés El cuadro siguiente presenta la relación media entre cada lengua latina (más el alemán) y el inglés, obtenida por la medición de las ocurrencias de los 57 términos en el espacio web realizada en junio de 2001. 7 Cuadro 1: Promedios de las lenguas latinas (más el alemán) en relación con el inglés 10,95% 8,86% 5,88% 5,40% 0,32% > 13,42 % estimado6 CASTELLANO FRANCÉS ITALIANO PORTUGUÉS RUMANO ALEMÁN 3.2.2 Resultados absolutos Los resultados citados nos permiten evaluar la presencia de las lenguas latinas y, de manera aproximada, la del alemán, en relación con el inglés. Para cifrar la presencia absoluta de estas lenguas en la Red, es necesario formular previamente una hipótesis sobre la presencia absoluta del inglés. El cuadro siguiente muestra valores de presencia absoluta, establecidos a partir de promedios de diversas hipótesis de presencia del inglés. 6 Hay pues, en esta versión del estudio, una diferencia cualitativa entre los resultados del alemán y los de las otras lenguas. La formación de palabras en alemán, muy diferente de la de las otras lenguas estudiadas, lo desaventajaría mucho si nos atuviéramos a los resultados que dan los motores al pedirles una búsqueda "por palabra aislada", es decir, sin ningún contexto antes ni después. Para llegar a obtener resultados tan fiables como los de las otras lenguas sería necesario organizar, en un segundo momento, búsquedas "por palabra no aislada" (es decir, con contexto antes y después) y echar mano, en la medida de lo posible, de un factor cifrado que exprese la diferencia de cantidad, en general, de las palabras aisladas entre otras lenguas del estudio y el alemán. Nuestra solución aquí ha sido conservar la muestra de 57 términos tal cual, extenderla con la misma metodología lingüística a 57 términos alemanes equivalentes y buscar todavía por palabra aislada. Pero nos pareció necesario corregir aumentando en al menos 30% los resultados del alemán así obtenidos, para comenzar a acercarnos a su realidad lingüística: la cifra de 13,42% aquí aumenta en 30% el primer resultado bruto de 10,32%. 8 Cuadro 2: Presencia absoluta de las lenguas estudiadas en la Red Si INGLÉS = entonces CASTELLANO = entonces FRANCÉS = entonces ITALIANO = entonces PORTUGUÉS = entonces RUMANO = entonces ALEMÁN7 Quedará pues un espacio para las otras lenguas de 65% 7,12% 5,76% 3,82% 3,51% 0,21% 8,71% 5,83% 60% 55% 52% 50% 45% 40% 6,57% 6,02% 5,69% 5,48% 4,93% 4,38% 5,32% 4,87% 4,61% 4,43% 3,99% 3,54% 3,53% 3,23% 3,06% 2,94% 2,65% 2,35% 3,24% 2,97% 2,81% 2,70% 2,43% 2,16% 0,19% 0,18% 0,17% 0,16% 0,14% 0,13% 8,04% 7,37% 6,97% 6,70% 6.03% 5,37% 13,10% 20,35% 24,96% 27,59% 34,83% 42,07% Este cuadro nos da una idea más precisa de la presencia en términos absolutos de las lenguas estudiadas en relación con el conjunto de las páginas de la Red. Uno de los indicadores más significativos es el del espacio disponible para las lenguas restantes, que nos permite seleccionar, como la más probable, la hipótesis de una presencia absoluta del inglés próxima al 52%. Para esto, basta considerar el chino y el japonés, que tienen probablemente una presencia semejante a las del alemán y el castellano (entre 5%y 8%), así como la de idiomas que representarían entre el 0,5% y el 3% (coreano, holandés, ruso y las cuatro lenguas escandinavas con un total entre 8% y 10%), el de las lenguas cuya presencia es muy escasa, como el rumano (una decena de lenguas con 0,1%, para un total de 1%) y, finalmente, las numerosísimas lenguas cuya presencia sigue siendo marginal. Esta última proporción es la más difícil de estimar; tomando la hipótesis de 200 lenguas a 0,01%, se alcanza un total de 2%… Una de las grandes incógnitas, cuyas consecuencias deberán ser evaluadas en el futuro, es la posible multiplicación de las lenguas en Internet; se calcula que el total de las lenguas existentes se sitúa entre 3000 y 6000... Calculando una presencia total de 25% para las lenguas no estudiadas, es razonable la hipótesis de un total absoluto de 52% para el inglés. La estimación en 25% de las lenguas no estudiadas se refuerza por la evolución dinámica de su presencia, descrita en 4.3.3. 7 Resultados aumentados en 30% (véase nota 6). 9 3.3 RELACIÓN ENTRE EL NÚMERO DE HABLANTES Y SU PRESENCIA EN LA RED Es evidente que los valores de presencia absoluta no son un indicador perfecto del vigor de un idioma en la Red. Para obtener un resultado significativo, conviene proporcionar valores que expresen la presencia de las lenguas en Internet según su presencia en el mundo real, en general. La presencia relativa de estas lenguas se calcula sin tener completamente en cuenta el factor "plurilingüismo", cuyas dificultades se describieron en L4. Cuadro 3: Presencia de las lenguas estudiadas (cifras redondeadas en millones) Inglés 630 Presencia absoluta (cantidad hablantes) Presencia relativa 10,50% (% mundial) Castellan Francés o 375 130 6,25% 2,17% Italiano 60 1% Portugué Rumano Alemán s 190 30 120 3,17% 0,50% 2% Cuadro 4: Presencia ponderada de las lenguas estudiadas en el espacio WWW Presencia absoluta 2001 Inglés Castellano Francés Italiano Portugués Rumano Alemán 52% 5,69% 4,61% 3,06% 2,81% 0,17% 6,97% Presencia ponderada 1998 7,14 0,40 1,30 1,50 0,26 0,30 No disponible Presencia ponderada 2000 5,71 0,78 2,02 2,77 0,68 0,38 3,158 Presencia ponderada 2001 4,95 0,91 2,12 3,06 0,88 0,34 3,499 Un cociente igual a 1 debe así considerarse como resultado "normal"; si es inferior a 1, se considera débil y si es superior a 1, respetable. 8 Resultados aumentados en 30% (véase nota 6). 10 Se comprueba una fuerte progresión del castellano y, sobre todo, del portugués, pero los dos por debajo del umbral de una representación "normal". Excelentes resultados del alemán y del italiano, buen resultado del francés. 3.4 VITALIDAD DE LA PRODUCCIÓN DE INFORMACIÓN DE LOS INTERNAUTAS SEGÚN LOS IDIOMAS Un estudio de Global Reach del 31 de marzo de 2001 (http//:www.glreach.com ) propone un valor para el número de usuarios de Internet por lengua: Cuadro 5: Número de internautas clasificados por lenguas (en millones) Castella no Francés Italiano Internautas 215,6 (en millones) 20,4 16,6 14,2 11,5 0,6 27,5 146,2 Distribución 47,6% en % 4,5% 3,7% 3,1% 2,5% 0,13% 6,1% 32,2% Inglés Portugu Rumano és Alemán Resto Si relacionamos estos resultados con los nuestros (en cuadro 6), debería ser posible deducir cuáles son los idiomas que producen más información en la Red. 9 Resultados aumentados en 30% (véase nota 6). 11 Cuadro 6: Productividad de los hablantes Páginas INGLÉS 52% CASTELLANO 5,69% FRANCÉS 4,61%% ITALIANO 3,06%% PORTUGUÉS 2,81%% RUMANO 0,17%% 6,97%%10 ALEMÁN Internautas 47,6% 4,5% 3,7% 3,1% 2,5% 0,13% 6,1% P/I 1,09 1,26 1,25 0,98 1,12 1,31 1,14 El resultado es notable: las proporciones por lengua de las páginas en la Red y de internautas… ¡son de dimensión semejante! La relación entre porcentaje de páginas y porcentaje de usuarios se sitúa alrededor de 1 para todas las lenguas estudiadas11, lo que mostraría que la cantidad de páginas de la Red producidas en un idioma es hoy directamente proporcional a la cantidad de internautas hablantes de ese idioma. El resultado del inglés es sorprendente: se hubiera podido esperar un valor mucho mayor por influencia del plurilingüismo12. Lo que podría significar que la productividad de los anglófonos es inferior a la de los hablantes de las otras lenguas citadas. ¿ Prueba esto una producción incrementada de los hablantes de otras lenguas occidentales, conscientes de los desafíos lingüísticos de Internet? Sería interesante conocer los valores respectivos en las lenguas más recientes en Internet… 10 Resultados aumentados en 30% (véase nota 6). Las desviaciones son inferiores al 25% en valor absoluto y difícilmente se pueden sacar conclusiones a propósito de estas pequeñas variaciones, que están probablemente dentro de los intervalos de confianza de las cifras anunciadas por Global Reach, establecidas sin metodología estándar para todos los idiomas. 12 La proporción de hablantes de lenguas distintas del inglés que producen páginas en inglés (o también, que traducen sus páginas al inglés) es, como se sabe, muy elevada. 11 12 4- DETALLE DE LOS RESULTADOS 4.1 METODOLOGÍA INTERNET La evolución acelerada después de la última edición de nuestro estudio en los motores que indexan el contenido de la Red hizo necesario un cambio al respecto y un cuestionamiento profundo de la metodología Internet utilizada. Este trabajo se llevó a cabo en tres etapas: • Identificación de los principales motores de búsqueda disponibles y preselección. • Verificación de su comportamiento en los conteos13. • Selección de los motores que ofrecen las mejores garantías para la aplicación de nuestra metodología. 4.1.1 Identificación de los principales motores de búsqueda disponibles en el web y preselección. En esta primera etapa se identificaron los motores siguientes: AltaVista, Excite, Fastsearch14, Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo y Webtop. Webtop, motor reciente, no nos pareció suficientemente experimentado para incorporarlo. Hotbot, Lycos et Yahoo fueron eliminados porque trabajan en colaboración directa con otros motores y dan los mismos resultados: Lycos utiliza el índice de Fastsearch y Yahoo el de Google. Hotbot e iWon comparten el mismo índice, proporcionado por Inktomi. A Hotbot, que habíamos elegido en la edición anterior, debimos dejarlo de lado porque ya no indica los resultados de los conteos. Inktomi no ofrece directamente los servicios de su índice a los usuarios. Quedó así seleccionado iWon, pero no Excite, porque, como Hotbot, no daba resultados de conteo en el momento de las mediciones15. Quedaron así seis motores: AltaVista, Fastsearch, Google, iWon y Northern Light. 13 Valga recordar que los resultados de los conteos dependen de la función principal de los motores, que es identificar las páginas con las palabras buscadas en un orden de relevancia máxima. Algunos motores dan valores del total del número de páginas que responden al criterio de búsqueda y otros, no. En todo caso, conviene verificar con cuidado la fiabilidad de los datos de los conteos. 14 Conocido también con el nombre de Alltheweb. 13 4.1.2 Validación de los motores seleccionados en función de la metodología utilizada. La automatización del proceso de medición cuyos detalles se describen en el anexo 5 dio resultados en los seis motores de búsqueda preseleccionados. Cada uno trató las aproximadamente 1600 variantes de los 57 términos por lengua. Los resultados obtenidos mostraron fuertes divergencias entre los motores ¡con consecuentes inquietudes en cuanto a la solidez de nuestra metodología hasta aquí! Se hizo claro que había que estudiar mejor los motores utilizados para explicar las divergencias y poder determinar cuáles ofrecían los resultados más fiables. Pudimos establecer varios criterios de validación del uso de un motor de búsqueda en este trabajo. Un motor debe: • tener un índice suficientemente amplio en relación con el tamaño de la Red, • tomar en cuenta, de manera coherente, acentos y demás diacríticos, • proporcionar resultados coherentes en el conteo de las páginas encontradas, • tener un índice homogéneo con respecto a los idiomas. Los resultados obtenidos por motor, los detalles de la selección y otras informaciones generales sobre los motores de búsqueda pueden leerse en el anexo 4. 15 Este defecto ha sido corregido después, de modo que sus resultados serán tomados en cuenta en la próxima edición, en caso de que mantenga esta función. 14 4.1.3 Selección final de los motores de búsqueda para la aplicación de la metodología Del conjunto de motores preseleccionados, solo dos, Google y Fastsearch, se mostraron capaces de servir de soporte para un estudio sobre la presencia de las lenguas en la Red, en agosto del 2000. En esa fecha usamos sus resultados respectivos conjuntamente17 para obtener los resultados finales y la semejanza de los resultados de uno y otro motor, que trabajan con índices y técnicas de búsqueda diferentes, nos pareció un buen signo de la validez de nuestra metodología: Inglés18 Castellano Francés Italiano Portugués Rumano Alemán19 Google 210 7,86% 7,33% 4,65% 2,82% 0,27% 7,89% Fast 147 8,41% 7,33% 4,60% 3,95% 0,37% 8,47% Sin embargo, en el conteo en junio de 2001, Google ya no procesaba de manera satisfactoria los diacríticos y debimos dejarlo de lado. 4.2 METODOLOGÍA LINGÜÍSTICA Esta edición introduce, en un primer paso exploratorio, equivalencias en alemán y corrige unos pocos errores detectados en la escritura de las variantes20; pero no se cambió la metodología lingüística de base de la edición anterior. A la selección de 57 términos por lengua de 1998 se agregaron equivalentes alemanes. Cada término con sus variantes (ortográficas, según la presencia o no de signos diacríticos, sinonímicas, dialectales, morfosintácticas…) se considera una vez más equivalente de los de su mismo número en todas las lenguas estudiadas y distintivo, es decir, sin (o casi sin) 17 Para los cálculos estadísticos, concatenamos los resultados de los dos motores con la idea de obtener una serie más larga de valores de nuestra variable aleatoria. 18 Millones de páginas en inglés. 19 Se trata aquí de resultados brutos, sin la corrección del 30%. 20 Se trata de errores menores que no provocaron una desviación notable con respecto a los resultados publicados con ocasión del estudio precedente. Los detalles en el anexo 3. 15 homografías interlingüísticas21 de sus variantes u otros obstáculos a la equivalencia. La muestra de 57 términos y respectivas variantes se encuentra en el anexo 3. 4.2.1 Nuevos problemas planteados por el alemán La formación de las palabras en alemán es muy diferente de la de demás lenguas estudiadas hasta ahora: los idiomas como el alemán reúnen en una sola palabra "compuesta" raíces que, en las formas equivalentes de las otras lenguas estudiadas (excepto, parcialmente, el inglés, pero mucho menos que el alemán), se encuentran separadas en palabras diferentes, constituyendo un sintagma. Pero como las equivalencias se hicieron entre palabras no compuestas y para buscar en los motores por palabra aislada (sin contexto antes o después), el alemán resulta muy desaventajado, ya que formas muy frecuentes, como Ziegenkäse, equivalente de queso de cabra, son sistemáticamente descartadas. Para corregir esta desventaja manifiesta, se aumentaron como señalábamos los resultados obtenidos para el alemán en un 30%. Pero para lograr resultados tan fiables como los obtenidos para las otras lenguas, será necesario en un segundo momento, establecer una nueva metodología que permita buscar "por palabra no aislada" (con y sin contexto antes y después de la palabra), ayudándose también de un factor cifrado que exprese la diferencia de cantidad de palabras entre las otras lenguas del estudio y el alemán. Este factor de corrección podría encontrarse probablemente en las investigaciones sobre corpus paralelos interlingüísticos. 4.2.2 Otras problemáticas Referencias al trabajo lingüístico concreto pueden leerse en el anexo 3 y el anexo 7; otros detalles de la metodología lingüística se pueden consultar en la edición anterior, L4, 4.2. Recordemos aquí la decisión de incluir siempre, junto con las formas que tienen diacríticos (acentos, etc.), variantes sin diacríticos, muy frecuentes en la Red. En el caso del alemán, no 21 Hablamos de las formas que tendrían la misma escritura en más de una lengua; los homógrafos dentro de una misma lengua son considerados como una misma palabra. 16 se tomó en cuenta la distinción morfosintáctica mayúscula/minúscula, que es neutralizada por los motores de búsqueda y así no pertinente. Por otra parte, habíamos decidido no incluir formas de menos de 4 letras para evitar posibles homografías (sobre todo con las siglas, pero no únicamente). Las homografías entre al menos dos de las lenguas estudiadas fueron sumamente frecuentes, principalmente entre el castellano y el portugués y, desde luego, había que evitar coincidencias por préstamo. A veces, una homografía casual, como por ejemplo la de las variantes alemanas Montage / Montages, de la palabra lunes, con las formas francesas se duplicó con una homografía por préstamo, puesto que la expresión francesa suele ser así tomada por casi todas las demás lenguas en el ámbito del cine. 4.3 METODOLOGÍA ESTADÍSTICA Los intervalos de confianza de 90% y 99% en los resultados se establecieron según la distribución T de Student, adoptando la hipótesis de una distribución de tipo "normal". 4.3.1 Resultados de las mediciones con los motores de búsqueda preseleccionados El cuadro 16 del anexo 4 indica los resultados de las búsquedas a partir de los seis motores preseleccionados en relación con cada lengua, en agosto de 2000. 4.3.2 Cálculos estadísticos de los resultados en relación con el inglés Estos son los porcentajes promedio de presencia de las lenguas latinas (más el alemán) en relación con el inglés. Cuadro 7: Detalles de los resultados estadísticos Promedio Desviación típica 22 Castellano Francés 10,95% 8,86% 9,46% 5,09% Italiano 5,88% 5,55% Resultados aumentados en 30% (véase nota 6). 17 Portugués 5,40% 5,49% Rumano 0,32% 0,33% Alemán22 13,4% 8,97% Coeficiente 0,86 de variación Intervalo de confianza 8,89-13,01 de 90% 0,57 0,94 1,01 1,02 0,66 7,75-9,97 4,67-7,09 4,20-6,60 0,25-0,39 11,45-15,37 El coeficiente de variación es la raíz cuadrada de la desviación típica al cuadrado dividida por el promedio al cuadrado. Un valor superior a 1 indica una fuerte dispersión, luego un promedio poco fiable. Un valor inferior a 1 indica una dispersión baja, luego un resultado que es tanto más fiable cuanto más bajo es el valor. El intervalo de confianza será a su vez más estrecho cuanto menor sea el valor del coeficiente. 18 4.3.3 Cálculos de los resultados absolutos Según las conclusiones establecidas en 3.2.1, se llega a una presencia absoluta de las lenguas estudiadas de: Inglés 52% Castellano 5,69% Francés 4,61% Italiano 3,06% Portugués 2,81% Rumano 0,17% Alemán 6,97%23 Resto 24,96% Tal como lo habíamos previsto en la edición anterior del estudio, el castellano supera ahora al francés. Y el alemán está delante de todas las lenguas latinas. La obtención de estos resultados se basa en el cálculo de los resultados relativos (capítulo anterior) así como en una aproximación realista de la presencia de las lenguas no estudiadas descrito en la línea "resto". La aproximación a la presencia de las lenguas no estudiadas se realizó a partir de una medición del tamaño del campo de cada lengua en el motor Fastsearch. En el momento en que se tomaron las medidas, Fastsearch presentaba un índice de 360 millones de páginas repartidas entre 31 lenguas. Para saber cuántas páginas de cada lengua contiene el índice según el algoritmo de detección de Fast, hay que utilizar la sección "advanced search" y hacer buscar por lengua, a partir de la técnica que habíamos llamado en la edición anterior "complemento del conjunto vacío" (búsqueda del número de páginas que no incluyen una palabra inexistente)24. Se obtiene el cuadro 17 en el anexo 6. Este cuadro da una aproximación a la presencia de cada lengua, deducida del algoritmo de reconocimiento de las lenguas del motor de búsqueda, el cual, como se puede suponer, no es perfecto. Por ejemplo, 23 24 Resultados aumentados en 30% (véase nota 6). El argumento de la búsqueda es, por ejemplo, <- "hgavdhjgduhgedujhgsdfyuhg">. 19 una búsqueda sobre la letra "è" en los sitios en inglés da como resultado (para Google ou Fastsearch) un millón de sitios, pero sobre todo en tailandés, coreano, japonés, ruso… Otra manera de averiguar la presencia de las lenguas no estudiadas es constatar su evolución dinámica entre L4 y L5. A partir del cuadro de las hipótesis de valores absolutos descritos aquí en 3.2.1 y de los valores absolutos de los idiomas establecidos en 1998, se obtiene el cuadro siguiente: Cuadro 8: Hipótesis de la progresión de la presencia de las lenguas estudiadas Lenguas estudiadas INGLÉS CASTELLANO FRANCÉS ITALIANO PORTUGUES RUMANO Resto(otras lenguas) Hipótesis de presencia absoluta para L5 55% 6,02% 50% 5,48% 45% 4,93% 4,87% 3,23% 2,97% 4,43% 2,94% 2,70% 3,99% 2,65% 2,43% 0,18% 0,16% 0,14% 20,35% 27,59% 34,83% L4 Sept 1998 Progresiones L4/L5 75% -26,67% -33,33% 2,53% 137,94% 116,60 % 2,81% 73,31% 57,65% 1,50% 115,33% 96% 0,82% 262,20% 229,27 % 0,15% 20% 6,67% 17,19% 18,38% 60,50% -40% 94,86% 41,99% 76,67% 196,34 % -6,67% 102,62 % Una vez más, la hipótesis de una presencia absoluta del inglés próxima al 50% es lo más realista. Ya que se puede observar que una progresión de menos de 18,38% de las otras lenguas25 sería insuficiente: representaría una progresión dos veces menos rápida que la del rumano y de 4 a 15 veces menos rápida que la de las otras lenguas latinas estudiadas. Por el contrario, un aumento del 102% para las lenguas no estudiadas parece exagerado, ya que implicaría una evolución mundial más rápida que la de la gran mayoría de las lenguas latinas, salvo el portugués. Una progresión de un 60%, término medio, para los idiomas no estudiados los colocaría al nivel de la progresión del francés, lo que resulta mucho más verosímil. Toda esta comparación refuerza nuestra hipótesis de un resultado final de un 30% como valor absoluto del inglés. 25 Las "otras lenguas" abarcan realidades diferentes, de lenguas escandinavas y asiáticas, con fuerte progresión, a lenguas menos difundidas, con progresión probablemente más lenta. 20 4.4 COMPARACIÓN CON OTROS ESTUDIOS 4.4.1 Comparación con las ediciones anteriores de este estudio Las relaciones inglés/francés y francés/castellano evolucionaron de la manera siguiente entre el primer estudio y el actual26: Cuadro 9: Evolución de las relaciones entre la presencia del francés, del inglés y del castellano Marzo 1996 (L1) Inglés/Francés 21,91 Francés/Castellano 2,40 Inglés/Castellano 52,58 Marzo 1997 (L2) 19,99 1,92 38,38 Marzo 1998 (L3) 17,60 1,33 23,32 Sept. 1998 (L4) 35,59 1,11 39,53 Agosto 2000 (L5) 13,66 0,91 12,38 Junio 2001 (L5) 11,28 0,81 9,14 Recordamos que las cifras en itálica (de L1 a L3) son solo aproximadas; la observación seria comenzó a partir de L4. 4.4.2 Comparación con estudios similares (Alis y Inktomi) El estudio de Alis no se volvió a realizar desde 1998, de modo que podemos mantener mantenemos pues el análisis hecho en L4. Por el contrario, Inktomi publicó resultados que encontraron importante repercusión en Internet y que son utilizados ahora como fuente oficial para muchos informes. Cuadro 10: Resultados del estudio de Inktomi (febrero 2000) IDIOMA Inglés PROPORCIÓN (%) 86,54 26 Hay que tomar esta progresión con muchas reservas, puesto que las cifras de L1 a L3 no presentaban las características de rigor lingüístico obtenidas a partir de L4. 21 Alemán Francés Italiano Castellano Portugués Holandés Finlandés Sueco Japonés 5,83 2,36 1,55 1,23 0,75 0,54 0,50 0,36 0,34 Estas cifras contribuyen a perpetuar la visión errónea según la cual el inglés sigue siendo la lengua de más del 80% de las páginas web. Sin embargo, es fácil descubrir una aberración en estos resultados, en su presentación o en su interpretación: el porcentaje anunciado para el inglés (86%) no lo es en relación con todas las lenguas sino solo con respecto a las 10 lenguas citadas en el cuadro, ya que el total de los porcentajes para las 10 lenguas… ¡llega al 100%! Si suponemos, como es plausible, un 30% de las páginas web para las lenguas no citadas, el total real inglés sería entonces de: 86,54% x (100-30) = ¡¡¡60,58%!!! Aparte de este error evidente que quita sentido a los resultados absolutos (lo que no ha impedido que la mayoría de las oficinas de marketing de Internet retomen tales cifras absurdas), sigue siendo interesante comparar nuestros resultados, basados en criterios de selección lingüística explícitos, con los algoritmos de reconocimiento de las lenguas utilizadas por los distintos motores cuyo mecanismo no es, en cambio, explícito. Véase por ejemplo, el cuadro 17 del anexo 6que muestra las cifras derivadas de Fastsearch y las compara con las de nuestro estudio. Hasta prueba de lo contrario, debemos considerar nuestro método como más riguroso desde el punto de vista metodológico y concluir que los algoritmos de reconocimiento de las lenguas en Internet tienen todos la enojosa tendencia a sobreevaluar las cifras del inglés. 22 5- TENDENCIA DE LA EVOLUCIÓN DE LAS LENGUAS ESTUDIADAS Tal como lo hemos señalado, en agosto 2000 y en enero de 2001 pudimos usar los motores Fastsearch y Google, pero en junio de 2001 debimos dejar de lado a este último porque ya no procesaba de manera satisfactoria los diacríticos. En las comparaciones del cuadro siguiente solo se tienen en cuenta los resultados de Fastsearch en las tres fechas citadas. Cuadro 11: Resultados de Fastsearch en agosto de 2000, enero de 2001y junio de 2001 Agosto 2000 Enero 2001 Junio 2001 Castellano Francés Italiano Portugués Rumano 8,41% 7,33% 4,60% 3,95% 0,37% 9,46% 7,89% 4,93% 4,44% 0,33% 10,95% 8,86% 5,88% 5,40% 0,32% El cuadro 12 muestra una imagen de las tendencias evolutivas actuales de los idiomas estudiados, según las cifras precedentes. Cuadro 12: Tendencias de la evolución 23 Alemán 11,0% 11,4% 13,4% Tendencias actuales de la evolución de los idiomas en el espacio WWW 16% 12% Español 10% Francés 8% Italiano Portugués 6% Rumano 4% Allemand 2% 0 En 0 e 01 Fe b 01 M ar 01 Ab r M 01 ay o 01 Ju n 01 Ju l0 1 Ag o 0 Se 1 p 01 O ct 01 00 D ic ov 00 N ct 00 O Se p 00 0% Ag o % con relación al inglés 14% 24 6- PERSPECTIVAS PARA LA CONTINUIDAD DE LA OBSERVACIÓN Las condiciones logísticas están ahora dadas para un seguimiento continuo y frecuente del estudio. La automatización de la captura de los resultados hace más fácil el ingreso y la interpretación de los datos. Podemos mantener un observatorio de la evolución de la presencia de las lenguas estudiadas, con mediciones cada 3 ó 6 meses. Poner en marcha este observatorio exige una vigilancia permanente de lo que ocurre en el mundo de los motores de búsqueda para poder determinar si los cambios de procedimiento de un motor lo descalifica para nuestros fines o si, por el contrario, se puede introducir un nuevo motor. Cada modificación de la interfaz de un motor de búsqueda implica también un trabajo de programación de la aplicación informática que automatiza las mediciones. Se puede así pensar en una extensión del estudio a otras lenguas, comenzando por el conjunto de las lenguas habladas en la Unión Europea. Esta extensión debería requerir un trabajo agregado no solamente en cuanto a la traducción de los 57 términos sino también un muy probable ajuste de la metodología de búsqueda de ocurrencias, tal como es sugerido en 4.2.1. Sería deseable asimismo iniciar mediciones de lenguas no europeas, como por ejemplo el quechua, en América Latina, o el wolof, en Africa. Nuevas colaboraciones lingüísticas serán sin duda necesarias y con gusto estudiaríamos propuestas en este sentido. Nos queda también volver al trabajo de medición, más subjetiva, de la presencia de las culturas en la Red. La experiencia de automatización adquirida será sin duda útil. Por último, este abordaje puede permitir iniciar estudios transversales para diferenciar segmentos de penetración lingüísticos en la Red (como, por ejemplo, turismo, comercio electrónico o educación). Las pistas están abiertas. Y abiertas las puertas para nuevos socios y nuevos apoyos financieros… 25 7- REFERENCIAS, EN INTERNET, SOBRE TRABAJOS CONEXOS La edición anterior del estudio menciona algunas referencias. Las siguientes permiten ir completando la lista: Referencias sobre motores de búsqueda: http://www.searchenginewatch.com http://www.searchengineshowdown.com Resultados parciales del estudio de Inktomi: http://www.inktomi.com/webmap/ Número de internautas por lengua: http://www.glreach.com/globstats/index.php3 Estudio de supervisión sobre el tamaño del web: http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf Estudio realizado para el Internet Council: http://usic.wslogic.com/intro.html 26 ANEXO 1: RECAPITULACIÓN Y REFERENCIAS DE LOS DIVERSOS ESTUDIOS REALIZADOS POR LOS AUTORES Cuadro 13: Recapitulación y referencias de los diversos estudios realizados por los autores Fecha y nombre 3/96 L1 3/96 C1 3/97 L2 3/98 L3 9/98 27 Derechos de autor Funredes Localización Descripción Internet http://funredes.org/LC/ Primer estudio sobre lenguas. Centrado en el francés, L1 toma en cuenta el castellano. Mediciones comparativas, con AltaVista, de la presencia de palabras en el WWW, en inglés, francés y castellano, a partir de una muestra de 50 términos determinados sin rigor lingüístico. Resultado aproximado que muestra una relación inglés/francés del orden de 22 y francés/castellano del orden de 2,4. Funredes http://funredes.org/LC/ Primer estudio sobre culturas. Centrado en la L1 francofonía, toma en cuenta la hispanidad. Mediciones comparativas, con AltaVista, del número de menciones del nombre de personalidades culturalmente representativas, en las páginas web: unas 500 personalidades repartidas en 13 categorías. El resultado, subjetivo, muestra una presencia bastante importante de los representantes de la cultura francófona, en relación con los norteamericanos, en los ámbitos en que la cultura y el comercio no se confunden. Funredes http://funredes.org/LC/ Simple actualización del estudio de lengua que L2 muestra una débil progresión del francés en relación con el inglés y una fuerte progresión del castellano. Funredes 27 http://funredes.org/LC/ Importante actualización, presentada en la L3 conferencia "Visionarios" en Caracas. • Análisis de las limitaciones de los motores de búsqueda y de la presencia relativa de los diacríticos. Recomendación para el abandono de AltaVista y la utilización de HotBot. • El "método del complemento del conjunto vacío" aplicado a AltaVista da una idea de la importancia de la presencia de las lenguas derivada del algoritmo de reconocimiento de las lenguas de AltaVista. • Evaluación crítica de los resultados del estudio de Alis Technologies. El francés continúa su progresión lenta y el castellano está ahora muy cerca del francés. Agence de http://www.unilat.org/ Importantes cambios en el método y obtención de Con el apoyo metodológico de la Unión Latina. 27 L4 la francophonie Funredes Unión Latina dtil/lenguainternet/es/l _latinas_es.htm resultados más rigurosos. • Se toman en cuenta las lenguas latinas: castellano, francés, italiano, portugués, rumano. • Definición de una muestra de 57 términos según criterios lingüísticos rigurosos. • Medición con HotBot en el espacio WWW. • Medición en el espacio Usenet con DejaNews. • Establecimiento de intervalos de confianza de 90% y 99%. • Ponderación de los resultados en función del tamaño de los espacios lingüísticos. 9/98 C2 Agence de la francophonie Funredes Unión Latina http://www.unilat.org/ dtil/lenguainternet/es/c ultura/indice_culturas. htm Segundo estudio cultural, 3 años después. No hay diferencias notables en el estudio de la presencia cultural francófona. • Utilización de la misma metodología, pero mejorada en cuanto a las categorías, a la elección y al número de personalidades y extensión a personalidades de cinco lenguas latinas. • Análisis de ciertos resultados por lengua y en la lengua de referencia. Página de portada del conjunto de los estudios lenguas y culturas. • Primera extensión del estudio al alemán • Selección primero, tras un estudio pormenorizado, de los motores de búsqueda Google y Fastsearch y luego solamente de Fastsearch. Medición en el espacio WWW. • Automatización de los cálculos con un programa de interfaz entre los términos a medir, organizados en bases de datos, y los motores de búsqueda. • Corrección de errores de ortografía u omisiones en los 57 términos de la muestra. • Comienzo de una automatización de las mediciones y de una construcción de curvas de extrapolación. 9/98 LC 2000-2001 L5 http://funredes.org/LC Funredes Unión Latina http://www.unilat.org/ dtil/LI/index.htm 28 ANEXO 2: VISUALIZACIÓN DE INTERVALOS DE CONFIANZA EN LOS RESULTADOS POR LENGUA Cuadro 14: Visualización de los intervalos de confianza Español Francés Italiano Portugués Rumano Alemán En % 0 1 2 3 4 Intervalo a 90% 5 6 7 8 Intervalo a 99% 29 9 10 11 ANEXO 3: LISTA DE LOS TÉRMINOS DE LA MUESTRA DE REFERENCIA En itálica: forma que puede ocurrir en la Red, aunque "incorrecta". El caso más frecuente corresponde a términos escritos sin signos diacríticos En MAYÚSCULAS: forma con homografía interlingüística percibida, variante de menos de cuatro caracteres (riesgo importante de homografía con una sigla) o variante (y término) de alcance sintáctico o semántico mayor que el de los equivalentes en los demás idiomas. Cuadro 15: Lista de los términos de referencia INGLÉS (EN) 1 ambiguity ambiguities ambiguousne ss ambiguousne sses CASTELLAN O (ES) ambigüedad ambiguedad ambigüedad es ambiguedad es FRANCÉS (FR) ambiguïté ambiguite ambiguïtés ambiguites ITALIAN O (IT) ambiguit à ambiguit a 2 causality causalities causalidad CAUSALIDA DES causalité causalite causalités causalites causalità causalita PORTUGUÉS (PT) ambigüidade ambiguidade ambigüidades ambiguidades RUMANO (RO) ambiguitate ambiguitatea ambiguităţii ambiguitatii ambiguităţi ambiguitati ambiguităţile ambiguitatile ambiguităţilor ambiguitatilor causalidade cauzalitate CAUSALIDADES cauzalitatea cauzalităţii cauzalitatii cauzalităţi cauzalitati cauzalităţile cauzalitatile cauzalităţilor cauzalitatilor 30 ALEMÁN (DE) ambiguität ambiguitat ambiguitaet ambiguitäten ambiguitaten ambiguitaeten doppeldeutigkeit doppeldeutigkeiten zweideutigkeit zweideutigkeiten kausalität kausalitat kausalitaet kausalitäten kausalitaten kausalitaeten 3 cheese cheeses brânză branza brânze branze brânza brânzele branzele brânzei branzei brânzelor branzelor brânzeturi branzeturi brânzeturile branzeturile brânzeturilor branzeturilor 4 compatibility compatibilid compatibilit compatibi compatibilidade compatibilitate compatibilitie ad é lità COMPATIBILID compatibilitate s COMPATIBIL compatibilit compatibi ADES a IDADES e lita compatibilităţii compatibilit compatibilitatii és compatibilităţi compatibilit compatibilitati es compatibilităţil e compatibilitatil e compatibilităţil or compatibilitatil or 5 contiguity contigüidad contiguïté contiguità contigüidade contiguitate contiguities contiguidad contiguite contiguita contiguidade contiguitatea CONTIGÜID contiguïtés CONTIGÜIDADE contiguităţii ADES contiguites S contiguitatii CONTIGUID CONTIGUIDADE contiguităţi ADES S contiguitati contiguităţile contiguitatile contiguităţilor contiguitatilor 6 dangerous peligroso dangereux pericolos perigoso primejdios peligrosa dangereuse o perigosa primejdioasă peligrosos dangereuse pericolos perigosos primejdioasa peligrosas s a perigosas primejdioase pericolosi primejdioşi pericolos primejdiosi e 7 december queso quesos diciembre fromage fromages décembre decembre formaggi o formaggi queijo queijos dicembre dezembro 31 decembrie käse kase kaese käsen kasen kaesen kompatibilität kompatibilitat kompatibilitaet kompatibilitäten kompatibilitaten kompatibilitaeten vereinbarkeit vereinbarkeiten kontiguität kontiguitat kontiguitaet kontiguitäten kontiguitaten kontiguitaeten GEFÄHRLICH GEFAHRLICH GEFAEHRLICH gefährliche gefahrliche gefaehrliche gefährlicher gefahrlicher gefaehrlicher gefährliches gefahrliches gefaehrliches gefährlichen gefahrlichen gefaehrlichen gefährlichem gefahrlichem gefaehrlichem dezembers dezembern 8 DENSITY DENSITIES densidad densité DENSIDADE densite S densités densites 9 disparity disparities disparidad disparité DISPARIDAD disparite ES disparités disparites 1 divisibility 0 divisibilities divisibilidad divisibilité DIVISIBILID divisibilite ADES divisibilités divisibilites 1 elasticity 1 elasticities elasticidad élasticité ELASTICIDA elasticite DES élasticités elasticites 1 electricity 2 electricities electricidad électricité ELECTRICID electricite ADES électricités electricites 1 february 3 febrero février fevrier densità densita densidade DENSIDADES densitate densitatea densităţii densitatii densităţi densitati densităţile densitatile densităţilor densitatilor disparità disparidade disparitate disparita DISPARIDADES disparitatea disparităţii disparitatii disparităţi disparitati disparităţile disparitatile disparităţilor disparitatilor divisibilit divisibilidade divizibilitate à DIVISIBILIDAD divizibilitatea divisibilit ES divizibilităţii a divizibilitatii divizibilităţi divizibilitati divizibilităţile divizibilitatile divizibilităţilor divizibilitatilor elasticità elasticidade elasticitate elasticita ELASTICIDADE elasticitatea S elasticităţii elasticitatii elasticităţi elasticitati elasticităţile elasticitatile elasticitităţilor elasticitatilor elettricità electricidade electricitate elettricita eletricidade electricitatea ELECTRICIDAD electricităţii ES electricitatii eletricidades electricităţi electricitati electricităţile electricitatile electricităţilor electricitatilor febbraio fevereiro februarie 32 dichte DICHTEN dichtheit dichtheiten dichtigkeit dichtigkeiten disparität disparitat disparitaet disparitäten disparitaten disparitaeten divisibilität divisibilitat divisibilitaet divisibilitäten divisibilitaten divisibilitaeten teilbarkeit teilbarkeiten dehnbarkeit dehnbarkeiten elastizität elastizitat elastizitaet elastizitäten elastizitaten elastizitaeten elektrizität elektrizitat elektrizitaet elektrizitäten elektrizitaten elektrizitaeten STROM februar februars februare februaren 1 femininity 4 femininities feminidad femineidad FEMINIDADE S femineidade s féminité feminite féminités feminites 1 fertility 5 fertilities fertilidad fertilité FERTILIDAD fertilite ES fertilités fertilites 1 fidelity fidelidad 6 fidelities FIDELIDADE faithfulness S faithfulnesses fidélité fidelite fidélités fidelites 1 fraternity fraternidad 7 fraternities FRATERNIDA brotherhood DES brotherhoods fraternité fraternite fraternités fraternites 1 friday 8 fridays vendredi vendredis viernes femminili tà femminili ta feminitate feminitatea feminităţii feminitatii feminităţi feminitati feminităţile feminitatile feminităţilor feminitatilor fertilità fertilidade fertilitate fertilita FERTILIDADES fertilitatea fertilităţii fertilitatii fertilităţi fertilitati fertilităţile fertilitatile fertilităţilor fertilitatilor fedeltà fidelidade fidelitate fedelta FIDELIDADES fidelitatea fidelităţii fidelitatii fidelităţi fidelitati fidelităţile fidelitatile fidelităţilor fidelitatilor fraternità fraternidade fraternitate fraternita FRATERNIDADE fraternitatea fratellanz S fraternităţii a fraternitatii fratellanz fraternităţi e fraternitati fraternităţile fraternitatile fraternităţilor fraternitatilor venerdì venerdi feminidade feminilidade FEMINIDADES feminilidades sexta-feira sextas-feiras 33 vineri vinerea femininität femininitat femininitaet femininitäten femininitaten femininitaeten weiblichkeit weiblichkeiten fertilität fertilitat fertilitaet fertilitäten fertilitaten fertilitaeten fruchtbarkeit fruchtbarkeiten TREUE TREUEN brüderlichkeit bruderlichkeit bruederlichkeit brüderlichkeiten bruderlichkeiten bruederlichkeiten fraternität fraternitat fraternitaet fraternitäten fraternitaten fraternitaeten freitag freitags freitages freitage freitagen 1 heterosexuali heterosexual 9 ty idad heterosexuali heterosexual ties idades hétérosexua lité heterosexua lite hétérosexua lités heterosexua lites eterosess ualità eterosess ualita 2 homosexualit homosexuali 0 y dad homosexualiti homosexuali es dades homosexual ité homosexual ite homosexual ités homosexual ites omosess ualità omosess ualita 2 horse 1 horses caballo caballos cheval chevaux cavallo cavalli 2 humidity 2 humidities humedad humedades humidité humidite humidités humidites umidità umidita heterossexualid ade heterossexualid ades heterosexualita te heterosexualita tea heterosexualită ţii heterosexualita tii heterosexualită ţi heterosexualita ti heterosexualită ţile heterosexualita tile heterosexualită ţilor heterosexualita tilor homossexualida homosexualitat de e homossexualida homosexualitat des ea homosexualităţ ii homosexualitat ii homosexualităţ i homosexualitat i homosexualităţ ile homosexualitat ile homosexualităţ ilor homosexualitat ilor cavalo CAL cavalos CAI calul CAII calului cailor calule humidade umiditate umidade umiditatea humidades umidităţii umidades umiditatii umidităţi umiditati umidităţile umiditatile umidităţilor umiditatilor 34 heterosexualität heterosexualitat heterosexualitaet heterosexualitäten heterosexualitaten heterosexualitaeten homosexualität homosexualitat homosexualitaet homosexualitäten homosexualitaten homosexualitaeten pferd pferdes pferds pferde pferden feuchtigkeit feuchtigkeiten humidität humiditat humiditaet humiditäten humiditaten humiditaeten 2 illness 3 illnesses sickness sicknesses disease diseases 2 immortality 4 immortalities enfermedad enfermedad es 2 immunity 5 immunities inmunidad inmunidades inmortalidad inmortalidad es 2 incompatibilit incompatibili 6 y dad incompatibiliti INCOMPATIB es ILIDADES 2 infallibility 7 infallibilities infalibilidad INFALIBILID ADES MALADIE maladies malattia malattie infermità infermita doença doenca doenças doencas enfermidade enfermidades immortali imortalidade tà imortalidades immortali ta boală BOLI boala bolile bolii bolilor immortalité imortalitate immortalite imortalitatea immortalité imortalităţii s imortalitatii immortalite imortalităţi s imortalitati imortalităţile imortalitatile imortalităţilor imortalitatilor immunité immunità imunidade imunitate immunite immunita imunidades imunitatea immunités imunităţii immunites imunitatii imunităţi imunitati imunităţile imunitatile imunităţilor imunitatilor incompatibil incompati incompatibilida incompatibilitat ité bilità de e incompatibil incompati INCOMPATIBILI incompatibilitat ite bilita DADES ea incompatibil incompatibilităţ ités ii incompatibil incompatibilitat ites ii incompatibilităţ i incompatibilitat i incompatibilităţ ile incompatibilitat ile incompatibilităţ ilor incompatibilitat ilor infaillibilité infallibilit infalibilidade infaibilitate infaillibilite à INFALIBILIDAD infaibilitatea infaillibilités infallibilit ES infaibilităţii infaillibilites a infaibilitatii infaibilităţi infaibilitati infaibilităţile infaibilitatile infaibilităţilor infaibilitatilor 35 krankheit krankheiten seuche seuchen immortalität immortalitat immortalitaet immortalitäten immortalitaten immortalitaeten unsterblichkeit unsterblichkeiten immunität immunitat immunitaet immunitäten immunitaten immunitaeten inkompatibilität inkompatibilitat inkompatibilitaet inkompatibilitäten inkompatibilitaten inkompatibilitaeten unvereinbarkeit unvereinbarkeiten infallibilität infallibilitat infallibilitaet infallibilitäten infallibilitaten infallibilitaeten unfehlbarkeit unfehlbarkeiten 2 inferiority 8 inferiorities inferioridad infériorité INFERIORID inferiorite ADES infériorités inferiorites 2 infidelity infidelidad 9 infidelities INFIDELIDA unfaithfulness DES unfaithfulness es infidélité infidelite infidélités infidelites 3 instability 0 instabilities inestabilidad instabilité inestabilidad instabilite es instabilités instabilites 3 inviolability 1 inviolabilities inviolabilida d INVIOLABILI DADES inviolabilité inviolabilite inviolabilités inviolabilites inferiorità inferioridade inferiorita INFERIORIDAD ES inferioritate inferioritatea inferiorităţii inferioritatii inferiorităţi inferioritati inferiorităţile inferioritatile inferiorităţilor inferioritatilor infedeltà infidelidade infidelitate infedelta INFIDELIDADES infidelitatea infidelităţii infidelitatii infidelităţi infidelitati infidelităţile infidelitatile infidelităţilor infidelitatilor instabilità instabilidade instabilitate instabilita instabilidades instabilitatea instabilităţii instabilitatii instabilităţi instabilitati instabilităţile instabilitatile instabilităţilor instabilitatilor inviolabili inviolabilidade t INVIOLABILIDA inviolabili DES ta inviolabilitate inviolabilitatea inviolabilităţii inviolabilitatii inviolabilităţi inviolabilitati inviolabilităţile inviolabilitatile inviolabilităţilor inviolabilitatilor 3 irregularity irregularidad irrégularité irregolarit irregularidade iregularitate 2 irregularities IRREGULARI irregularite à IRREGULARIDA iregularitatea unevenness DADES irrégularités irregolarit DES iregularităţii unevennesses irregularites a iregularitatii iregularităţi iregularitati iregularităţile iregularitatile iregularităţilor iregularitatilor 36 inferiorität inferioritat inferioritaet inferioritäten inferioritaten inferioritaeten minderwertigkeit minderwertigkeiten UNTREUE UNTREUEN treulosigkeit treulosigkeiten instabilität instabilitat instabilitaet instabilitäten instabilitaten instabilitaeten unbeständigkeit unbestandigkeit unbestaendigkeit unbeständigkeiten unbestandigkeiten unbestaendigkeiten unverletzlichkeit unverletzlichkeiten unverletzbarkeit unverletzbarkeiten irregularität irregularitat irregularitaet irregularitäten irregularitaten irregularitaeten unregelmäßigkeit unregelmässigkeit unregelmassigkeit unregelmaessigkeit unregelmäßigkeiten unregelmässigkeite n unregelmassigkeite n unregelmaessigkeit en 3 irresponsibilit irresponsabil 3 y idad irresponsibiliti IRRESPONS es ABILIDADES irresponsabi lité irresponsabi lite irresponsabi lités irresponsabi lites irrespons abilità irrespons abilita irresponsabililid ade IRRESPONSABI LIDADES 3 june 4 junio juin giugno junho 3 knee 5 knees rodilla rodillas genou genoux ginocchio joelho ginocchia joelhos ginocchi 3 KNIFE 6 KNIVES cuchillo cuchillos couteau couteaux coltello coltelli FACA FACAS 3 LUNG 7 lungs pulmón pulmon pulmones poumon poumons polmone polmoni pulmão pulmao pulmões pulmoes 37 iresponsabilitat e iresponsabilitat ea iresponsabilităţ ii iresponsabilitat ii iresponsabilităţ i iresponsabilitat i iresponsabilităţ ile iresponsabilitat ile iresponsabilităţ ilor iresponsabilitat ilor iunie genunchi genunchiul genunchii genunchiului genunchilor cuţit cutit cuţite cutite cuţitul cutitul cuţitele cutitele cuţitului cutitului cuţitelor cutitelor plămân plaman plămâni plamani plămânul plamanul plămânii plamanii plămânului plamanului plămânilor plamanilor irresponsabilität irresponsabilitat irresponsabilitaet irresponsabilitäten irresponsabilitaten irresponsabilitaeten unverantwortbarkei t unverantwortbarkei ten unverantwortlichkei t unverantwortlichkei ten verantwortungslosi gkeit verantwortungslosi gkeiten juni junis JUNO knie knies knie KNIEN MESSER MESSERS MESSERN lunge lungen 3 masculinity 8 masculinities masculinida d MASCULINI DADES masculinité masculinite masculinités masculinites mascolini masculinidade tà MASCULINIDAD mascolini ES ta 3 monday 9 mondays lunes lundi lundis lunedì lunedi segunda-feira luni segundas-feiras lunea 4 october 0 octubre octobre ottobre outubro 4 parity 1 parities equality equalities igualdad IGUALDADE S paridad PARIDADES égalité egalite égalités egalites parité parite parités parites eguaglian za eguaglian ze uguglianz a uguglianz e parità parita igualdade IGUALDADES paridade PARIDADES 4 2 4 3 masculinitate masculinitatea masculinităţii masculinitatii masculinităţi masculinitati masculinităţile masculinitatile masculinităţilor masculinitatilor octombrie egalitate egalitatea egalităţii egalitatii egalităţi egalitati egalităţile egalitatile egalităţilor egalitatilor paritate paritatea parităţii paritatii parităţi paritati parităţile paritatile parităţilor paritatilor probability probabilidad probabilité probabilit probabilidade probabilitate probabilities PROBABILID probabilite à PROBABILIDAD probabilitatea likelihood ADES probabilités probabilit ES probabilităţii likelihoods probabilites a probabilitatii probabilităţi probabilitati probabilităţile probabilitatile probabilităţilor probabilitatilor productivity productivida productivité produttivi produtividade productivitate productivities d productivite tà produtividades productivitatea productivenes productivida productivité produttivi productivităţii s des s ta productivitatii productivenes productivite productivităţi ses s productivitati productivităţile productivitatile productivităţilo r productivitatilo r 38 männlichkeit mannlichkeit maennlichkeit männlichkeiten mannlichkeiten maennlichkeiten maskulinität maskulinitat maskulinitaet maskulinitäten maskulinitaten maskulinitaeten montag MONTAGES montags MONTAGE MONTAGEN oktober oktobers oktobern egalität egalitat egalitaet egalitäten egalitaten egalitaeten gleichheit gleichheiten gleichstellung gleichstellungen gleichberechtigung gleichberechtigung en parität paritat paritaet paritäten paritaten paritaeten probabilität probabilitat probabilitaet probabilitäten probabilitaten probabilitaeten wahrscheinlichkeit wahrscheinlichkeite n produktivität produktivitat produktivitaet produktivitäten produktivitaten produktivitaeten 4 puberty 4 puberties pubertad pubertades puberté puberte pubertés pubertes pubertà puberta puberdade puberdades 4 responsibility responsabili 5 responsibilitie dad s RESPONSAB liability ILIDADES liabilities responsabili té responsabili te responsabili tés responsabili tes responsa bilità responsa bilita responsabilidad e RESPONSABILI DADES 4 sexuality 6 sexualities sexualidad SEXUALIDA DES sexualité sexualite sexualités sexualites sessualità sexualidade sessualita SEXUALIDADES 4 singularity 7 singularities singularidad singularité SINGULARID singularite ADES singularités singularites singolarit singularidade à SINGULARIDAD singolarit ES a 4 superiority 8 superiorities superioridad supériorité SUPERIORID superiorite ADES supériorités superiorites superiorit superioridade à SUPERIORIDAD superiorit ES a 39 pubertate pubertatea pubertăţii pubertatii pubertăţi pubertati pubertăţile pubertatile pubertăţilor pubertatilor responsabilitat e responsabilitat ea responsabilităţi i responsabilitati i responsabilităţi responsabilitati responsabilităţi le responsabilitati le responsabilităţi lor responsabilitati lor sexualitate sexualitatea sexualităţii sexualitatii sexualităţi sexualitati sexualităţile sexualitatile sexualităţilor sexualitatilor singularitate singularitatea singularităţii singularitatii singularităţi singularitati singularităţile singularitatile singularităţilor singularitatilor superioritate superioritatea superiorităţii superioritatii superiorităţi superioritati superiorităţile superioritatile superiorităţilor superioritatilor pubertät pubertat pubertaet pubertäten pubertaten pubertaeten responsabilität responsabilitat responsabilitaet responsabilitäten responsabilitaten responsabilitaeten verantwortung verantwortungen sexualität sexualitat sexualitaet sexualitäten sexualitaten sexualitaeten einzigartigkeit einzigartigkeiten singularität singularitat singularitaet singularitäten singularitaten singularitaeten superiorität superioritat superioritaet superioritäten superioritaten superioritaeten überlegenheit uberlegenheit ueberlegenheit überlegenheiten uberlegenheiten ueberlegenheiten 4 thursday 9 thursdays jueves jeudi jeudis giovedì giovedi quinta-feira quintas-feiras JOI JOIA 5 today 0 HOY aujourde hui oggi hoje 5 truth 1 truths verdad VERDADES vérité verite vérités verites verità verita verdade VERDADES 5 tuesday 2 tuesdays martes MARDI mardis martedì martedi terça-feira terca-feira terças-feiras tercas-feiras AZI astăzi astazi adevăr adevar adevărul adevarul adevărului adevarului adevăruri adevaruri adevărurile adevarurile adevărurilor adevarurilor marţi MARTI marţea martea 5 uniformity 3 uniformities uniformidad UNIFORMID ADES uniformité uniformite uniformités uniformites uniformit uniformidade à UNIFORMIDADE uniformit S a 5 universality 4 universalities 5 university 5 universities 5 wednesday 6 wednesdays uniformitate uniformitatea uniformităţii uniformitatii uniformităţi uniformitati uniformităţile uniformitatile uniformităţilor uniformitatilor universalida universalité universali universalidade universalitate d universalite tà UNIVERSALIDA universalitatea UNIVERSALI universalité universali DES universalităţii DADES s ta universalitatii universalite universalităţi s universalitati universalităţile universalitatile universalităţilor universalitatilor universidad université università universidade universitate UNIVERSIDA universite universita UNIVERSIDADE universitatea DES universités S universităţii universites universitatii universităţi universitati universităţile universitatile universităţilor universitatilor miércoles mercredi mercoledì quarta-feira miercuri miercoles mercredis mercoledi quartas-feiras miercurea 40 donnerstag donnerstages donnerstags donnerstage donnerstagen heute wahrheit wahrheiten dienstag dienstages dienstags dienstage dienstagen uniformität uniformitat uniformitaet uniformitäten uniformitaten uniformitaeten universalität universalitat universalitaet universalitäten universalitaten universalitaeten universität universitat universitaet universitäten universitaten universitaeten mittwoch mittwoches mittwochs mittwoche mittwochen 5 yellow 7 amarillo amarilla amarillos amarillas jaune jaunes giallo gialla gialli gialle amarelo amarela amarelos amarelas 41 galben galbenă galbena galbeni galbene gelb gelbe gelber gelbes gelben gelbem ANEXO 4: SELECCIÓN DE LOS MOTORES DE BÚSQUEDA DE L5 INTRODUCCIÓN Los motores de búsqueda utilizados en la anterior edición del estudio evolucionaron y otros nuevos surgieron en los dos últimos años. Nos pareció necesario realizar un trabajo sistemático de análisis de los motores disponibles en relación con nuestra metodología utilizada. Unas primeras incompatibilidades percibidas nos llevaron a descartar motores de entrada. Resultaron preseleccionados AltaVista, Fastsearch (Allthweb), Google, Innfoseek, iWon y Northernligth(detalles en 4.1.1): seis motores, independientes entre sí e incluso en competencia en el mercado de la búsqueda por palabras clave en Internet. Hemos visto que los resultados de las mediciones de presencia en las páginas de la Red de los términos de nuestra muestra varían fuertemente según el motor de búsqueda utilizado. Para tratar de comprender este fenómeno que podría descalificar nuestra metodología, realizamos un estudio desde agosto de 2000 teniendo en cuenta los siguientes elementos: - cantidad de páginas indexadas, - manera en que son seleccionadas las páginas indexadas, - coherencia de los resultados de las mediciones presentadas. LOS RESULTADOS POR MOTOR Y POR LENGUA Los resultados presentados en el siguiente cuadro 16 muestran el total de la cantidad de páginas Internet de cada una de las 1600 variantes del estudio, en agosto de 2000. La columna del inglés da el total de las páginas contadas (en millones) por motor de búsqueda con respecto al conjunto de los términos en inglés. Las cifras de las otras columnas representan, para cada lengua, el porcentaje, en relación con inglés, del número total de páginas contadas. Por ejemplo, iWon contó 212 millones de páginas para el inglés y 2,14 millones para el portugués (1,01% de 212). 42 Cuadro 16: Resultados del estudio según los 6 motores de búsqueda preseleccionados Inglés Castellan Francés Italiano Portugués Rumano o AltaVista 188 M 9,28% 9,56% 4,50% 3,98% 0,19% Fast 147 M 8,41% 7,33% 4,60% 3,95% 0,37% Google 210 M 7,86% 7,33% 4,65% 2,82% 0,27% Infoseek 37 M 2,49% 3,97% 2,98% 0,96% 0,03% iWon 212 M 4,13% 2,64% 0,69% 1,01% 0,35% Northern 145 M 6,32% 5,26% 3,66% 3,50% 0,26% Light Alemán 16,06% 8,47% 7,89% 5,39% 5,44% 5,23% Como se puede ver, los resultados muestran diferencias entre los motores, salvo los de Fast y Google, que cuestionan la validez de nuestro método. Resultó así necesario estudiar las especificidades de cada motor para comprender la razón de estas diferencias y poder determinar qué motores podrían ajustarse a nuestros criterios. El análisis de los motores de búsqueda exige conocer previamente las características cuantitativas de Internet. Datos relativos a Internet y a los motores de búsqueda ¿Cuál es el volumen de la Red? Disponemos de algunos datos al respecto: En enero de 2000, Inktomi afirma que el web superó los mil millones de páginas (que habrían sido preindexadas por este motor). Y anuncia también Inktomi las cifras de 86,55% de páginas en inglés y 2,36% de páginas en francés. Es sorprendente constatar que el resultado del francés está muy cerca de los valores que nosotros encontramos para el motor de búsqueda iWon (que utiliza el índice de Inktomi). No obstante, la cifra del inglés parece ser víctima de un error de referencial (véase 4.4.2). 43 Nueva cifra de Inktomi en mayo de 2000: 1500 millones de páginas. Inktomi subraya que la proporción de páginas replicadas en los sitios espejo es superior al 20% (en los 6,5 millones de servidores indexados, habría 1,5 millones de sitios espejo). Estudio de cyveillance search: 2100 millones de páginas en julio de 2000, con un crecimiento exponencial de 7 millones de nuevas páginas por día. Este estudio asegura que hay 84,7% de páginas en inglés en el web. Los motores de búsqueda con los índices más amplios La competencia hace furor en el mercado de los motores de búsqueda, lo que provoca una fuerte motivación para el crecimiento del tamaño de los índices respectivos. Actualmente, los líderes en el terreno de la indexación del web son: Google: mil millones de páginas indexadas28. Webtop: 500 millones de páginas indexadas, pero es un motor todavía no suficientemente experimentado. Inktomi: el nuevo índice de Inktomi, GEN3, aún no utilizado oficialmente por sus asociados (Hotbot, Snap, iWon), debería contener 500 millones de páginas (contra 110 e la versión anterior). Algunas pruebas de Searchengine Watch (http://www.searchenginewatch.com ) indican que iWon ya utiliza este índice ampliado. De hecho, iWon da resultados cercanos a los de Google en cuanto al número total de páginas contadas en inglés. AltaVista: 350 millones de páginas. Fastsearch: 340 millones de páginas. Su objetivo es llegar a mil millones a fin de este año. Northern Light: 265 millones de páginas. 28 Parece que la mitad de ellas no están indexadas directamente sino que son objeto de un algoritmo original que trabaja a partir del texto de los enlaces hacia estas páginas. No disponemos de precisiones suficientes sobre la naturaleza de este algoritmo para poder sacar conclusiones, pero parece que esto no tiene impacto sobre nuestras medidas. 44 Es importante señalar que los motores indexan una proporción notable del universo que nos interesa (entre el 25% y el 50%), lo que permite aplicar nuestra metodología sin demasiados escollos en el plano estadístico29. ¿Cómo son indexadas las páginas? Conviene recordar que no todas las páginas detectadas por los motores están incluidas en el índice. El cuadro siguiente indica la cantidad de páginas realmente incluidas en el índice de algunos motores en comparación con el volumen anunciado del universo indexado30. PAGINAS PAGINAS ANALIZADAS INDEXADAS (en millones) (en millones) AltaVista 400 250 Fast 700 400 Excite 920 250 Inktomi 1000 110 Es interesante entender cómo se hace la reducción y en qué puede afectar la validez de los nuestros resultados. Se identificaron dos enfoques diferentes: 1. Inktomi: Un índice de base de 110 millones de páginas seleccionadas y clasificadas a partir de una fuente de mil millones de páginas. El criterio de selección del índice de base es considerar solamente las páginas cuya URL se cita con más frecuencia, es decir, las páginas que tienen la mayor cantidad de enlaces externos. Esta técnica permite seleccionar las páginas más reconocidas clasificándolas fácilmente por orden de "celebridad", reduciendo el tiempo de respuesta al tamaño reducirse el índice de trabajo. Este enfoque, totalmente respetable desde el punto de vista del objetivo prioritario de los motores, descalifica la aplicación de nuestra metodología, ya que la 29 No obstante, nada impide pensar que, para una muestra de entre 25% y 50% del universo, pueda existir algo en la selección del índice que favorezca las lenguas más utilizadas, el inglés en primer lugar. Es muy probable, por ejemplo, que los sitios más recientes no se indexen de manera suficientemente rápida, con perjuicio estadístico para las lenguas también más recientes en Internet. 45 distribución estadística de las páginas es falseada por un algoritmo que favorece algunas de ellas de manera no neutra a nivel lingüístico (las páginas más populares, que en la mayoría de los casos están en inglés, tendrán mayor posibilidad de formar parte de los 110 millones de elegidas). Este mecanismo muestra claramente sus consecuencias en el caso del rumano (los términos rumanos tienen resultados anormalmente bajos e, incluso, demasiado a menudo nulos). 2. AltaVista, Excite, Fast y Google: Un índice mayor, con una selección menos fuerte y, sobre todo, independiente del contenido (solo se suprimen los sitios espejo y los que dan errores de 40131 o 40432). Con esta técnica, los índices son más amplios; si bien no dan necesariamente los resultados más coherentes en términos de pertinencia, son compatibles con nuestra metodología puesto que no deberían favorecer una lengua en detrimento de otra. Conviene recordar que Google conserva una imagen de las páginas en el momento en que estas son colocadas en su índice, lo que permite encontrar la información incluso cuando la página indexada fue eliminada de la Red. Validación de los motores de búsqueda en función de nuestra metodología AltaVista Desde hace varios años, AltaVista es uno de los motores más utilizados en el web. Su índice sigue siendo uno de los más amplios; no obstante, una vez más33 la utilización de este motor en nuestro estudio es imposible: • AltaVista "trunca los resultados"34,.decisión que toma para reducir el tiempo de respuesta si su servidor esté sobrecargado (el motor puede rechazar el procesamiento de una solicitud y dar solo un resultado parcial). • Como en la edición anterior, no nos fue posible establecer cómo trata los signos diacríticos; si hay una lógica, no hemos podido percibirla. 30 Las cifras presentadas en el párrafo precedente son de marzo de 2000 y éstas son de julio de 2000; de allí sus diferencias. 31 Es decir una página de acceso limitado, no disponible para el gran público. 32 Es decir una página inexistente en un sitio referenciado correctamente. 33 AltaVista fue descartado la edición anterior por las mismas razones. 34 Es decir que no toma en cuenta una parte de las páginas que corresponden al criterio de búsqueda, lo que produce una reducción del valor del conteo, el cual deja de corresponder a la realidad. 46 • Los valores de los conteos cambian de manera aleatoria. Por ejemplo, la misma solicitud puede obtener un número de páginas diferente según se miren los resultados del 1 a 10 o del 11 a 20… Infoseek Infoseek tiene un tamaño de índice demasiado reducido (se ve en las cifras de las páginas en inglés: 36 millones contra más de 150 en la mayor parte de los otros motores). Esta pobreza de indexación aventaja al inglés en relación con los demás idiomas. iWon iWon utiliza el mismo índice que Hotbot (Inktomi), el motor que habíamos usado en la edición anterior; pero la técnica de selección de páginas de Inktomi no es compatible con nuestra metodología, como vimos. Northern Light Este motor no pudo ser utilizado porque no trata los signos diacríticos (en particular, no interpreta correctamente los signos usados en el rumano). Además, busca sistemáticamente los plurales de los términos cuando se hace búsquedas en inglés, pero no así en las otras lenguas. Google Es el motor que pretende tener, en este momento, el índice más amplio; además, su interfaz es de una rapidez espectacular. Google "truncaba los resultados" como AltaVista, lo que nos había llevado a descartarlo; pero este inconveniente fue corregido: Google fue seleccionado para la obtención de los resultados finales. Fastsearch Fastsearch, que tiene uno de los índices más amplios, da resultados rápidos, no trunca los resultados y no restringe su índice a los sitios más populares. Es el segundo motor seleccionado. CONCLUSIÓN 47 Los motores de búsqueda Google y Fastsearch son los únicos que, en el momento de llevar a cabo esta edición, permitían aplicar correctamente nuestra metodología. Que las cifras producidas por Fastsearch y Google estén muy próximas estadísticamente (los intervalos de confianza coinciden ampliamente) es un elemento esencial para mantener la confianza en la validez de nuestra metodología. El cuadro siguiente muestra que las desviaciones más importantes (aunque inferiores al 30%) corresponden a las dos lenguas para las cuales el coeficiente de variación es superior a 1 y que los valores continúan dentro del intervalo de confianza. Castellano Francés Italiano Portugués Rumano Fast 8,41% 7,33% 4,60% 3,95% 0,37% Google 7,86% 7,33% 4,65% 2,82% 0,27% DESVIACIO. -6,5% 0,0% 1,1% -28,6% -27,0% COEFIC. 0,84 0,55 0,90 1,06 1,13 VARIACIÓN CONFIANZA 6,58-9,57 6,44-8,19 3,70-5,52 2,72-4,41 0,19-0,43 90% 48 Alemán 8,47% 7,89% -6,8% 0,65 6,96-9,19 ANEXO 5: INTERFAZ DE AUTOMATIZACIÓN DE L5 INTRODUCCIÓN El estudio sobre la presencia de las lenguas latinas en Internet requiere un trabajo minucioso, largo y repetitivo de medición de los resultados que dan los motores de búsqueda. Cada resultado final (por motor de búsqueda) exige un conteo del número de páginas que contienen cada una de las 1200 variantes, aproximadamente, de los 57 términos elegidos (unos 1600 con el alemán). Esto debe ser seguido de correcciones manuales para las variantes con problemas de homografía o afines (en mayúsculas en el anexo 3). Los resultados obtenidos para cada variante son después agrupados por ocurrencias y se obtienen 57 resultados, clasificados por lengua. Luego se hace el promedio de los resultados y se calcula el coeficiente de variación y el intervalo de confianza por lengua, para obtener el resultado final. Sin olvidar una etapa de verificación minuciosa de los resultados, que pueden haber sido falseados en las diversas etapas de escritura o por disminución de la atención provocada por la sucesión de tareas repetitivas… Todos estos resultados por variante o por término y finales no son de fácil utilización. Un error detectado a posteriori en el copiado de un resultado exige volver a calcular sistemáticamente su término asociado y las estadísticas finales. Resulta así sumamente deseable una automatización de estas tareas. Decidimos invertir en la programación de un algoritmo que, a partir de las 1600 formas, sea capaz de facilitar la búsqueda con los motores, retomando los conteos y organizándolos de manera que, tras la gestión de las correcciones de las homografías, sea posible efectuar el conjunto de los cálculos estadísticos. Esta automatización permite además utilizar varios motores sin mayor sobrecarga de trabajo. TECNOLOGÍA UTILIZADA Para optimizar la gestión del conjunto, decidimos utilizar una estructura de base de datos como elemento central que articule las distintas aplicaciones. 49 El programa de base de datos adoptado es PosgreSQL, muy difundido en el mundo de Internet; para la interfaz entre la base de datos y los servicios de la Red, elegimos el lenguaje de programación PHP. DETALLES DEL FUNCIONAMIENTO DEL SISTEMA Base de datos La base de datos incluye tres tablas mayores como armazón del sistema automatizado: • Tabla de las 1600 variantes de los términos. En ella están registradas las diferentes variantes, clasificadas según el término y la lengua a que pertenecen y haciendo constar parámetros asociados: homografías, etc. El anexo 3 representa el contenido de esta tabla. • Tabla de resultados por variante: Incluye todos los resultados (conteo de páginas) obtenidos de los servicios de los motores de búsqueda, vía la interfaz PHP, clasificados en función de las variantes a las cuales se refieren y del motor con el que se obtuvieron. • Tabla de resultados por término: Una vez ingresadas las 1600 variantes en la base y obtenidos los resultados de cada una, se calculan los resultados de cada término, adicionando los resultados de las variantes que pertenecen a un mismo término de una misma lengua. Los resultados obtenidos (clasificados por palabra, por motor y por lengua) serán utilizados para obtener los resultados finales y servirán de entrada para los cálculos estadísticos. El diseño se organiza según la lista de las lenguas y los motores utilizados. Esta disposición permite una gran flexibilidad, que permite añadir sin problemas nuevos términos, nuevos motores y nuevas lenguas. Las interfaces PHP El sistema PHP tiene tres tipos de interfaces: Las interfaces de ingreso de datos Estas interfaces sirven para llenar los campos variantes y resultados de la base de datos. 50 Una interfaz usuario sirve a la administración para introducir variantes con las propiedades asociadas35. Una interfaz máquina permite, en cada motor considerado, almacenar los resultados obtenidos en el momento de una ejecución del sistema. Los datos registrados en la primera se conservan entre una y otra ejecución; los de la segunda interfaz son en cambio efímeros y se reemplazan en cada ejecución. Los datos que se reemplazan en este proceso son, evidentemente, archivados previamente. Las interfaces del procesamiento de datos Son de dos tipos: las que permiten modificar la tabla de resultados de las variantes y las que permiten calcular los valores asociados. Las primeras se utilizan para corregir problemas de homografía como los siguientes: Algunos plurales en -idades comunes al castellano y al portugués, caso en que la distribución del conteo entre uno y otro de estos idiomas se hizo de manera automática a prorrata de los resultados parciales: a partir de los resultados parciales se sacaron coeficientes por motor de la presencia del castellano en relación con la del portugués, coeficientes que se aplicaron para repartir los resultados en -idades entre el castellano y el portugués. Cal y cai variantes homógrafas del rumano correspondientes a caballo (por tener tres letras pero también homógrafas ya, de idiomas del estudio) no fueron contadas, ni tampoco la variante caii, homógrafa de siglas frecuentes en Internet. Faca y facas, variantes correspondientes a cuchillo en portugués, son también dos formas del verbo hacer en este idioma (faça, faças, sin diacríticos): los resultados se calcularon después del conteo con el mismo método que para las formas en -idades, tomando como base los coeficientes del portugués en relación con inglés. 35 Lengua, términos asociados, problemas de homografía, variante diacrítica. 51 Otras formas rumanas: boli, una de las variantes de enfermedad, que coincide con la frecuente abreviación de bolígrafo en castellano, fue eliminada del conteo. Joi (jueves), de tres letras, y joia, homógrafo percibido de la variante en portugués sin diacríticos joia (joya), fueron calculadas con el mismo método de las palabras en – idades. Marti (martes), variante homógrafa del apellido sin diacríticos de José Martí, no fue contabilizado. Del resultado de mardi (martes) en francés se descontó el correspondiente al sintagma mardi gras (martes de Carnaval) para no contabilizar esta forma frecuente asen inglés. Las interfaces del segundo tipo actualizan la parte "resultados por términos" de la base de datos. Las interfaces de exhibición de los resultados La base de datos utilizada para almacenar los resultados contiene: (a) 1600 variantes clasificadas por término (57) y por lengua (7),. (b) los resultados de estas 1600 variantes medidas por 6 motores de búsqueda (9600 resultados), (c) los resultados de los 57 términos, calculados a partir de los 9600 resultados para 6 motores y 7 lenguas (2394 resultados). Estos resultados son visibles en forma de cifras absolutas o en proporciones del resultado del inglés. El acceso a estas informaciones exigió crear interfaces de exhibición de resultados que debían respetar las siguientes condiciones: • permitir obtener resultados rápidos y precisos para el conjunto de las informaciones disponibles, • disponer de resultados actualizados cada vez que se haga una modificación en la base de datos. 52 La interfaz que permite acceder a los resultados (a) permitió generar el cuadro del anexo 3. Los resultados de (b) están disponibles en el anexo 8 y los del (c) en el anexo 9. La interfaz del anexo 9 calcula también el promedio, la desviación tipo y el coeficiente de variación de los resultados cuando los porcentajes se hacen visibles. Los resultados obtenidos por esta interfaz permiten ilustrar las características de los motores de búsqueda (anexo 4). CONCLUSIONES Y PLAN PARA LA PRÓXIMA VERSIÓN Este sistema mejora claramente el método manual. Transforma una operación lenta, que requería unos 10 días de trabajo para 1200 variantes y un solo motor de búsqueda, en un trabajo de 2 días para 1600 ocurrencias y 6 motores de búsqueda, con resultados de utilización más sencilla. Y permitirá además integrar fácilmente nuevos términos, nuevos idiomas, nuevos motores de búsqueda. Estas posibilidades nos permitirán también agregar nuevas funciones en la base de datos y las interfaces. La conservación regular y fechada de los resultados permitirá un análisis dinámico de la evolución de la presencia de las lenguas latinas en Internet para transformar el trabajo en un verdadero observatorio permanente de esas evoluciones. Y sería también posible evaluar la manera en que cada motor trata el plurilingüismo de Internet. 53 ANEXO 6: RESULTADOS DE LAS MEDIDAS DE LA CLASIFICACIÓN POR LENGUA DE FASTSEARCH Y COMPARACIÓN Cuadro 17: Resultados de la clasificación por lengua de Fastsearch y comparación36 Fastsearch 2000 Fastsearch 2001 % total relativo 2000 % total % total relativo absoluto 2001 0,01% 0,01% % inglés Afrikaans 0,06 0% Albanés 0,03 0% 0,01% 0,01% 0,01% 22,24 42,15 6,81% 7,57% 7,33% 12,58% 0,16 0,57 0,05% 0,10% 0,10% 0,17% 0,03 0, % 0,01% 0,01% 0,01% Alemán Arabe Bielorruso 0,06 0,16 0,02% 0,03% 0,03% 0,05% Castellano 8,92 15,98 2,73% 2,87% 2,78% 4,77% Catalán 0,52 0,75 0,16% 0,13% 0,13% 0,22% Checo 1,21 3,50 0,37% 0,63% 0,61% 1,04% 4,9 20,57 1,50% 3,70% 3,58% 6,14% 6,30 0% 1,13% 1,10% 1,88% 9,81 1,49% 1,76% 1,71% 2,93% 0,45 0% 0,08% 0,08% 0,13% 2,89 0,50% 0,52% 0,50% 0,86% 0,69 0% 0,12% 0,12% 0,21% 4,87 Croata Danés 1,63 Eslovaco Esloveno 0,14 0,40 0,04% 0,07% 0,07% 0,12% Estonio 0,20 0,48 0,06% 0,09% 0,08% 0,14% 0,02 0, % 0% 0% 0,01% 1,33 2,64 0,41% 0,47% 0,46% 0,79% 10,66 19,15 3,27% 3,44% 3,33% 5,72% 0 0% 0% 0% 0% 0,39 0,00% 0,07% 0,07% 0,12% Faroés Finlandés Francés Frisón Galés Gallego 0,01 0% 0% 0% 0% Griego 0,31 0,66 0,09% 0,12% 0,11% 0,20% Hebreo 0,21 0,30 0,06% 0,05% 0,05% 0,09% Holandés 3,77 6,83 1,15% 1,23% 1,19% 2,04% Húngaro 0,57 1,36 0,17% 0,24% 0,24% 0,41% 0,76 0% 0,14% 0,13% 0,23% 220,78 335,04 67,63% 60,20% 58,27% 100 % 0,15 0,25 0,05% 0,04% 0,04% 0,07% Italiano 5,67 10,77 1,74% 1,93% 1,87% 3,21% Japonés 19,33 37,40 5,92% 6,72% 6,50% 11,16% 0,03 0% 0,01% 0,01% 0,01% Indonesio Inglés Islandés Latín Letón 0,07 0,10 0,02% 0,02% 0,02% 0,03% Lituano 0,11 0,16 0,03% 0,03% 0,03% 0,05% 0,17 0% 0,03% 0,03% 0,05% 0,78% Malayo Noruego 1,44 2,62 0,44% 0,47% 0,46% Polaco 1,08 3,36 0,33% 0,60% 0,58% 1% Portugués 5,03 9,04 1,54% 1,62% 1,57% 2,70% 36 Este cuadro no tiene en cuenta las páginas plurilingües. 54 L5 (2001) total L4 (1998) total 0,02% Búlgaro Chino simplificado Chino tradicional Coreano L5 (2001) % inglés 13,4% 6,97% 10,95% 5,69% 2,53% 8,86% 4,61% 2,81% 52% 75% 5,88% 3,06% 1,50% 5,40% 2,81% 0,82% Rumano 0,14 0,22 0,04% 0,04% 0,04% 0,07% Ruso 7,04 12,76 2,16% 2,29% 2,22% 3,81% Sueco 3,33 5,11 1,02% 0,92% 0,89% 1,53% 0,95 0% 0,17% 0,17% 0,28% 1,15 0,16% 0,21% 0,20% 0,34% 0,30 0% 0,05% 0,05% 0,09% 0,05 0,01% 0,01% 0,01% 0,01% 0,17 0% 0,03% 0,03% 0,05% Tailandés Turco 0,52 Ucraniano Vasco 0,04 Vietnamita Total relativo Total estimado 326,43 556,59 340 575 (Cifras según Fastsearch) 55 0,32% 0,17% 0,15% ANEXO 7: CRITERIOS DE SELECCIÓN DE LOS TÉRMINOS El siguiente cuadro precisa los criterios de selección de los términos. Para llegar a los 57 términos, se descartaron centenares de otros. Cuadro 18: Criterios de selección lingüística de la muestra CRITERIO Neutralidad cultural DEFINICIÓN Propiedad de una palabra en relación con su frecuencia de uso en la lengua en función de la cultura respectiva. EJEMPLOS Las palabras francesas vin, parfum, gastronomie y las palabras del lenguaje diplomático no son neutras culturalmente, en relación con el francés. Homografía interlingüística La grafía de una palabra en un idioma es idéntica a la de otra palabra en otro idioma, incluido el caso de faux amis (significación diferente). Puede haber homografías con o sin diacríticos. Ejemplo de grafía idéntica (con el mismo sentido): casa en castellano y portugués. Ejemplos de faux amis: red en castellano y red en inglés (rojo); hieren francés (ayer) y hier en allemán (aquí). Homografía interlingüística por préstamo Cuando una palabra de un idioma es aceptada tal cual en otro. Anglicismos Excluir comme business, sistemática sandwich o mente software. El galicismo, deja vu en inglés, castellano, etc. (homógrafo de la expresión francesa sin diacríticos). 56 MÉTODO Para obtener una muestra con el coeficiente de variación menor posible, se dejaron de lado las palabras no neutras culturalmen te. Rechazar las palabras homógrafas (con o sin diacríticos). COMENTARIOS Se han tenido en cuenta, para rechazarlas, las homografías entre los idiomas del estudio o con un idioma muy presente en Internet, como el alemán. Para evitar el riesgo estadístico de homografías con otros idiomas, se descartan por principio las palabras de menos de cuatros letras. Homografía con una abreviación Sept, siete en francés, homógrafo de las abreviaciones de septiembre en varios idiomas, sobre todo en inglés. Homografía con Windows es un nombre ventana en propio inglés.... pero es frecuente asimismo el nombre de un programa muy citado en Internet. Pseudohomogra La escritura de una Ambasador en fía rumano puede palabra con une interlingüística error de ortografía confundirse con ambas(s)ador frecuente en un en inglés. idioma corresponde a otra en otro idioma. Significados no equivalentes Morfosintaxis no equivalente: sustantivo, verbo Morfosintaxis no equivalente: adjetivos y sustantivos Evitar estas Estamos relativamente palabras. protegidos por la consigna de evitar palabras de menos de cuatros letras. Evitar estas palabras. Se rechazan estas palabras solamente si la lengua con que se confunde es el inglés. Prix en francés Evitar estas equivale en su palabras, significado a salvo si premio y a fuera precio. posible incluir todos los significante s que completaría n el sentido en las lenguas que lo necesiten. El inglés, muy Love en inglés es Evitar estas Esta característica del inglés nos lleva diferente el sustantivo que palabras. morfosintácticame significa amor y a excluir los nte de los demás el verbo amar: en verbos. idiomas el infinitivo estudiados, suele (cuando sigue a tener una misma to), en el forma como presente del sustantivo y indicativo (amo, variante verbal, amas, ama, ésta última amamos, amáis, equivalente a su aman), etc. vez de muchas formas conjugadas en los demás idiomas. Los adjetivos, El adjetivo inglés Incluir las invariables en yellow variantes inglés, varían en corresponde a de género, género y en amarillo / número y número en los amarilla / caso en los demás idiomas amarillos / idiomas en estudiados. Los amarillas. El la 57 sustantivos, que en general solo varían en número en los demás idiomas, varían en rumano también según el caso (nominativo, genitivo, etc.) y la diferencia determinado / no determinado. Pluricentrismo léxico y semántico Cuando un idioma tiene más de un centro normativo léxico-semántico. Pluricentrismo ortográfico Cuando un idioma tiene más de un centro normativo ortográfico. sustantivo inglés instability / instabilities a las variantes rumanas siguientes: instabilitate / instabilitatea / instabilităţii / instabilităţi / instabilităţile / instabilităţilor. (no incluimos aquí las variantes sin diacríticos). Según el país hispanohablante, se dice nafta o gasolina. Americano, en muchos países de América Latina, no tiene el mismo sentido que en otros o en España. Casos del inglés y del portugués: ortografía diferente en EE. UU. y en el Reino Unido (theater y theatre), en Portugal y en Brasil (electricidade y eletricidade). 58 necesidad de equivalenci a lo exige. Incluir las variantes sinonímicas nacionales o regionales cuando correspond a. Incluir las variantes ortográficas nacionales o regionales cuando correspond a. REFERENCIAS DE LOS CUADROS Cuadro 1: Promedios de las lenguas latinas (más el alemán) en relación con el inglés............. 8 Cuadro 2: Presencia absoluta de las lenguas estudiadas en la Red ............................................ 9 Cuadro 3: Presencia de las lenguas estudiadas (cifras redondeadas en millones) ................... 10 Cuadro 4: Presencia ponderada de las lenguas estudiadas en el espacio WWW..................... 10 Cuadro 5: Número de internautas clasificados por lenguas (en millones)............................... 11 Cuadro 6: Productividad de los hablantes ................................................................................ 12 Cuadro 7: Detalles de los resultados estadísticos..................................................................... 17 Cuadro 8: Hipótesis de la progresión de la presencia de las lenguas estudiadas ..................... 20 Cuadro 9: Evolución de las relaciones entre la presencia del francés, del inglés y del castellano .......................................................................................................................... 21 Cuadro 10: Resultados del estudio de Inktomi (febrero 2000) ................................................ 21 Cuadro 11: Resultados de Fastsearch en agosto de 2000, enero de 2001y junio de 2001 ....... 23 Cuadro 12: Tendencias de la evolución 23 Cuadro 13: Recapitulación y referencias de los diversos estudios realizados por los autores. 27 Cuadro 14: Visualización de los intervalos de confianza ........................................................ 29 Cuadro 15: Lista de los términos de referencia........................................................................ 30 Cuadro 16: Resultados del estudio según los 6 motores de búsqueda preseleccionados ......... 43 Cuadro 17: Resultados de la clasificación por lengua de Fastsearch y comparación .............. 54 Cuadro 18: Criterios de selección lingüística de la muestra .................................................... 56 59 IL POSTO DELLE LINGUE LATINE SU INTERNET EDIZIONE 2001 Studio proposto da : Funredes (Associazione Réseaux & Développement) http://funredes.org L'Unione Latina http://www.unilat.org Studio realizzato tra agosto 2000 e giugno 2001 Diritti d’autore e di gestione ©, 2000-2001, Funredes, Unione Latina. TAVOLA DELLE MATERIE 1- PROLOGO E PREMESSE ....................................................................................................................................4 2. AUTORI ...................................................................................................................................................................5 3. PRESENTAZIONE GENERALE DELLO STUDIO E DEI RISULTATI ........................................................6 3.1 METODOLOGIA .....................................................................................................................................................6 3.2. SINTESI COMMENTATA DEI RISULTATI ............................................................................................................6 3.2.1. Risultati relativi rispetto all’inglese ......................................................................................................6 3.2.2 Risultati assoluti ...........................................................................................................................................6 3.3. RELAZIONE TRA IL NUMERO DI LOCUTORI E LA LORO PRESENZA SULLA RETE .....................................................7 3.4. VITALITA DELLA PRODUZIONE D’INFORMAZIONE DEGLI INTERNAUTI SECONDO LE LINGUE.................................7 4 DETTAGLIO DEI RISULTATI .............................................................................................................................9 4.1 METODOLOGIA INTERNET.....................................................................................................................................9 4.1.1. Identificazione dei principali motori di ricerca disponibili sul Web e preselezione..............................9 4.1.2 Convalida dei motori selezionati in funzione della metodologia impiegata. ................................................9 4.1.3 Selezione finale dei motori di ricerca per l’applicazione della metodologia ...............................................9 4.2. METODOLOGIA LINGUISTICA ........................................................................................................................10 4.2.1 I nuovi problemi posti dal tedesco ..............................................................................................................10 4.2.2 Altre problematiche ....................................................................................................................................10 4.3. METODOLOGIA STATISTICA ..........................................................................................................................10 4.3.1. Risultati delle misurazioni con i motori di ricerca preselezionati .......................................................10 4.3.2. Calcoli statistici dei risultati relativi all'inglese..................................................................................10 4.3.3. Calcoli dei risultati assoluti.................................................................................................................11 4.4. CONFRONTO CON ALTRI STUDI .....................................................................................................................12 4.4.1. Confronto con gli studi precedenti ......................................................................................................12 4.4.2. Confronto con gli studi similari (Alis e Inktomi) .................................................................................12 5. TENDENZA DELL'EVOLUZIONE DELLE LINGUE STUDIATE...........................................................14 6. PROSPETTIVE PER UN PROSIEGUO DELL'OSSERVAZIONE ............................................................14 7. RIFERIMENTI, SU INTERNET, DEI LAVORI CORRELATI ..................................................................15 ALLEGATO 1 : SINOSSI E RIFERIMENTI DEI DIVERSI STUDI REALIZZATI DAGLI AUTORI .........16 ALLEGATO 2 : VISUALIZZAZIONE DEGLI INTERVALLI DI CONFIDENZA DEI RISULTATI PER LINGUA .....................................................................................................................................................................18 ALLEGATO 3 : LISTA DEI TERMINI DEL CAMPIONE DI RIFERIMENTO ..............................................19 ALLEGATO 4 : SELEZIONE DEI MOTORI DI RICERCA PER LO STUDIO L5........................................28 INTRODUZIONE .........................................................................................................................................................28 I RISULTATI PER MOTORE E PER LINGUA ...................................................................................................................28 Dati relativi a Internet e ai motori di ricerca ......................................................................................................28 Convalida dei motori di ricerca in funzione della nostra metodologia ...............................................................30 CONCLUSIONI ............................................................................................................ ERREUR ! SIGNET NON DEFINI. ALLEGATO 5 : INTERFACCIA DI AUTOMATIZZAZIONE DELLO STUDIO L5......................................31 INTRODUZIONE .........................................................................................................................................................31 TECNOLOGIA UTILIZZATA.........................................................................................................................................31 DETTAGLI DEL FUNZIONAMENTO DEL SISTEMA ........................................................................................................31 Base dei dati ........................................................................................................................................................31 Le interfacce PHP...............................................................................................................................................31 CONCLUSIONE E PIANO PER LA PROSSIMA VERSIONE ................................................................................................32 ALLEGATO 6 : RISULTATI DELLE MISURAZIONI DELLA GRADUATORIA PER LINGUA DI FASTSEARCH E COMPARAZIONE ....................................................................................................................33 ALLEGATO 7 : CRITERI DI SELEZIONE DEI TERMINI ...............................................................................34 ALLEGATO 8 : RISULTATO DEL CONTEGGIO DI OGNI VARIANTE PER TERMINE E PER MOTORE si veda (pagine in preparazione, in francese) ALLEGATO 9 : RISULTATO DEL CONTEGGIO DEI TERMINI PER MOTORE si veda (pagine in preparazione, in francese) Riferimenti delle tabelle Tabella 1 : Medie delle lingue latine (e del tedesco) rispetto all'inglese .......................................................................6 Tabella 2: Presenza assoluta delle lingue studiate sulla rete..........................................................................................6 Tabella 3 : Peso delle lingue studiate (cifre arrotondate in milioni) ..............................................................................7 Tabella 4: Presenza ponderata delle lingue studiate nello spazio WWW ......................................................................7 Tabella 5: Numero di internauti classificati per lingua (in milioni)...............................................................................8 Tabella 6: Produttività dei locutori ................................................................................................................................8 Tabella 7 : Dettagli dei risultati statistici .....................................................................................................................11 Tabella 8 : Ipotesi di progressione del peso delle lingue studiate ...............................................................................11 Tabella 9 : Sviluppi dei rapporti tra il peso del francese, dell'inglese e dello spagnolo...............................................12 Tabella 10 : Risultati dello studio di Inktomi (febbraio 2000).....................................................................................12 Tabella 11: Risultati di Fastsearch nell'agosto 2000, gennaio 2001, giugno 2001 ......................................................14 Tabella 12: Tendenze dell'evoluzione .........................................................................................................................14 Tabella 13 : Riassunto e riferimenti dei diversi studi realizzati dagli autori................................................................16 Tabella 14 : Visualizzazione degli intervalli di confidenza ........................................................................................18 Tabella 15 : Lista dei termini del campione di riferimento..........................................................................................19 Tabella 16 : Risultati dello studio per i 6 motori di ricerca preselezionati ..................................................................28 Tabella 17 : Risultati della classificazione per lingua di Fastsearch e comparazione..................................................33 Tabella 18 : Criteri di selezione linguistica dei termini del campione.........................................................................34 1- Prologo e premesse Questo studio fa seguito ai lavori svolti da Funredes tra il 1995 e il 19981 sul posto delle lingue e delle culture latine sulla Rete. Questa edizione si concentra sulle lingue. Il principio di base che ha mostrato la sua solidità in occasione della precedente edizione è stato mantenuto. Si tratta di procedere alla misurazione, in certi spazi di Internet2, della quantità di menzioni od occorrenze di 57 parole o termimi avente un significato e una portata equivalente nelle lingue studiate (francese, italiano, inglese, portoghese, romeno, spagnolo) poi di analizzare e comparare i risultati per dedurne, con il metodo statistico, delle percentuali di presenza di ciascuna di esse. Una prima estensione dello studio al tedesco (come l’intenzione di ampliarlo, in seguito, verso altre lingue) peraltro ha cominciato ad essere considerata. L'ambiente dei motori di ricerca si è sensibilmente evoluto dopo lo studio precedente, il che ha portato a una analisi delle implicazioni dei cambiamenti sulla nostra metodologia e sono stati apportati dei miglioramenti rispetto ai lavori precedenti. • • • Applicazione di parecchi motori di ricerca di cui è stata fatta una selezione attenta, allo scopo di ottenere i risultati più rigorosi possibili. Automatizzazione dei conteggi e dei calcoli con l’aiuto di un programma che facesse da interfaccia tra i termini da misurare, organizzati su basi di dati, e i motori di ricerca. Questo investimento permetterà in avvenire di pubblicare dei risultati ad intervalli regolari e di costituire così un vero e proprio osservatorio. Sistematizzazione del trattamento delle omografie interlinguistiche con una gestione automatizzata, più solida sul piano metodologico. Peraltro, alcuni errori che si erano intrufolati in alcune occorrenze del campione, sono stati corretti3. Inoltre, un primo passo è stato fatto per estendere lo studio al tedesco, senza cambiare per il momento il metodo di ricerca di queste occorrenze e stabilendo dei risultati nettamente meno precisi di quelli delle altre lingue4. Verranno fatti dei riferimenti alle tappe anteriori a questo studio. Per aiutare il lettore, una sintesi delle pratiche e dei risultati precedenti, con i nessi Internet associati, permette l’accesso ai documenti corrispondenti nell’allegato 1. 1 Con il sostegno della Agence de la francophonie per la quarta edizione e in collaborazione con l’Unione Latina a partire dalla terza edizione. 2 In questa edizione, è stato considerato solo lo spazio web (pagine della rete), lo spazio Usenet non è stato preso in considerazione. 3 Si tratta di errori minori che non hanno causato uno scarto notevole rispetto ai risultati pubblicati in occasione dello studio precedente. 4 La forma di composizione delle parole in tedesco fa sì che la ricerca così come è concepita per le altre lingue, dia dei valori al di sotto della realtà linguistica. I risultati qui presentati, con le correzioni in aumento introdotte, sono ancora approssimativi. I problemi che pone l’adattamento della nostra metodologia al tedesco sono spiegati nel capitolo 4.2.1. 2. Autori Il gruppo di lavoro dello studio è stato costituito nel seguente modo: Coordinamento generale : Condotta dello studio : Supervisione linguistica : Responsabile linguistico : Gruppo linguistico : Automatizzazione delle misure e dei calcoli statistici5 : 5 Daniel Pimienta ([email protected]) Benoit Lamey ([email protected]), sous la direction de Daniel Pimienta Daniel Prado (<[email protected]) Marcelo Sztrum ([email protected]) Direzione Terminologia e Industrie della Lingua dell’Unione Latina Benoit Lamey ([email protected]) Con un caloroso ringraziamento a Roger Price per il suo aiuto a distanza. 3. Presentazione generale dello studio e dei risultati 3.1 Metodologia I risultati sono ottenuti conservando la metodologia seguita a partire dal 1998. Per prima cosa, una selezione di 57 termini per lingua, ognuno che comporta delle varianti ortografiche, secondo la presenza o meno di segni diacritici, sinonimici, dialettali o morfosintattici e con un significato e una portata equivalente nelle lingue studiate (dettagli dei criteri linguistici : par. 4.2 e allegato 7). In seguito, si tratta di analizzare e di comparare i risultati per dedurne, con il metodo statistico, delle percentuali di presenza in ognuna delle lingue. Per ogni termine, il rapporto delle lingue latine nei confronti dell’inglese viene utilizzato come una variabile aleatoria e le tecniche della statistica vengono applicate prendendo come ipotesi una distribuzione matematica corrente di questa variabile aleatoria (la corva di Gauss detta anche distribuzione « normale »). I risultati presentati qui di seguito sono stati ottenuti facendo la sintesi dei punteggi rilevati sui due motori di ricerca che hanno soddisfatto i criteri di selezione descritti nell’allegato 4. Tutte le misure prese in considerazione in questo studio sono state fatte tra agosto 2000 e giugno 2001. . 3.2. Sintesi commentata dei risultati 3.2.1. Risultati relativi rispetto all’inglese La seguente tabella presenta il rapporto medio tra ogni lingua latina (e il tedesco) e l’inglese, ottenuto con la misura dell’occorrenza dei termini nello spazio Web, eseguito nel giugno 2001. Tabella 1 : Medie delle lingue latine (e del tedesco) rispetto all’inglese SPAGNOLO 10,95% FRANCESE 8,86% ITALIANO 5,88% PORTOGHESE 5,40% ROMENO 0,32% TEDESCO > 13,42% stimato6 3.2.2 Risultati assoluti I risultati appena citati permettono di valutare la presenza delle lingue latine e, approssimativamente del tedesco, rispetto all’inglese ; per calcolare la presenza assoluta di queste lingue nello spazio della Rete, è prima di tutto necessario fare una ipotesi sulla presenza assoluta dell’inglese. La tabella qui sotto mostra i valori di presenza assoluta, stabiliti a partire dalle medie per diverse ipotesi di presenza dell’inglese. Tabella 2: Presenza assoluta delle lingue studiate sulla rete Se INGLESE = 60% 6,57% 55% 52% 50% Allora SPAGNOLO = 65% 7,12% 6,02% 5,69% Allora FRANCESE = 5,76% 5,32% 4,87% 4,61% Allora ITALIANO = 3,82% 3,53% 3,23% Allora PORTOGHESE = 3,51% 3,24% 2,97% Allora ROMENO = 0,21% 0,19% 0,18% 8,71 % 8,04% 5,83% 13,10% Allora TEDESCO 7 Rimarrà dunque uno spazio per le altre lingue 6 5,48% 45% 4,93% 40% 4,38% 4,43% 3,99% 3,54% 3,06% 2,94% 2,65% 2,35% 2,81% 2,70% 2,43% 2,16% 0,17% 0,16% 0,14% 0,13% 7,37% 6,97% 6,70% 6.03% 5,37% 20,35% 24,96% 27,59% 34,83% 42,07% C’è, in questa versione, una differenza di qualità tra i risultati ottenuti per il tedesco e per le altre lingue studiate fino a oggi, la si "penalizzerebbe" molto se si tenesse conto dei risultati stabiliti chiedendo ai motori di fare una ricerca "per parola isolata" o separata, cioè senza alcun contesto primo o dopo. Per arrivare ad avere dei risultati tanto deboli quanto quelli stabiliti per le altre lingue, bisognerebbe in un secondo tempo considerare delle ricerche "per parola non isolata" (con contesto prima e dopo) e aiutarsi peraltro, nella misura del possibile, di un fattore cifrato che esprima la differenza di qualità delle parole separate tra le lingue dello studio o tra certe lingue dello studio e il tedesco. La nostra soluzione in questo caso è stata di mantenere il campione tale e quale, considerarlo con la stessa metodologia linguistica riguardo ai 57 termini tedeschi equivalenti e cercare ancora per parola isolata. Una correzione del 30 % almeno in aumento, rispetto ai risultati così ottenuti, ci è parsa necessaria per iniziare ad avvicinarci a questa realtà linguistica. La cifra di 13,42% viene ottenuta applicando un aumento del 30% al primo risultato lordo del 10,32 %. 7 Risultati maggiorati al 30% (si veda la nota 6). Questa tabella ci dà una idea più precisa del peso assoluto delle lingue studiate rispetto all’insieme delle pagine presenti sulla rete. Uno degli indicatori più significativi è quello dello spazio disponibile per le lingue rimanenti che ci permette di selezionare l’ipotesi di una presenza assoluta dell’inglese più probabile che si avvicina al 52%. Basta per questo considerare il cinese e il giapponese, che verosimilmente hanno un peso dello stesso ordine di quello del tedesco o dello spagnolo (tra il 5 e l’8%), come pure quello delle lingue che rappresentano tra lo 0,5% e il 2% (coreano, olandese, russo e le quattro lingue scandinave per un totale tra il 8 e il 10%), quello delle lingue la cui presenza è molto debole, come il romeno (cioè una dozzina di lingue dallo 0,1% per un totale dell’1%) e, infine, le numerosissime lingue la cui presenza resta marginale. Questa ultima proporzione è la più difficile da stimare ; considerando l’ipotesi di 200 lingue allo 0,01%, si raggiunge un totale del 2%... Una delle grandi incognite, le cui conseguenze saranno da valutare in futuro, è la possibile moltiplicazione delle lingue su Internet, dato che il totale delle lingue esistenti è calcolato tra 3000 e 6000 … Queste stime ci fanno arrivare a un peso totale del 25% per le lingue non studiate e dunque ci spinge a sostenere l’ipotesi di una presenza assoluta del 52% per l’inglese. Questa stima della cifra del 25% per il peso delle lingue non prese in considerazione direttamente nello studio è rafforzata dall’evoluzione dinamica del peso di queste descritto in dettaglio nel capitolo 4.3.3. 3.3. Relazione tra il numero di locutori e la loro presenza sulla Rete È evidente che i valori di presenza assoluta non sono un perfetto indicatore della forza di una lingua sulle reti. Per ottenere un risultato significativo, conviene proporzionare i valori che esprimono la presenza delle lingue su Internet con il metro della loro presenza nel mondo reale. La presenza relativa di queste lingue è calcolata senza tenere pienamente conto del fattore « plurilinguismo ». Questo metodo comporta degli scogli metodologici che sono stati descritti in occasione dello studio L4. Tabella 3 : Peso delle lingue studiate (cifre arrotondate in milioni) Inglese Presenza assoluta (numero di locutori) Presenza relativa (percentuale mondiale) Francese Italiano Portoghese Romeno Spagnolo Tedesco 630 130 60 190 30 375 120 10,50% 2,17% 1% 3,17% 0,50% 6,25% 2% Tabella 4: Presenza ponderata delle lingue studiate nello spazio WWW INGLESE Presenza assoluta 2001 52% Presenza ponderata 1998 7,14 Presenza ponderata 2000 5,71 Presenza ponderata 2001 4,95 FRANCESE 4,61% 1,30 2,02 2,12 ITALIANO 3,06% 1,50 PORTOGHESE 2,81% 0,26 2,77 0,68 3,06 0,88 ROMENO 0,17% 0,30 0,38 0,34 SPAGNOLO 5,69% 0,40 0,78 0,91 8 3,499 TEDESCO 6,97% Non disponibile 3,15 Un quoziente uguale a 1 è dunque considerato come un risultato "normale" ; se è inferiore a 1, come debole e se è superiore a 1, come un risultato rispettabile. Forte progressione dello spagnolo e soprattutto del portoghese, ma i due restano comunque al di sotto della soglia di una rappresentazione "normale". Eccellente punteggio del tedesco e dell’italiano e buon risultato del francese. 3.4. Vitalità della produzione d’informazione degli internauti secondo le lingue Uno studio Global Reach di cui gli ultimi risultati datano del 31 marzo 2001 (http//:www.glreach.com) propone un valore per il numero di utilizzatori di Internet per lingua : 8 9 Risultati maggiorati al 30% (si veda la nota 6). Risultati maggiorati al 30% (si veda la nota 6). Tabella 5: Numero di internauti classificati per lingua (in milioni) Spagnolo Inglese Francese Italiano Portoghe se Romeno 215,6 16,6 14,2 11,5 0,6 Ripartizione in 47,6% % 3,7% 3,1% 2,5% 0,13% Internauti (in milioni) Tedesco Resto 27,5 146,2 6,1% 32,2% 20,4 4,5% Mettendo questi risultati in relazione con quelli ottenuti nel nostro studio (si veda tabella 6), dovrebbe essere possibile dedurre quali sono i segmenti linguistici che producono la maggiore informazione sulla Rete. Tabella 6: Produttività dei locutori Pagine INGLESE 52% Internauti 47,6% P/I 1,09 FRANCESE 4,61%% 3,7% 1,25 ITALIANO 3,06%% 3,1% 0,98 PORTOGHESE 2,81%% 2,5% 1,12 ROMENO 0,17%% 0,13% 1,31 SPAGNOLO 5,69% 4,5% 1,26 TEDESCO 6,97%%10 6,1% 1,14 Otteniamo un risultato abbastanza importante : le proporzioni per lingua delle pagine disponibili sulla rete e quella degli Internauti presenti sono dello stesso ordine di grandezza ! Il rapporto percentuale di pagine su percentuale di utilizzatori si situa attorno a 1 per tutte le lingue studiate11, il che dimostrerebbe che oggi la quantità delle pagine della rete prodotte in una lingua è direttamente proporzionale al numero di internauti che praticano quella lingua. Il risultato dell’inglese sorprende : ci si poteva aspettare un valore molto più alto sotto l’influenza del plurilinguismo12. Questo potrebbe dunque significare che la produttività dei locutori anglofoni è inferiore a quella dei locutori nelle altre lingue menzionate, ed è prova di un premio di produzione delle popolazioni di locutori di altre lingue occidentali, coscienti delle poste linguistiche di Internet ? Sarebbe molto interessante conoscere questi stessi valori per le lingue più recenti in Internet... 10 Risultati maggiorati al 30% (si veda la nota 6). Gli scarti sono inferiori al 25% nel valore assoluto e difficilmente si può trarre delle conclusioni a proposito di queste deboli variazioni che sono probabilmente all’interno degli intervalli di confidenza delle cifre annunciati da Global Reach, i quali non beneficiano di una metodologia standard per tutte le lingue. 12 La proporzione dei locutori di lingue diverse dall’inglese che producono delle pagine in inglese (o traducono anche le loro pagine in inglese) sappiamo bene che è molto elevata. 11 4 Dettaglio dei risultati 4.1 Metodologia Internet L'evoluzione accelerata, partendo dal nostro ultimo studio, dei motori di ricerca che indicizzano il contenuto della Rete ha reso necessario un lavoro supplementare e un riesame accurato della metodologia Internet utilizzata per ottenere i nostri risultati. Questo lavoro passa per tre fasi : L'identificazione dei principali motori di ricerca disponibili e la realizzazione di una preselazione. La verifica del loro comportamento per quanto riguarda i conteggi13. La selezione dei motori che offrono le migliori garanzie per l’applicazione della nostra metodologia. 4.1.1. Identificazione dei principali motori di ricerca disponibili sul Web e preselezione. Nella prima tappa sono stati identificati i seguenti motori : AltaVista, Excite, Fastsearch14, Google, Infoseek, iWon, Lycos, Northernlight, Yahoo e Webtop. Hotbot, Webtop, il nuovissimo motore, non è ancora stato sufficientemente testato per decidere di assumerci il rischio di incorporarlo. Hotbot, Lycos e Yahoo sono stati scartati perché in diretto partenariato con altri motori di ricerca e forniscono gli stessi risultati : Lycos utilizza l'indice di Fastsearch, e Yahoo quello di Google. Hotbot e iWon condividono lo stesso indice, che fornisce loro Inktomi. Hotbot che era stato la nostra scelta in occasione dello studio precedente purtroppo non è stato possibile riutilizzarlo perché non indica più i risultati dei conteggi. Inktomi non offre i servizi del suo indice direttamente agli internauti : dunque rimane iWon. Quanto a Excite, non è stato possibile utilizzarlo perché, come Hotbot, non fornisce risultati di conteggio al momento delle misurazioni15. Restavano dunque in lizza i seguenti sei motori : AltaVista, Fastsearch, Google, Infoseek, iWon e Northern Light. 4.1.2 Convalida dei motori selezionati in funzione della metodologia impiegata. Una automatizzazione del processo delle misure i cui dettagli sono descritti nell’allegato 5 ha permesso di produrre dei risultati per i sei motori di ricerca preselezionati, trattando ognuno circa 1600 varianti dei 57 termini per lingua. I risultati ottenuti hanno dimostrato le forti divergenze tra i motori e hanno prodotto non minori forti inquietudini quanto alla solidità della nostra metodologia ! È chiaro che si doveva fare uno sforzo d’analisi dei motori di ricerca utilizzati per spiegare queste divergenze e sapere quali motori offrivano i risultati più credibili. Sono stati definiti parecchi criteri per convalidare l’utilizzo di un motore di ricerca per questo studio. Un motore di ricerca, per poter essere un mezzo per l’applicazione della nostra metodologia, deve avere le seguenti caratteristiche: Avere un indice sufficentemente ampio in base all’ampiezza della Rete, Tener conto in modo coerente dei segni diacritici, Dare dei risultati coerenti per quanto riguarda il conteggio delle pagine trovate, Disporre di un indice che sia omogeneo rispetto alle lingue. I risultati ottenuti per ogni motore, i dettagli della loro selezione come pure altre informazioni generali riguardanti i motori di ricerca sono disponibili nell'allegato 4. 4.1.3 Selezione finale dei motori di ricerca per l’applicazione della metodologia Dell’insieme dei motori preselezionati, soltanto due Google e Fastsearch, sono stati considerati quale supporto a uno studio della presenza delle diverse lingue sulla Rete al momento delle prime misurazioni, nell’agosto 2000. In questo primo momento, i loro risultati sono stati utilizzati congiuntamente 16 per ottenere i risultati finali. La prossiminità di ognuno dei risultati, ottenuti partendo da un indice e da tecniche di ricerca diverse, ci è sembrata, per di più, un buon segno per la validità del nostro metodo: Google Fast 13 Inglese 210 147 17 Spagnolo 7,86% 8,41% Francese 7,33% 7,33% Italiano Portoghese 4,65% 2,82% 4,60% 3,95% Romeno 0,27% 0,37% Tedesco 7,89% 8,47% 18 Bisogna capire che i risultati dei conteggi sono assolutamente legati alla funzione principale dei motori che è quella di identificare le pagine che comportano i termini della ricerca, in un ordine di rilevanza massimale. Certi motori forniscono i valori del totale del numero delle pagine che rispondono al criterio di ricerca, altri invece no. In ogni caso bisogna prendere molte precauzioni per verificare bene l’affidabilità dei dati di conteggio forniti. 14 Noto anche con il nome di Alltheweb. 15 Questo difetto è stato corretto in seguito, i risultati di Excite verranno dunque presi in considerazione in occasione della prossima versione di questo studio, se però manterrà questa funzione. 16 Per i calcoli statistici abbiamo concatenato i risultati dei due motori per ottenere una serie più lunga dei valori della nostra variabile aleatoria. 17 Milioni di pagine in inglese. 18 Si tratta dei risultati lordi, senza la correzione al 30%. Ora, in occasione dell’ultimo calcolo, fatto in giugno 2001, è risultato che Google non trattava più i segni diacritici in modo soddisfacente, e abbiamo dovuto accantonare i suoi risultati. 4.2. Metodologia linguistica A parte l’introduzione, a titolo di primo passo esplorativo, delle equivalenze del tedesco e la correzione di alcuni errori che erano sfuggiti nella scrittura delle varianti19, la metodologia linguistica resta invariata rispetto alla versione precedente dello studio. La selezione di 57 termini per lingua fatta nel 1998 è stata estesa ai equivalenti tedeschi. Ogni termine, includendo sempre una certa quantità di varianti (ortografiche, secondo la presenza o meno di segni diacritici, sinonimici, dialettali, morfosintattici…) ha continuato ad essere scelto per essere considerato sia equivalente a quelli del suo stesso numero in tutte le lingue studiate che distintivo, cioè senza (o quasi senza) omografie interlinguistiche20 di alcune delle sue varianti o altri ostacoli all’equivalenza. Il campione dei 57 termini si trova nell'allegato 3. 4.2.1 I nuovi problemi posti dal tedesco La formazione delle parole in tedesco è molto diversa da quella delle altre lingue studiate fino ad ora : le lingue come i tedesco riuniscono in una sola parola "composta" delle radici che, nelle forme equivalenti delle altre lingue studiate (e salvo parzialmente, molto meno del tedesco, l’inglese), si trovano separate in parole diverse, costituendo un sintagma. Ora dato che le equivalenze erano fatte tra parole non composte e supponendo che si stavano cercando le parole separate, senza contesto indeterminato prima o dopo, il tedesco è fortemente "penalizzato" poiché forme molto frequenti quali Ziegenkäse, equivalente di "formaggio di capra", vengono sistematicamente scartate. Un primo passo è stato fatto qui aggiungendo ai risultati ottenuti secondo la vecchia metodologia un 30% di maggiorazione, come limite probabile minimo. Ma per arrivare ad avere dei risultati sicuri quanto quelli che sono stati stabiliti per le altre lingue, bisognerà senza dubbio, in un secondo tempo, prevedere delle ricerche "per parola non isolata " (con e senza contesto indeterminato prima e dopo la parola), peraltro aiutandosi, nella misura del possibile, con un fattore cifrato che esprima la differenza di quantità delle parole tra le altre lingue dello studio e il tedesco. Questo fattore di correzione è da trovarsi probabilmente nelle ricerche fatte nei lavori su corpus paralleli interlinguistici. 4.2.2 Altre problematiche Si dovrebbe poter capire il lavoro linguistico guardando l'allegato 3 e l'allegato 7. Per quanto riguarda altri dettagli della metodologia linguistica, si può consultare la versione precedente, L4, capitolo 2.2. Ricordiamo la decisione di includere sempre, con le forme che hanno segni diacritici (accenti, ecc.), delle varianti senza diacritici, molto frequenti sulla Rete. Nel caso del tedesco, non si è tenuto conto della distinzione morfosintattica maiuscolo / minuscolo, che è neutralizzata, dai nostri motori di ricerca e così non pertinente. Inoltre, è stata presa la decisione di non includere delle forme di meno di 4 lettere per evitare delle possibili omografie (specialmente con delle sigle, ma non unicamente). Le omografie tra almeno due delle lingue studiate si sono dimostrate estremamente frequenti, specie tra lo spagnolo e il portoghese, ma non solo e, ben inteso, bisognava evitare delle coincidenze accidentali. A volte una omografia casuale quale quella delle varianti tedesche Montage / Montages (lunedì) si è raddoppiata con una omografia accidentale, poiché l’espressione francese è presa a prestito da quasi tutte le altre lingue nel campo cinematografico. 4.3. Metodologia statistica Gli intervalli di confidenza al 90% e 99% dei risultati sono stati stabiliti impiegando la distribuzione T di Student, considerando l'ipotesi di una distribuzione di tipo Normale. 4.3.1. Risultati delle misurazioni con i motori di ricerca preselezionati Nella tabella 16 nell'allegato 4 vengono indicate le ricerche ottenute in agosto 2000 per ogni lingua, secondo i sei motori preselezionati. 4.3.2. Calcoli statistici dei risultati relativi all'inglese Ecco le percentuali medie che rappresentano la presenza delle lingue latine (e il tedesco) rispetto all'inglese. 19 Si tratta di errori minori che non hanno provocato uno scarto importante rispetto ai risultati pubblicati in occasione dello studio precedente. In dettaglio nell’allegato 3. 20 Parliamo delle forme che avrebbero una stessa scrittura in più di una lingua; le omografie all’interno di una stessa lingua sono considerate come una stessa parola (grafica). Tabella 7 : Dettagli dei risultati statistici Francese Italiano Portoghese Romeno Spagnolo Tedesco21 Media 8,86% 5,88% 5,40% 0,32% 10,95% 13,4% Scarto-Tipo 5,09% 5,55% 5,49% 0,33% 9,46% 8,97% Coefficiente di varianza Intervallo di confidenza al 90% 0,57 0,94 1,01 1,02 0,86 0,66 7,75-9,97 4,67-7,09 4,20-6,60 0,25-0,39 8,89-13,01 11,45-15,37 Il coefficiente di varianza è la radice quadrata dello scarto-tipo al quadrato diviso per la media al quadrato. Un valore superiore a 1 indica una debole dispersione e dunque un risultato sempre più debole se il valore è debole. L'intervallo di confidenza sarà dunque tanto più stretto quanto il valore del coefficiente di varianza è debole. 4.3.3. Calcoli dei risultati assoluti Secondo le conclusioni stabilite nel capitolo 3.2.1, si arriva a una presenza assoluta delle lingue studiate del : Inglese Spagnolo Francese Italiano Portoghese Romeno Tedesco Resto 52% 5,69% 4,61% 3,06% 2,81% 0,17% 6,97%22 24,96% Così lo spagnolo, come avevamo previsto in occasione dello studio precedente, ora oltrepassa il francese. E il tedesco si piazza davanti a tutte le lingue latine. L'ottenimento di questi risultati è basato sul calcolo dei risultati relativi (capitolo precedente) come pure su una approsimazione realistica del peso delle lingue non studiate descritte nella riga "resto". L'approssimazione del peso delle lingue non studiate è stata realizzata partendo da ua misurazione dell'entità del dominio di ogni lingua sul motore di ricerca Fastsearch. Nel momento in cui queste misurazioni sono state fatte, Fastsearch presentava un indice di 360 milioni di pagine suddivise in 31 lingue. Per sapere quante pagine contenga l'indice in ogni lingua (secondo l'algoritmo di individuazione di Fast), bisogna utilizzare la sezione "advanced search" (ricerca avanzata) e fare una ricerca, per ogni lingua, partendo dalla tecnica che avevamo chiamato nello studio precedente "complemento dell'insieme vuoto " (ricerca del numero delle pagine che non contengono una parola inesistente)23. Si ottiene la tabella 17 nell'allegato 6. Questa tabella dà una approssimazione del peso di ogni lingua, dedotto dall'algoritmo di riconoscimento delle lingue del motore di ricerca, il quale, certamente, non è perfetto. Per esempio fare una ricerca sulla lettera "è" per i siti in inglese dà (per Google o Fastsearch) un risultato di un milione di siti ma soprattutto in tailandese, coreano, giapponese, russo... Un modo diverso di ottenere il peso delle lingue non studiate è di constatare la sua evoluzione dinamica tra L4 e L5. A partire dalla tabella delle ipotesi dei valori assoluti descritti del capitolo 3.2.1, e dei valori assoluti delle lingue considerate nello studio realizzato in settembre 1998, si ottiene la tabella seguente : Table 8 : Ipotesi di progressione del peso delle lingue studiate Lingue studiate 21 Ipotesi del peso assoluto per L5 INGLESE 55% 50% 45% L4 Sett 1998 75% SPAGNOLO 6,02% 5,48% 4,93% 2,53% 137,94% 116,60% 94,86% FRANCESE 4,87% 4,43% 3,99% 2,81% 73,31% 57,65% 41,99% Progressioni L4/L5 -26,67% -33,33% -40% ITALIANO 3,23% 2,94% 2,65% 1,50% 115,33% 96% 76,67% PORTOGHESE 2,97% 2,70% 2,43% 0,82% 262,20% 229,27% 196,34% ROMENO 0,18% 0,16% 0,14% 0,15% 20% 6,67% -6,67% Resto 20,35% 27,59% 34,83% 17,19% 18,38% 60,50% 102,62% Risultati maggiorati al 30% (si veda la nota 6) Risultati maggiorati al 30% (si veda la nota 6) 23 L'argomento della ricerca è, per esempio, < - "hgavdhjgduhgedujhgsdfyuhg">. 22 per le altre lingue Una volta ancora, l'ipotesi più realistica del peso assoluto dell'inglese è quella che si avvicina al 50%. In effetti, una progressione di meno del 18,38% delle altre lingue24 sembra molto insufficiente : questo rappresenterebbe una progressione due volte meno rapida di quella del romeno e da 4 a 15 volte meno rapida di quella delle altre lingue latine studiate. Un aumento del 102% per le lingue non studiate sembra invece esagerato questo significherebbe una evoluzione mondiale più rapida dell'evoluzione della grande maggioranza delle lingue latine (eccetto il portoghese). Una progressione dell'ordine del 60% nella media per le lingue non studiate le metterebbe al livello di progressione del francese e questo sembra molto più credibile. Questo confronto ci rafforza nella nostra ipotesi di un risultato finale dell'ordine del 50% come valore assoluto dell'inglese. 4.4. Confronto con altri studi 4.4.1. Confronto con gli studi precedenti I rapporti inglese/francese e francese/spagnolo hanno avuto la seguente evoluzione tra il primo e il secondo studio25 : Tabella 9 : Evoluzioni dei rapporti tra il peso del francese, dell’inglese e dello spagnolo Marzo 1996 (L1) Inglese/Francese 21,91 Francese/Spagnolo 2,40 Inglese/Spagnolo 52,58 Marzo 1997 (L2) 19,99 1,92 38,38 Marzo 1998 (L3) 17,60 1,33 23,32 Sett. 1998 (L4) 35,59 1,11 39,53 Agosto 2000 (L5) 13,66 0,91 12,38 Giugno 2001 (L5) 11,28 0,81 9,14 Le cifre in corsivo (da L1 a L3), lo ricordiamo, sono troppo approssimative per essere considerate seriamente. L'osservazione reale è iniziata a partire da L4. 4.4.2. Confronto con gli studi similari (Alis e Inktomi) Lo studio di Alis non è mai stato ripetuto, dal 1998 : manteniamo dunque l'analisi fatta in occasione di L4. Invece, Inktomi ha pubblicato dei risultati che hanno avuto una grande ripercussione in Internet e sono ora utilizzati come fonte ufficiale da numerosi rapporti. Tabella 10 : Risultati dello studio di Inktomi (febbraio 2000) LINGUE Inglese Tedesco Francese Italiano Spagnolo Portoghese Olandese Finlandese Svedese Giapponese PROPORZIONE (%) 86,54 5,83 2,36 1,55 1,23 0,75 0,54 0,50 0,36 0,34 Queste cifre contribuiscono a perpetrare la visione sbagliata che l'inglese continua a essere la lingua di più dell' 80% delle pagine web. Comunque, è facile scoprire una aberrazione in questi risultati, nella loro presentazione o nella loro interpretazione... In effetti, la percentuale annunciata per l'inglese (86%) non è rispetto a tutte le lingue ma soltanto rispetto alle 10 lingue citate nella tabella, visto che il totale delle percentuali per le 10 lingue arriva al 100%! Se prendiamo l'ipotesi che rimane il 30% di pagine web per le lingue non citate, il totale reale dell'inglese sarebbe allora di : 86,54% x (100-30) = 60,58%!!! Al di là di questo evidente lapsus che fa perdere il significato dei risultati assoluti (ma non impedisce la maggior parte degli uffici di marketing di Internet di riprendere queste cifre assurde...) resta interessante confrontare i nostri risultati, basati su un campione di termini i cui criteri di selezione linguistica sono stati presentati nel nostro 24 Le "altre lingue" ricoprono delle realtà diverse, dalle lingue scandinave o asiatiche a forte progressione alle lingue meno diffuse, a progressione probabilmente più lenta. 25 Bisogna prendere questa progressione con grande cautea poiché le cifre da L1 a L3 non presenterebbero le caratteristiche di rigore linguistico ottenute a partire da L4. rapporto, con gli algoritmi di riconoscimento delle lingue utilizzate dai diversi motori, il cui meccanismo rimane poco chiaro. Si veda per esempio, la tabella 17 nell'allegato 6 che mostra le cifre derivate dal motore Fastsearch e le confronta con quelle del nostro studio. Fino a prova contraria, dobbiamo considerare il nostro metodo più rigoroso sul piano metodologico e concludere che gli algoritmi di riconoscimento delle lingue su Internet hanno tutti l'irritante tendenza a sopravvalutare le cifre dell'inglese. 5. Tendenza dell'evoluzione delle lingue studiate Come abbiamo già segnalato, se fossero state prese delle misure nell’agosto 2000 e in gennaio 2001 con i motori Fastsearch e Google, in giugno 2001 avremmo dovuto utilizzare soltanto Fastsearch, visto che Google non trattava più in modo utile i segni diacritici. Per i paragoni della tabella qui sotto abbiamo tenuto conto solo dei risultati di Fastsearch, nell’agosto 200, nel gennaio 2001 e nel giugno 2001. Tabella 11: Risultati di Fastsearch nell’agosto 2000, gennaio 2001, giugno 2001 Spagnolo 8,41% 9,46% 10,95% Agosto 2000 Gennaio 2001 Giugno 2001 Francese 7,33% 7,89% 8,86% Italiano 4,60% 4,93% 5,88% Portoghese 3,95% 4,44% 5,40% Romeno 0,37% 0,33% 0,32% Tedesco 11,0% 11,4% 13,4% La tabella seguente dà un’immagine delle attuali tendenze dell’evoluzione delle lingue studiate sulla Rete, partendo dalle cifre precedenti. Tabella 12: Tendenze dell'evoluzione Tendenza attuale dell'evoluzione delle lingue nella rete 16% 14% Spagnolo % in relazione all'inglese 12% Francese 10% Italiano 8% Portoghese 6% Rumano 4% Tedesco 2% 0 Fe 1 b 01 M ar 01 Ap r0 M 1 ag 01 G iu 01 Lu g 0 Ag 1 o 01 Se t0 1 O tt 01 G en 00 00 ic D 00 ov N 0 O tt t0 Se Ag o 00 0% 6. Prospettive per un prosieguo dell'osservazione Le condizioni logistiche sono adesso riunite per un reale e frequente prosieguo di questo studio. L’automatizzazione della cattura dei risultati rende più facile la raccolta e l'interpretazione dei dati. Possiamo mantenere un osservatorio dell'evoluzione della presenza delle lingue studiate, con misurazioni ogni 3 o 6 mesi. La creazione di questo osservatorio esige un controllo permanente di quanto succede nel mondo dei motori di ricerca, per poter determinare se i cambiamenti di procedura di un motore di ricerca lo squalifica per questo studio o se al contrario un nuovo motore di ricerca può essere utilizzato ai fini dello studio. Ogni modifica dell'interfaccia di un motore implica, anch'essa, un lavoro di programmazione dell'applicazione informatica che automatizza le misurazioni. Si può anche immaginare un allargamento dello studio ad altre lingue cominciando dall'insieme delle lingue parlate nell'ambito dell'Unione Europea. Questo allargamento può richiedere del lavoro supplementare non solo a livello della traduzione dei termini, ma probabilmente anche a livello di un aggiustamento della metodologia di ricerca delle occorrenze, così come suggerito nel paragrafo 4.2.1. Certamente, sarebbe auspicabile cominciare a fare delle misurazioni sulle lingue non europee, come per esempio il quechua in America latina o il wolof in Africa. Nuovi partenariati linguistici saranno probabilmente necessari e siamo pronti ad esaminare delle proposte in questo senso. Resta anche da riprendere il lavoro iniziato nel primo studio su una misurazione, più soggettiva, del peso delle culture sulla Rete. L'esperienza acquisita per l'automatizzazione sarà sicuramente utile. Infine, l'approccio può permettere anche di iniziare degli studi trasversali per differenziare dei segmenti di penetrazione linguistica sulla Rete (come per esempio, turismo, commercio elettronico o educazione). Le piste sono aperte, bisogna solo trovare i partner e gli appoggi finanziari ... 7. Riferimenti, su Internet, dei lavori correlati Lo studio precedente cita un certo numero di riferimenti. Ecco come completare la lista : Riferimenti sui motori di ricerca : http://www.searchenginewatch.com http://www.searchengineshowdown.com Risultati parziali dello studio di Inktomi : http://www.inktomi.com/webmap/ Numero di internauti per lingua : http://www.glreach.com/globstats/index.php3 Studio di cyveillance sull'ampiezza del Web : http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf Studio realizzato per l'Internet Council : http://usic.wslogic.com/intro.html Allegato 1 : Sinossi e riferimenti dei diversi studi realizzati dagli autori Tabella 13 : Sinossi e riferimenti dei diversi studi realizzati dagli autori Data e nome 3/96 L1 Diritti d'autore Funredes Localizzazione Internet 3/96 C1 Funredes http://funredes.org/LC/C1 3/97 L2 Funredes http://funredes.org/LC/L2 3/98 L3 Funredes 26 http://funredes.org/LC/L3 9/98 L4 Agence de la francophonie http://www.unilat.org/dtil/le nguainternet/it/lingua/indic e_lingua.htm Funredes http://funredes.org/LC/L1 Unione Latina 9/98 C2 9/98 LC 2000-2001 L5 26 Agence de la francophonie Funredes Unione Latina http://www.unilat.org/dtil/le nguainternet/it/cultura/cultu ra_indice.htm http://funredes.org/LC Funredes Unione Latina http://www.unilat.org/dti l/LI/index.htm Con l’appoggio metodologico dell’Unione Latina Descrizione Primo studio lingua, basato sul francese, che prende in considerazione lo spagnolo. Misurazioni comparative, con AltaVista, della presenza di parole nel WWW, in inglese, in francese e in spagnolo, partendo da un campione di 50 concetti determinati senza rigore metodologico sul piano linguistico. Risultato molto approssimativo, che mostra un rapporto inglese/francese dell'ordine di 22 e francese/spagnolo dell'ordine di 2.4. Primo studio culturale, basato sulla francofonia, tiene conto dell'ispanità. Misurazioni comparative, con AltaVista, del numero di personalità culturalmente rappresentative, nelle pagine web : circa 500 personalità divise su 13 categorie. Il risultato, soggettivo, dimostra una presenza abbastanza importante dei rappresentanti della cultura francofona, rispetto ai nordamericani nei campi in cui la cultura e il commercio non sono confusi. Semplice aggiornamento dello studio lingua, che mostra una debole progressione del francese rispetto all'inglese e una forte progressione dello spagnolo. Importante aggiornamento, presentato alla conferenza "Visionarios" a Caracas. • Analisi dei limiti dei motori di ricerca e della presenza relativa dei diacritici. Raccomandazione per l'abbandono di AltaVista e l'utilizzo di HotBot. • Il "metodo del complemento dell'insieme vuoto " applicato ad AltaVista dà un ordine di grandezza delle lingue derivato dall'algoritmo di riconoscimento delle lingue di AltaVista. • Valutazione critica dei risultati dello studio di Alis Technologies. Il francese continua la sua lenta progressione e lo spagnolo è ora molto vicino al francese. Importanti cambiamenti nel metodo e nell'ottenimento di risultati rigorosi. • Considerazione di tutte le lingue latine: spagnolo, francese, italiano, portoghese, romeno. • Definizione di un campione che risponda a dei criteri linguistici rigorosi. • Valutazione dell'aiuto di HotBot nello spazio WWW. • Valutazione dello spazio Usenet all'aiuto di DejaNews. • Instaurazione degli intervalli di confidenza a 90% e 99%. • Ponderazione dei risultati in funzione dell'ampiezza degli spazi linguistici. Secondo studio culturale, 3 anni dopo. Nessuna differenza importante per lo studio sulla presenza culturale francofona. • Utilizzo della stessa metodologia, miglioramento comunque riguardo alle categorie, alla scelta e al numero dei personaggi, estensione a dei personaggi che parlano tutte le lingue latine. • Analisi di certi risultati per lingua e nella lingua di riferimento. Pagina di guardia dell'insieme degli studi lingue e culture. • • Estensione dello studio al tedesco. Selezione, dopo uno studio approfondito, dei motori di ricerca Google e Fastsearch, poi soltanto • • • di Fastsearch. Misurazione solo nello spazio WWW. Automatizzazione dei calcoli con l'aiuto di un programma che abbia il ruolo di fare da interfaccia tra i termini da misurare e i motori di ricerca. Correzione degli errori relativi all'ortografia di certi termini del campione come pure l'omissione di certi altri. Inizio della sistematizzazione delle misurazioni e dell'offerta di curve d'estrapolazione. Allegato 2 : Visualizzazione degli intervalli di confidenza dei risultati per lingua Tabella 14 : Visualizzazione degli intervalli di confidenza Spagnolo Francese Italiano Portuguese Rumeno Tedesco En % 0 1 2 3 4 Scarto a 90% 5 6 7 Scarto a 99% 8 9 10 11 Allegato 3 : Lista dei termini del campione di riferimento In corsivo: forma suscettibile di essere presente ma "incorretta". Il caso più frequente corrisponde a dei termini scritti senza segni diacritici. In MAIUSCOLO : variante che presenta una omografia interlinguistica percepita, variante composta da meno di quattro caratteri (forte rischio di omografia con una sigla) o variante di portata sintattica o semantica maggiore di quelle degli equivalenti nelle altre lingue. Tabella 15 : Lista dei termini del campione di riferimento INGLESE (EN) 1 ambiguity ambiguities ambiguousne ss ambiguousne sses SPAGNOLO (ES) ambigüedad ambiguedad ambigüedad es ambiguedad es FRANCESE (FR) ambiguïté ambiguite ambiguïtés ambiguites ITALIAN O (IT) ambiguit à ambiguit a PORTOGHESE (PT) ambigüidade ambiguidade ambigüidades ambiguidades ROMENO (RO) ambiguitate ambiguitatea ambiguităţii ambiguitatii ambiguităţi ambiguitati ambiguităţile ambiguitatile ambiguităţilor ambiguitatilor 2 causality causalidad causalité causalità causalidade cauzalitate causalities CAUSALIDA causalite causalita CAUSALIDADES cauzalitatea DES causalités cauzalităţii causalites cauzalitatii cauzalităţi cauzalitati cauzalităţile cauzalitatile cauzalităţilor cauzalitatilor 3 cheese queso fromage formaggi queijo brânză cheeses quesos fromages o queijos branza formaggi brânze branze brânza brânzele branzele brânzei branzei brânzelor branzelor brânzeturi branzeturi brânzeturile branzeturile brânzeturilor branzeturilor 4 compatibility compatibilid compatibilit compatibi compatibilidade compatibilitate compatibilitie ad é lità COMPATIBILID compatibilitate s COMPATIBIL compatibilit compatibi ADES a IDADES e lita compatibilităţii compatibilit compatibilitatii és compatibilităţi compatibilit compatibilitati es compatibilităţil e compatibilitatil e compatibilităţil or compatibilitatil or TEDESCO (DE) ambiguität ambiguitat ambiguitaet ambiguitäten ambiguitaten ambiguitaeten doppeldeutigkeit doppeldeutigkeiten zweideutigkeit zweideutigkeiten kausalität kausalitat kausalitaet kausalitäten kausalitaten kausalitaeten käse kase kaese käsen kasen kaesen kompatibilität kompatibilitat kompatibilitaet kompatibilitäten kompatibilitaten kompatibilitaeten vereinbarkeit vereinbarkeiten 5 contiguity contiguities contigüidad contiguidad CONTIGÜID ADES CONTIGUID ADES contiguïté contiguite contiguïtés contiguites contiguità contigüidade contiguita contiguidade CONTIGÜIDADE S CONTIGUIDADE S 6 dangerous peligroso peligrosa peligrosos peligrosas dangereux dangereuse dangereuse s pericolos o pericolos a pericolosi pericolos e 7 december diciembre perigoso perigosa perigosos perigosas décembre decembre densidad densité DENSIDADE densite S densités densites dicembre dezembro 9 disparity disparities disparidad disparité DISPARIDAD disparite ES disparités disparites disparità disparita 1 divisibility 0 divisibilities divisibilidad divisibilité DIVISIBILID divisibilite ADES divisibilités divisibilites divisibilit à divisibilit a 1 elasticity 1 elasticities elasticidad élasticité ELASTICIDA elasticite DES élasticités elasticites elasticità elasticita 8 DENSITY DENSITIES densità densita densidade DENSIDADES contiguitate contiguitatea contiguităţii contiguitatii contiguităţi contiguitati contiguităţile contiguitatile contiguităţilor contiguitatilor primejdios primejdioasă primejdioasa primejdioase primejdioşi primejdiosi decembrie densitate densitatea densităţii densitatii densităţi densitati densităţile densitatile densităţilor densitatilor disparidade disparitate DISPARIDADES disparitatea disparităţii disparitatii disparităţi disparitati disparităţile disparitatile disparităţilor disparitatilor divisibilidade divizibilitate DIVISIBILIDAD divizibilitatea ES divizibilităţii divizibilitatii divizibilităţi divizibilitati divizibilităţile divizibilitatile divizibilităţilor divizibilitatilor elasticidade elasticitate ELASTICIDADE elasticitatea S elasticităţii elasticitatii elasticităţi elasticitati elasticităţile elasticitatile elasticitităţilor elasticitatilor kontiguität kontiguitat kontiguitaet kontiguitäten kontiguitaten kontiguitaeten GEFÄHRLICH GEFAHRLICH GEFAEHRLICH gefährliche gefahrliche gefaehrliche gefährlicher gefahrlicher gefaehrlicher gefährliches gefahrliches gefaehrliches gefährlichen gefahrlichen gefaehrlichen gefährlichem gefahrlichem gefaehrlichem dezembers dezembern dichte DICHTEN dichtheit dichtheiten dichtigkeit dichtigkeiten disparität disparitat disparitaet disparitäten disparitaten disparitaeten divisibilität divisibilitat divisibilitaet divisibilitäten divisibilitaten divisibilitaeten teilbarkeit teilbarkeiten dehnbarkeit dehnbarkeiten elastizität elastizitat elastizitaet elastizitäten elastizitaten elastizitaeten 1 electricity 2 electricities electricidad électricité ELECTRICID electricite ADES électricités electricites elettricità electricidade elettricita eletricidade ELECTRICIDAD ES eletricidades 1 february 3 febrero février fevrier febbraio fevereiro 1 femininity 4 femininities feminidad femineidad FEMINIDADE S femineidade s féminité feminite féminités feminites femminili tà femminili ta feminidade feminilidade FEMINIDADES feminilidades 1 fertility 5 fertilities fertilidad fertilité FERTILIDAD fertilite ES fertilités fertilites 1 fidelity fidelidad 6 fidelities FIDELIDADE faithfulness S faithfulnesses fidélité fidelite fidélités fidelites 1 fraternity fraternidad 7 fraternities FRATERNIDA brotherhood DES brotherhoods fraternité fraternite fraternités fraternites 1 friday 8 fridays vendredi vendredis viernes electricitate electricitatea electricităţii electricitatii electricităţi electricitati electricităţile electricitatile electricităţilor electricitatilor februarie feminitate feminitatea feminităţii feminitatii feminităţi feminitati feminităţile feminitatile feminităţilor feminitatilor fertilità fertilidade fertilitate fertilita FERTILIDADES fertilitatea fertilităţii fertilitatii fertilităţi fertilitati fertilităţile fertilitatile fertilităţilor fertilitatilor fedeltà fidelidade fidelitate fedelta FIDELIDADES fidelitatea fidelităţii fidelitatii fidelităţi fidelitati fidelităţile fidelitatile fidelităţilor fidelitatilor fraternità fraternidade fraternitate fraternita FRATERNIDADE fraternitatea fratellanz S fraternităţii a fraternitatii fratellanz fraternităţi e fraternitati fraternităţile fraternitatile fraternităţilor fraternitatilor venerdì venerdi sexta-feira sextas-feiras vineri vinerea elektrizität elektrizitat elektrizitaet elektrizitäten elektrizitaten elektrizitaeten STROM februar februars februare februaren femininität femininitat femininitaet femininitäten femininitaten femininitaeten weiblichkeit weiblichkeiten fertilität fertilitat fertilitaet fertilitäten fertilitaten fertilitaeten fruchtbarkeit fruchtbarkeiten TREUE TREUEN brüderlichkeit bruderlichkeit bruederlichkeit brüderlichkeiten bruderlichkeiten bruederlichkeiten fraternität fraternitat fraternitaet fraternitäten fraternitaten fraternitaeten freitag freitags freitages freitage freitagen 1 heterosexuali heterosexual 9 ty idad heterosexuali heterosexual ties idades hétérosexua lité heterosexua lite hétérosexua lités heterosexua lites 2 homosexualit homosexuali 0 y dad homosexualiti homosexuali es dades homosexual ité homosexual ite homosexual ités homosexual ites 2 horse 1 horses caballo caballos cheval chevaux 2 humidity 2 humidities humedad humedades humidité humidite humidités humidites 2 illness 3 illnesses sickness sicknesses disease diseases 2 immortality 4 immortalities enfermedad enfermedad es MALADIE maladies inmortalidad immortalité inmortalidad immortalite es immortalité s immortalite s eterosess ualità eterosess ualita heterossexualid ade heterossexualid ades heterosexualita te heterosexualita tea heterosexualită ţii heterosexualita tii heterosexualită ţi heterosexualita ti heterosexualită ţile heterosexualita tile heterosexualită ţilor heterosexualita tilor omosess homossexualida homosexualitat ualità de e omosess homossexualida homosexualitat ualita des ea homosexualităţ ii homosexualitat ii homosexualităţ i homosexualitat i homosexualităţ ile homosexualitat ile homosexualităţ ilor homosexualitat ilor cavallo cavalo CAL cavalli cavalos CAI calul CAII calului cailor calule umidità humidade umiditate umidita umidade umiditatea humidades umidităţii umidades umiditatii umidităţi umiditati umidităţile umiditatile umidităţilor umiditatilor malattia doença boală malattie doenca BOLI infermità doenças boala infermita doencas bolile enfermidade bolii enfermidades bolilor immortali imortalidade imortalitate tà imortalidades imortalitatea immortali imortalităţii ta imortalitatii imortalităţi imortalitati imortalităţile imortalitatile imortalităţilor imortalitatilor heterosexualität heterosexualitat heterosexualitaet heterosexualitäten heterosexualitaten heterosexualitaeten homosexualität homosexualitat homosexualitaet homosexualitäten homosexualitaten homosexualitaeten pferd pferdes pferds pferde pferden feuchtigkeit feuchtigkeiten humidität humiditat humiditaet humiditäten humiditaten humiditaeten krankheit krankheiten seuche seuchen immortalität immortalitat immortalitaet immortalitäten immortalitaten immortalitaeten unsterblichkeit unsterblichkeiten 2 immunity 5 immunities inmunidad immunité inmunidades immunite immunités immunites immunità imunidade immunita imunidades imunitate imunitatea imunităţii imunitatii imunităţi imunitati imunităţile imunitatile imunităţilor imunitatilor 2 incompatibilit incompatibili incompatibil incompati incompatibilida incompatibilitat 6 y dad ité bilità de e incompatibiliti INCOMPATIB incompatibil incompati INCOMPATIBILI incompatibilitat es ILIDADES ite bilita DADES ea incompatibil incompatibilităţ ités ii incompatibil incompatibilitat ites ii incompatibilităţ i incompatibilitat i incompatibilităţ ile incompatibilitat ile incompatibilităţ ilor incompatibilitat ilor 2 infallibility infalibilidad infaillibilité infallibilit infalibilidade infaibilitate 7 infallibilities INFALIBILID infaillibilite à INFALIBILIDAD infaibilitatea ADES infaillibilités infallibilit ES infaibilităţii infaillibilites a infaibilitatii infaibilităţi infaibilitati infaibilităţile infaibilitatile infaibilităţilor infaibilitatilor 2 inferiority inferioridad infériorité inferiorità inferioridade inferioritate 8 inferiorities INFERIORID inferiorite inferiorita INFERIORIDAD inferioritatea ADES infériorités ES inferiorităţii inferiorites inferioritatii inferiorităţi inferioritati inferiorităţile inferioritatile inferiorităţilor inferioritatilor 2 infidelity infidelidad infidélité infedeltà infidelidade infidelitate 9 infidelities INFIDELIDA infidelite infedelta INFIDELIDADES infidelitatea unfaithfulnes DES infidélités infidelităţii s infidelites infidelitatii unfaithfulnes infidelităţi ses infidelitati infidelităţile infidelitatile infidelităţilor infidelitatilor 3 instability inestabilidad instabilité instabilità instabilidade instabilitate 0 instabilities inestabilidad instabilite instabilita instabilidades instabilitatea es instabilités instabilităţii instabilites instabilitatii instabilităţi instabilitati instabilităţile instabilitatile instabilităţilor instabilitatilor immunität immunitat immunitaet immunitäten immunitaten immunitaeten inkompatibilität inkompatibilitat inkompatibilitaet inkompatibilitäten inkompatibilitaten inkompatibilitaeten unvereinbarkeit unvereinbarkeiten infallibilität infallibilitat infallibilitaet infallibilitäten infallibilitaten infallibilitaeten unfehlbarkeit unfehlbarkeiten inferiorität inferioritat inferioritaet inferioritäten inferioritaten inferioritaeten minderwertigkeit minderwertigkeiten UNTREUE UNTREUEN treulosigkeit treulosigkeiten instabilität instabilitat instabilitaet instabilitäten instabilitaten instabilitaeten unbeständigkeit unbestandigkeit unbestaendigkeit unbeständigkeiten unbestandigkeiten unbestaendigkeiten 3 inviolability 1 inviolabilities 3 irregularity 2 irregularities unevenness unevennesse s inviolabilida d INVIOLABILI DADES inviolabilité inviolabilite inviolabilités inviolabilites inviolabili inviolabilidade t INVIOLABILIDA inviolabili DES ta inviolabilitate inviolabilitatea inviolabilităţii inviolabilitatii inviolabilităţi inviolabilitati inviolabilităţile inviolabilitatile inviolabilităţilor inviolabilitatilor irregularidad irrégularité irregolarit irregularidade iregularitate IRREGULARI irregularite à IRREGULARIDA iregularitatea DADES irrégularités irregolarit DES iregularităţii irregularites a iregularitatii iregularităţi iregularitati iregularităţile iregularitatile iregularităţilor iregularitatilor 3 irresponsibilit irresponsabil 3 y idad irresponsibilit IRRESPONS ies ABILIDADES irresponsabi lité irresponsabi lite irresponsabi lités irresponsabi lites irrespons abilità irrespons abilita irresponsabililid ade IRRESPONSABI LIDADES 3 june 4 junio juin giugno junho 3 knee 5 knees rodilla rodillas genou genoux ginocchio joelho ginocchia joelhos ginocchi 3 KNIFE 6 KNIVES cuchillo cuchillos couteau couteaux coltello coltelli FACA FACAS unverletzlichkeit unverletzlichkeiten unverletzbarkeit unverletzbarkeiten irregularität irregularitat irregularitaet irregularitäten irregularitaten irregularitaeten unregelmäßigkeit unregelmässigkeit unregelmassigkeit unregelmaessigkeit unregelmäßigkeiten unregelmässigkeite n unregelmassigkeite n unregelmaessigkeit en irresponsabilität irresponsabilitat irresponsabilitaet irresponsabilitäten irresponsabilitaten irresponsabilitaeten unverantwortbarkei t unverantwortbarkei ten unverantwortlichkei t unverantwortlichkei ten verantwortungslosi gkeit verantwortungslosi gkeiten iresponsabilitat e iresponsabilitat ea iresponsabilităţ ii iresponsabilitat ii iresponsabilităţ i iresponsabilitat i iresponsabilităţ ile iresponsabilitat ile iresponsabilităţ ilor iresponsabilitat ilor iunie juni junis JUNO genunchi knie genunchiul knies genunchii knie genunchiului KNIEN genunchilor cuţit cutit MESSER cuţite MESSERS cutite MESSERN cuţitul cutitul cuţitele cutitele cuţitului cutitului cuţitelor cutitelor 3 LUNG 7 lungs pulmón pulmon pulmones 3 masculinity 8 masculinities masculinida d MASCULINI DADES 3 monday 9 mondays lunes lundi lundis lunedì lunedi segunda-feira luni segundas-feiras lunea 4 october 0 octubre octobre ottobre outubro 4 parity 1 parities equality equalities igualdad IGUALDADE S paridad PARIDADES égalité egalite égalités egalites parité parite parités parites eguaglian za eguaglian ze uguglianz a uguglianz e parità parita igualdade IGUALDADES paridade PARIDADES 4 2 4 3 poumon poumons polmone polmoni pulmão pulmao pulmões pulmoes plămân plaman plămâni plamani plămânul plamanul plămânii plamanii plămânului plamanului plămânilor plamanilor masculinité mascolini masculinidade masculinitate masculinite tà MASCULINIDAD masculinitatea masculinités mascolini ES masculinităţii masculinites ta masculinitatii masculinităţi masculinitati masculinităţile masculinitatile masculinităţilor masculinitatilor octombrie egalitate egalitatea egalităţii egalitatii egalităţi egalitati egalităţile egalitatile egalităţilor egalitatilor paritate paritatea parităţii paritatii parităţi paritati parităţile paritatile parităţilor paritatilor probability probabilidad probabilité probabilit probabilidade probabilitate probabilities PROBABILID probabilite à PROBABILIDAD probabilitatea likelihood ADES probabilités probabilit ES probabilităţii likelihoods probabilites a probabilitatii probabilităţi probabilitati probabilităţile probabilitatile probabilităţilor probabilitatilor productivity productivida productivité produttivi produtividade productivitate productivities d productivite tà produtividades productivitatea productivene productivida productivité produttivi productivităţii ss des s ta productivitatii productivene productivite productivităţi sses s productivitati productivităţile productivitatile productivităţilo r productivitatilo r lunge lungen männlichkeit mannlichkeit maennlichkeit männlichkeiten mannlichkeiten maennlichkeiten maskulinität maskulinitat maskulinitaet maskulinitäten maskulinitaten maskulinitaeten montag MONTAGES montags MONTAGE MONTAGEN oktober oktobers oktobern egalität egalitat egalitaet egalitäten egalitaten egalitaeten gleichheit gleichheiten gleichstellung gleichstellungen gleichberechtigung gleichberechtigung en parität paritat paritaet paritäten paritaten paritaeten probabilität probabilitat probabilitaet probabilitäten probabilitaten probabilitaeten wahrscheinlichkeit wahrscheinlichkeite n produktivität produktivitat produktivitaet produktivitäten produktivitaten produktivitaeten 4 puberty 4 puberties pubertad pubertades puberté puberte pubertés pubertes pubertà puberta puberdade puberdades pubertate pubertatea pubertăţii pubertatii pubertăţi pubertati pubertăţile pubertatile pubertăţilor pubertatilor responsabilitat e responsabilitat ea responsabilităţi i responsabilitati i responsabilităţi responsabilitati responsabilităţi le responsabilitati le responsabilităţi lor responsabilitati lor sexualitate sexualitatea sexualităţii sexualitatii sexualităţi sexualitati sexualităţile sexualitatile sexualităţilor sexualitatilor singularitate singularitatea singularităţii singularitatii singularităţi singularitati singularităţile singularitatile singularităţilor singularitatilor superioritate superioritatea superiorităţii superioritatii superiorităţi superioritati superiorităţile superioritatile superiorităţilor superioritatilor 4 responsibility responsabili 5 responsibilitie dad s RESPONSAB liability ILIDADES liabilities responsabili té responsabili te responsabili tés responsabili tes responsa bilità responsa bilita responsabilidad e RESPONSABILI DADES 4 sexuality 6 sexualities sexualidad SEXUALIDA DES sexualité sexualite sexualités sexualites sessualità sexualidade sessualita SEXUALIDADES 4 singularity 7 singularities singularidad singularité SINGULARID singularite ADES singularités singularites singolarit singularidade à SINGULARIDAD singolarit ES a 4 superiority 8 superiorities superioridad supériorité SUPERIORID superiorite ADES supériorités superiorites superiorit superioridade à SUPERIORIDAD superiorit ES a 4 thursday 9 thursdays jueves jeudi jeudis giovedì giovedi quinta-feira quintas-feiras JOI JOIA 5 today 0 HOY aujourde hui oggi hoje AZI astăzi astazi pubertät pubertat pubertaet pubertäten pubertaten pubertaeten responsabilität responsabilitat responsabilitaet responsabilitäten responsabilitaten responsabilitaeten verantwortung verantwortungen sexualität sexualitat sexualitaet sexualitäten sexualitaten sexualitaeten einzigartigkeit einzigartigkeiten singularität singularitat singularitaet singularitäten singularitaten singularitaeten superiorität superioritat superioritaet superioritäten superioritaten superioritaeten überlegenheit uberlegenheit ueberlegenheit überlegenheiten uberlegenheiten ueberlegenheiten donnerstag donnerstages donnerstags donnerstage donnerstagen heute 5 truth 1 truths verdad VERDADES vérité verite vérités verites verità verita verdade VERDADES 5 tuesday 2 tuesdays martes MARDI mardis martedì martedi terça-feira terca-feira terças-feiras tercas-feiras 5 uniformity 3 uniformities uniformidad UNIFORMID ADES uniformité uniformite uniformités uniformites uniformit uniformidade à UNIFORMIDADE uniformit S a adevăr adevar adevărul adevarul adevărului adevarului adevăruri adevaruri adevărurile adevarurile adevărurilor adevarurilor marţi MARTI marţea martea uniformitate uniformitatea uniformităţii uniformitatii uniformităţi uniformitati uniformităţile uniformitatile uniformităţilor uniformitatilor 5 universality universalida universalité universali universalidade universalitate 4 universalities d universalite tà UNIVERSALIDA universalitatea UNIVERSALI universalité universali DES universalităţii DADES s ta universalitatii universalite universalităţi s universalitati universalităţile universalitatile universalităţilor universalitatilor 5 university universidad université università universidade universitate 5 universities UNIVERSIDA universite universita UNIVERSIDADE universitatea DES universités S universităţii universites universitatii universităţi universitati universităţile universitatile universităţilor universitatilor 5 wednesday miércoles mercredi mercoledì quarta-feira miercuri 6 wednesdays miercoles mercredis mercoledi quartas-feiras miercurea 5 yellow 7 amarillo amarilla amarillos amarillas jaune jaunes giallo gialla gialli gialle amarelo amarela amarelos amarelas galben galbenă galbena galbeni galbene wahrheit wahrheiten dienstag dienstages dienstags dienstage dienstagen uniformität uniformitat uniformitaet uniformitäten uniformitaten uniformitaeten universalität universalitat universalitaet universalitäten universalitaten universalitaeten universität universitat universitaet universitäten universitaten universitaeten mittwoch mittwoches mittwochs mittwoche mittwochen gelb gelbe gelber gelbes gelben gelbem Allegato 4 : Selezione dei motori di ricerca per lo studio L5 Introduzione I motori di ricerca utilizzati per l'ultimo studio si sono evoluti, mentre altri sono apparsi negli ultimi due anni. Un lavoro sistematico di analisi della compatibilità dei motori disponibili con la metodologia utilizzata per questo studio si è reso necessario. Delle incompatibilità hanno condotto a scartare un certo numero di motori. I motori di ricerca che furono selezionati (si veda il capitolo 4.1.1) sono : AltaVista, Fastsearch (Alltheweb), Google, Infoseek, iWon e Northernlight. Dunque sei motori, indipendenti gli uni dagli altri, anzi anche in concorrenza sul mercato della ricerca per parola chiave su Internet. È apparso che i risultati delle misurazioni di presenza nelle pagine della Rete dei termini del nostro campione variano sensibilmente secondo il motore di ricerca utilizzato. Per tentare di capire questo fenomeno che rischierebbe di squalificare definitivamente la nostra metodologia, dal mese di agosto 2000 è stato fatto uno studio che prende in considerazione i seguenti elementi, suscettibili di avere un'influenza sulla validità dei risultati : - il numero di pagine indicizzate, - il modo in cui vengono selezionate le pagine indicizzate, - la coerenza dei risultati dei conteggi presentati. I risultati per motore e per lingua I risultati qui di seguito segnalati (tabella 16) presentano il totale del numero di pagine Internet che comportano ognuno i 1600 varianti dello studio nell’agosto 2000. La colonna dell'inglese dà il totale di pagine calcolate (in milioni) per motore di ricerca per l'insieme dei termini in inglese. Le cifre contenute nelle altre colonne rappresentano, per ogni lingua, la percentuale, rispetto all'inglese, del numero totale di pagine calcolate. Per esempio, per iWon : 212 milioni di pagine sono state calcolate per i termini in inglese e 2,14 milioni per il portoghese (1,01% di 212). Tabella 16 : Risultati dello studio per i 6 motori di ricerca preselezionati AltaVista Fast Google Infoseek IWon Northern Light Inglese 188 M 147M 210M 37M 212M 145M Spagnolo 9,28% 8,41% 7,86% 2,49% 4,13% 6,32% Francese 9,56% 7,33% 7,33% 3,97% 2,64% 5,26% Italiano Portoghese 4,50% 3,98% 4,60% 3,95% 4,65% 2,82% 2,98% 0,96% 0,69% 1,01% 3,66% 3,50% Romeno 0,19% 0,37% 0,27% 0,03% 0,35% 0,26% Tedesco 16,06% 8,47% 7,89% 5,39% 5,44% 5,23% Come si può constatare, i risultati, al di fuori di quelli di Fast e Google, offrono degli scarti importanti secondo il motore di ricerca utilizzato, il che molto seriamente rimette in discussione la validità del nostro metodo. Si rende dunque necessario analizzare le specificità di ogni motore utilizzato per capire la ragione di questo scarto e anche per determinare quali sono i motori che forniscono dei risultati rigorosi secondo i nostri criteri. Una analisi dei motori di ricerca esige prima di tutto una conoscenza delle caratteristiche quantitative di Internet. Dati relativi a Internet e ai motori di ricerca Qual è il volume della Rete? Si dispone di alcuni dati a questo proposito : Nel gennaio 2000, Inktomi afferma che il web ha superato il miliardo di pagine (che sarebbero state preindicizzate da questo motore). Accessoriamente, Inktomi annuncia la cifra di 86,55% di pagine in inglese e di 2,36% di pagine in francese. Stupisce constatare che il risultato del francese è molto vicino ai valori che troviamo per il motore di ricerca iWon (che utilizza l'indice di Inktomi). Tuttavia, la cifra dell'inglese sembra essere vittima di un errore di referenziale (si veda 4.4.2). Nuova cifra di Inktomi nel maggio 2000 : 1,5 miliardi di pagine. Inktomi sottolinea che la proporzione di pagine replicate in alcuni siti specchio è superiore al 20% (sui 6,5 milioni di server indicizzati si trovavano 1,5 milioni di specchi). Studio di cyveillance search : 2,1 miliardi di pagine nel luglio 2000, con una crescita esponenziale di 7 milioni di nuove pagine al giorno. Questo studio assicura che l'84,7% di pagine sul web sono in inglese. I motori di ricerca con gli indici più ampi. La competizione fa rabbia nel mercato dei motori di ricerca: questo provoca una forte motivazione per l'accrescimento dell'ampiezza degli indici. I leaders nel campo dell'indicizzazione del web attualmente sono : Google : un miliardo di pagine indicizzat227. Webtop : 500 milioni di pagine indicizzate ma non ancora sufficientemente testate. Inktomi : il nuovo indice di Inktomi, GEN3, che non è ancora stato ufficialmente utilizzato dai suoi partner (Hotbot, Snap, iWon), dovrebbe contenere 500 milioni di pagine (contro 110 per il vecchio). Test effettuati da Searchengine Watch (http:www.searchenginewatch.com ) indicano che iWon utilizza già questo indice ampliato. Di fatto, iWon dà dei risultati simili a quelli di Google per quanto riguarda il numero totale di pagine calcolate in inglese. AltaVista : 350 milioni di pagine. Fastsearch : 340 milioni di pagine, con l'obiettivo di giungere a 1 miliardo da qui alla fine dell'anno. Northern Light : 265 milioni di pagine. È importante constatare che i motori indicizzano una proporzione notevole dell'universo che ci interessa (tra il 25 e il 50%) il che rende possibile l'applicazione della nostra metodologia senza troppi intoppi sul piano statistico28. Come vengono indicizzate le pagine? Bisogna notare che tutte le pagine individuate dai motori di ricerca non sono incluse nell'indice. La tabella seguente indica il numero di pagine realmente presenti nell'indice di certi motori in rapporto al volume annunciato dell'universo indicizzato29. AltaVista Fast Excite Inktomi PAGINE ANALIZZATE (milioni) 400 700 920 1000 PAGINE INDICIZZATE (milioni) 250 400 250 110 È interessante capire come viene fatta la riduzione e come questo può colpire la validità dei risultati del nostro studio. Sono stati identificati due diversi approcci : 1. Inktomi : Un indice di base di 110 milioni di pagine selezionate e classificate a partire da una fonte di 1 miliardo di pagine. Il criterio di selezione per l'indice di base è di considerare soltanto le pagine il cui URL è citato in modo più forte (cioè le pagine che sono oggetto del più ampio numero di links esterni). Questa tecnica permette di selezionare le pagine più riconosciute classificandole facilmente per ordine di "celebrità", mantenendo un tempo di risposta debole grazie alla ridotta ampiezza dell'indice di lavoro. Questo approccio assolutamente rispettabile dal punto di vista dell'obiettivo primario dei motori di ricerca è purtroppo squalificante per l'applicazione della nostra metodologia perché la ripartizione statistica delle pagine è falsata da un algoritmo che favorisce certe pagine in modo non neutro sul piano linguistico (le pagine più popolari, dunque più spesso in inglese, avranno una maggiore probabilità di far parte dei 110 milioni di eletti). Questo meccanismo dimostra chiaramente le sue conseguenze per il romeno (i termini romeni hanno dei punteggi stranamente deboli, troppo spesso nulli). 2. AltaVista, Excite, Fast e Google : Un indice più grande con una selezione meno forte e soprattutto indipendente dal contenuto (vengono eliminati solo i siti specchio e quelli che danno degli errori 40130 o 40431). Con questa tecnica, gli indici sono più ampi; se non danno per forza i risultati più coerenti in termini di pertinenza, sono compatibili con la nostra metodologia in quanto non dovrebbero favorire una lingua a discapito di un'altra. Si noti che Google conserva una immagine delle pagine nel momento in cui vengono messe nel suo indice, il che permette di trovare l'informazione anche quando la pagina indicizzata è stata eliminata dalla Rete. 27 Sembra che la metà di queste non siano indicizzate direttamente, ma che sono oggetto di un algoritmo originale che lavora a partire dal testo dei nessi verso queste pagine. Non disponiamo di sufficienti precisazioni sulla natura di questo algoritmo per poter trarre delle conclusioni, ma sembra non essere d’impatto sulle nostre misurazioni. 28 Comunque, non è illecito pensare che per un campione dell’ordine del 25 al 50% dell'universo, possa esistere un verso nella selezione dell’indice che favorisca le lingue più utilizzate, e in primo luogo l’inglese. In particolare, è molto probabile che i siti più nuovi non siano indicizzati tanto velocemente quanto i siti più vecchi e che questo rappresenti un pregiudizio statistico per le lingue giovani in Internet. 29 Le cifre presentate nel paragrafo precedente sono del marzo 2000, mentre queste sono del luglio 2000, il che spiega le differenze. 30 Cioè una pagina ad eccesso limitato, non disponibile al grande pubblico. 31 Cioè una pagina inesistente in un sito referenziato correttamente. Convalida dei motori di ricerca in funzione della nostra metodologia AltaVista AltaVista è, da parecchi anni, uno dei motori di ricerca più utilizzati sul web. Il suo indice resta uno dei più ampi; tuttavia l'utilizzo di questo motore di ricerca nell'ambito del nostro studio non è, ancora una volta32, possibile. Infatti : • AltaVista "mutila i risultati "33. Questa disposizione viene presa da AltaVista per arrivare a ridurre il tempo di risposta nel caso in cui il suo server è sovraccarico (il motore di ricerca può smettere di trattare una ricerca e ne fornisce solo una risultato parziale). • Come in occasione dello studio precedente, non ci è stato possibile stabilire la natura precisa della gestione dei segni diacritici; se c'è una logica non ci è parsa chiara e in queste condizioni è impossibile fare un lavoro serio. • I valori pubblicati per i conteggi cambiano in modo aleatorio; per esempio si può ottenere un numero di pagine diverse per la stessa richiesta se si guardano i risultati da 1 a 10 o da 11 a 20... Infoseek Infoseek ha una ampiezza dell'indice troppo debole per essere utilizzato nell'ambito della nostra metodologia (lo si constata sulle cifre delle pagine in inglese : 36 milioni contro più di 150 per la maggior parte degli altri motori di ricerca). Questa debolezza di indicizzazione dà un vantaggio all'inglese relativamente alle altre lingue presenti su Internet. iWon iWon utilizza lo stesso indice di Hotbot (Inktomi), il motore che avevamo utilizzato nello studio precedente. La tecnica della selezione delle pagine di Inktomi non è compatibile con la nostra metodologia come abbiamo spiegato nel paragrafo precedente. Northern Light Questo motore non è stato utilizzato per il nostro studio perché non tratta i segni diacritici (in particolare, non interpreta correttamente i segni utilizzati dal romeno). Inoltre, ricerca i plurali dei termini sistematicamente quando si fanno delle ricerche in inglese, ma non nelle altre lingue. Google Questo motore, che vanta di avere l’indice più ampio nel Web, dà dei risultati rapidi. In un primo momento, era stato scartato in quanto, come Altavista, troncava i suoi risultati. Dato che questo inconveniente è stato corretto, è stato selezionato per l’ottenimento dei risultati finali. Comunque in occasione del conteggio del giugno 2001, visto che i segni diacritici non venivano più trattati in modo soddisfacente, lo abbiamo scartato di nuovo. Fastsearch Fastsearch, che ha uno degli indici più ampi, dà dei risultati rapidi, non tronca i risultati, né restringe il proprio indice ai siti più popolari e tratta i segni diacritici in modo soddisfacente. Così è stato il motore selezionato per lo studio, in data giugno 2001. Conclusione Il motore di ricerca Fastsearch resta il solo, al momento delle ultime misurazioni (giugno 2001), a permettere di utilizzare il nostro metodo per la misurazione della ripartizione delle lingue sulla Rete e è da questo motore che derivano i risultati finali. Ma il fatto che le cifre prodotte da Fastsearch e da Google fino al gennaio 2001 erano statisticamente molto vicine (gli intervalli di confidenza coincidevano ampiamente) è stato un elemento essenziale per mantenere la fiducia nella validità del nostro. 32 AltaVista era stato scartato in occasione dello studio precedente per le stesse ragioni. Cioè non prende in considerazione una parte delle pagine che rispondono al criterio di ricerca, il che produce una riduzione del valore del conteggio, che dunque non corrisponde più alla realtà. 33 Allegato 5 : Interfaccia di automatizzazione dello studio L5 Introduzione L'ottenimento di risultati nello studio del posto delle lingue latine su Internet passa attraverso un minuzioso lavoro, lungo e ripetitivo di misurazione dei risultati forniti dai motori di ricerca. Infatti, ogni risultato finale (per motore di ricerca) esige un conteggio del numero di pagine contenente ognuno circa 1200 varianti dei 57 termini considerati (1600 da quando è stato aggiunto il tedesco). Questo processo viene seguito attraverso correzioni manuali per le 73 varianti che comportano dei problemi di omografia (in maiuscolo sulla tabella dei termini nell'allegato 3). I risultati ottenuti per ogni variante in seguito vengono raggruppati per termine e si otterranno i 57 punteggi, questi classificati per lingua. Poi si farà la media dei punteggi e si calcolerà il coefficiente per lingua per ottenere il risultato finale. Senza dimenticare certamente la tappa minuziosa della verifica dei risultati di cui alcuni saranno stati senza dubbio falsati da diversi errori di digitazione o di disattenzione dovuti alla successione di operazioni ripetitive... Tutti questi risultati per variante, per termine o finali non sono assolutamente facili da utilizzare, un errore trovato a posteriori nella copiatura di un punteggio necessita il ricalcolo sistematico del suo termine associato come pure il ricalcolo delle statistiche finali. Una automatizzazione di queste procedure manuali era dunque auspicabile. È stato deciso di investire nella programmazione di un algoritmo capace, partendo dalle 1600 forme, di facilitare la loro ricerca attraverso i motori di ricerca, recuperando i conteggi e organizzandoli in modo da poter, dopo la gestione delle correzioni delle omografie, di effettuare l'insieme dei calcoli statistici. Questa automatizzazione permette inoltre di utilizzare parecchi motori di ricerca senza un lavoro supplementare troppo oneroso. Tecnologia utilizzata Per permettere una gestione ottimale del tutto, è stato deciso di utilizzare una struttura di base di dati, quale elemento centrale che articola le differenti applicazioni. Il gestore di base dei dati raccolti è stato PosgreSQL, di uso comune nel mondo di Internet e, per l'interfaccia tra la base di dati e i servizi della Rete, è stato scelto il linguaggio di programmazione PHP. Dettagli del funzionamento del sistema Base dei dati La base dei dati comporta tre tabelle maggiori che sono la struttura del sistema automatizzato : • Tabelle delle 1600 varianti dei termini : in questa tabella sono registrate le diverse varianti del campione. Sono classificate secondo il termine e la lingua alla quale appartengono e registrate con i parametri che sono a loro associati : omografie, ecc. L’allegato 3 è una rappresentazione del contenuto di questa tabella. • Tabella dei punteggi : vi sono conservati tutti i risultati (conteggio delle pagine) recuperati, attraverso l'interfaccia PHP, dei servizi dei motori di ricerca. Questi punteggi sono classificati in funzione delle varianti alle quali si rapportano, e del motore sul quale questo punteggio è stato trovato. • Tabella dei risultati per termine : Una volta introdotte le 1600 varianti nella base nonché i punteggi di ognuno di esse, vengono calcolati i risultati di ogni termine. Questo si fa sommando i punteggi che appartengono allo stesso termine di una stessa lingua. Questi risultati ottenuti (classificati per parola, per motore e per lingua) verranno utilizzati per ottenere i risultati finali e serviranno da ingresso per i calcoli statistici previsti. Il design è aperto grazie al parametraggio della lista delle lingue e dei motori utilizzati. Questa disposizione permette una enorme flessibilità nella misura in cui si può aggiungere a volontà nuovi termini, nuovi motori e nuove lingue. Le interfacce PHP Il software PHP comporta tre tipi di interfacce : Le interfacce di raccolta dei dati Queste interfacce servono a riempire i campi «varianti» e « punteggi » della base di dati. La prima è un'interfaccia utente che serve all'amministrazione per l'introduzione delle varianti e delle loro proprietà associate34. La seconda è un'interfaccia macchina che permette, per ogni motore considerato, di raggruppare i punteggi ottenuti in occasione di una esecuzione del software. I dati raccolti sulla prima intefaccia vengono 34 Lingua, termini associati, problemi di omografia, variante senza diacritici. conservati tra una esecuzione e l’altra; quelli della seconda interfaccia sono volatili, rimpiazzati a ogni esecuzione. I dati che si sostituiscono nel processo vengono naturalmente archiviati. Le interfacce di trattamento dei dati Sono di due tipi: quelle che permettono di modificare la tabella "punteggio" delle varianti e quelle che permettono di calcolare i valori associati a ogni parola. I primi sono utilizzati per correggere i seguenti problemi di omografia : Le distorsioni più frequenti che riguardano le varianti sono i plurali in -idades, comuni allo spagnolo e al portoghese. La ripartizione del conteggio tra lo spagnolo e il portoghese è stata fatta in modo automatico in proporzione ai risultati parziali dello studio. Partendo dai risultati parziali sono stati dedotto dei coefficienti per motore del peso dello spagnolo rispetto al portoghese e questi coefficienti sono stati applicati per ripartire i punteggi delle parole in -idades tra lo spagnolo e il portoghese. C'è un caso di omografia partendo dal romeno (cal e cai, cavallo : omografia di altre parole in spagnolo, italiano, portoghese ...). È per questo che le forme cal e cai non sono state calcolate, il che penalizza il romeno. Inoltre, anche la forma caii è stata eliminata perché omografa di sigle frequenti in Internet. Faca e facas significano rispettivamente coltello e coltelli in portoghese ma sono anche due forme di coniugazione del verbo fare (faça e faças senza diacritici). Il risultato indica è stato calcolato a posteriori utilizzando lo stesso metodo per le parole in -idades basandosi sui coefficienti del portoghese rispetto all’inglese. La forma boli (variante romena de malattia) è una abbreviazione molto frequente di bolígrafo in spagnolo (penna) ed è stato eliminato dal conteggio. Joi (giovedì in romeno) è una parola di tre lettere dunque suscettibile di omografia con delle sigle. Joia è l’omografo del portoghese jóia senza diacritico (gioello). Il risultato indicato è stato calcolato utilizzando lo stesso metodo per le parole in -idades. Marti è l’omografo del nome di un personaggio celebre (José Martí), senza diacritico, e il suo punteggio non è stato contabilizzato per il romeno martedì. Il punteggio di mardi in francese è stato diminuito dal punteggio di mardi gras per non conteggiare questa forma frequente in inglese. Le interfacce del secondo tipo attualizzano la parte "risultati per termini" della base dei dati. Le interfacce di visualizzazione dei risultati La base dei dati utilizzata per raccogliere i risultati contiene : (a) 1600 varianti di termini classificati per termine (57) e per lingua (7) (b) i punteggi di queste 1600 varianti, misurate per 6 motori di ricerca (9600 risultati) (c) i punteggi dei 57 termini, calculati a partire dai 9600 risultati per 6 motori e 7 lingue (2394 risultati). Questi punteggi sono visibili sotto forma assoluta o in proporzione del punteggio dell’inglese. L’accesso a queste informazioni ha richiesto la creazione di interfacce di visualizzazione dei risultati che dovevano rispettare queste due condizioni : • • permettere di ottenere dei risultati rapidi e mirati per l’insieme delle informazioni disponibili disporre di risultati attualizzati ogni volta che viene fatta una modifica nella base dei dati. L’interfaccia che permette di accedere ai risultati (a) ha permesso di generare la tabella dell’allegato 3. I risultati di (b) sono disponibili nell’allegato 8, e quelli di (c) nell’allegato 9. L’interfacccia dell’allegato 9 calcola anche la media, lo scarto tipo e il coefficiente di varianza dei risultati quando le percentuali sono visualizzate. Sono anche i risultati ottenuti da questa interfaccia che permettono di illustrare le caratteristiche dei motori di ricerca (allegato 4). Conclusione e piano per la prossima versione Questo sistema presenta un miglioramento vero sulla metodologia manuale. Trasforma una operazione lenta e noiosa che richiedeva 10 giorni di lavoro per 1200 varianti e un solo motore di ricerca in un lavoro di 2 giorni per 1600 varianti e 6 motori di ricerca, con dei risultati più facili da utilizzare. Questo sistema permette inoltre l’integrazione facilitata di altre lingue da studiare, di altri campioni linguistici o di altri motori di ricerca. Questa facilità ci permette di prevedere l’aggiunta di nuove funzionalità in avvenire per quanto riguarda la base di dati e le interfacce. Un controllo regolare e datato dei risultati permetterà una analisi dinamica dell'evoluzione della presenza delle lingue latine in Internet e trasformare così questo studio in un vero osservatorio che permette queste evoluzioni. Questi risultati possono anche permettere di valutare il modo in cui ogni motore tratta il plurilinguismo di Internet. Allegato 6 : Risultati delle misurazioni della graduatoria per lingua di Fastsearch e comparazione Tabella 17 : Risultati della graduatoria per lingua di Fastsearch e comparazione35 Fastsearch 2000 Afrikaans Albanese Fastsearch % total relatif % total 2001 2000 relatif 2001 0,06 0% 0,01% % total absolu 0,01% % inglese 0% 0,01% 0,01% 0,01% 22,24 42,15 6,81% 7,57% 7,33% 12,58% Inglese 220,78 335,04 67,63% 60,20% 58,27% 100 % Arabo 0,16 0,57 0,05% 0,10% 0,10% 0,17% Basco 0,04 0,05 0,01% 0,01% 0,01% 0,01% 0,03 0, % 0,01% 0,01% 0,01% Bulgaro 0,06 0,16 0,02% 0,03% 0,03% 0,05% Catalano 0,52 0,75 0,16% 0,13% 0,13% 0,22% 4,9 20,57 1,50% 3,70% 3,58% 6,14% 6,30 0% 1,13% 1,10% 1,88% 9,81 1,49% 1,76% 1,71% 2,93% 0,45 0% 0,08% 0,08% 0,13% Cinese semplificato Cinese tradizionale Coreano 4,87 Croato Danese 1,63 2,89 0,50% 0,52% 0,50% 0,86% Spagnolo 8,92 15,98 2,73% 2,87% 2,78% 4,77% Estone 0,20 0,48 0,06% 0,09% 0,08% 0,14% 0,02 0, % 0% 0% 0,01% 1,33 2,64 0,41% 0,47% 0,46% 0,79% 10,66 19,15 3,27% 3,44% 3,33% 5,72% Frisone 0 0% 0% 0% 0% Gallego 0,01 0% 0% 0% 0% Gallese 0,39 0,00% 0,07% 0,07% 0,12% delle isole Feroë Finlandese Francese Greco 0,31 0,66 0,09% 0,12% 0,11% 0,20% Ebraico 0,21 0,30 0,06% 0,05% 0,05% 0,09% Ungherese 0,57 1,36 0,17% 0,24% 0,24% 0,41% Indonesiano 0,76 0% 0,14% 0,13% 0,23% Islandese 0,15 0,25 0,05% 0,04% 0,04% 0,07% Italiano 5,67 10,77 1,74% 1,93% 1,87% 3,21% 19,33 37,40 5,92% 6,72% 6,50% 11,16% 0,03 0% 0,01% 0,01% 0,01% Giapponese Latino Lettone 0,07 0,10 0,02% 0,02% 0,02% 0,03% Lituano 0,11 0,16 0,03% 0,03% 0,03% 0,05% 0,17 0% 0,03% 0,03% 0,05% Malese L5 (2001) total L4 (1998) total 0,02% 0,03 Tedesco Bielorusso L5 (2001) % inglese 13,4% 6,97% 52% 75% 10,95% 5,69% 2,53% 8,86% 4,61% 2,81% 5,88% 3,06% 1,50% Olandese 3,77 6,83 1,15% 1,23% 1,19% 2,04% Norvegese 1,44 2,62 0,44% 0,47% 0,46% 0,78% Polacco 1,08 3,36 0,33% 0,60% 0,58% 1% Portoghese 5,03 9,04 1,54% 1,62% 1,57% 2,70% 5,40% 2,81% 0,82% Rumeno 0,14 0,22 0,04% 0,04% 0,04% 0,07% 0,32% 0,17% 0,15% Russo 7,04 12,76 2,16% 2,29% 2,22% 3,81% 0,69 0% 0,12% 0,12% 0,21% Slovacco Sloveno 0,14 0,40 0,04% 0,07% 0,07% 0,12% Svedese 3,33 5,11 1,02% 0,92% 0,89% 1,53% Ceco 1,21 3,50 0,37% 0,63% 0,61% 1,04% 0,95 0% 0,17% 0,17% 0,28% Tai Turco 1,15 0,16% 0,21% 0,20% 0,34% Ucraino 0,30 0% 0,05% 0,05% 0,09% Vietnamita 0,17 0% 0,03% 0,03% 0,05% Totale relativo Totale stimato 35 0,52 326,43 556,59 340 575 (Cifre annunciate da Fastsearch) Questa tabella non tiene conto delle pagine plurilingue. Allegato 7 : Criteri di selezione dei termini La tabella sottostante precisa l'insieme dei criteri considerati per procedere alla selezione dei termini del campione. Si tratta di criteri di filtraggio per l'accettazione di un termine. Per arrivare ai 57 termini di campione, alcuni di loro sono stati scartati. Tabella 18 : Criteri di selezione linguistica dei termini del campione CRITERIO Neutralità culturale DEFINIZIONE Proprietà di una parola in relazione con la sua frequenza di comparsa nel linguaggio in funzione della cultura. L'ortografia di un termine in una lingua è identico a quella di un termine in un'altra lingua. Questo riguarda anche le grafie identiche relativamente ai cosiddetti "falsi amici ". ESEMPI METODO COMMENTI Per ottenere un campione Vin, parfum, gastronomie(vino, con il coefficiente di profumo, varianza più debole, gastronomia) e i vengono scartati i termini del linguaggio termini non diplomatico non sono culturalmente neutri. culturalmente neutri in francese. Esempio di grafia Rifiutare dal campione i Vengono prese in Omografia identica : casa in termini che presentano considerazione solo le interlinguistica spagnolo, portoghese, questa caratteristica (con omografie tra le lingue italiano. Esempi di o senza diacritici). dello studio e/o con falsi amici: red in lingue molto presenti in spagnolo (rete), red in Internet (come il inglese (rosso) ; hier tedesco). Per evitare il in francese (ieri) e hier rischio statistico di in tedesco (qui). omografia con delle lingue estranee allo studio, vengono scartate le parole con meno di quattro lettere. Quando una Gli anglicismi come Rifiuto del campione dei Omografia business, sandwich o termini. interlinguistica da parola di una lingua viene software; deja vu in prestito accettata così inglese (omografo del com'è in un'altra francese senza lingua. diacritici). Sept (sette) in Evitare questi termini. Siamo relativamente Omografia con una protetti dalla nostra francese.con le abbreviazione decisione di evitare le abbreviazioni di septembre e parole di meno di quattro soprattutto September lettere. (inglese). Julio, luglio in Rifiutare i termini di Omografia con un spagnolo, e il nome di questa categoria nome proprio persona spagnolo frequente molto frequente con lo stesso significante. Windows significa finestra in inglese.... ma è anche il nome di un software molto citato nello spazio Internet. Pseudo- omografia La scrittura di un Ambasador in romeno Il caso viene rifiutato termine con un e amba(s)sador in soltanto se la lingua interlinguistica comune errore inglese. bersaglio è l'inglese. d'ortografia corrisponde a un termine in un'altra lingua. Prix in francese Evitare questi termini o, Significati non signifia sia premio che se possibile, stare attenti equivalenti precio (spagnolo), a confrontarli includendo price e prime tutti i significanti che (inglese): premio e completerebbero un prezzo. significato equivalente nelle lingue in cui è necessario. Questa caratteristica Morfosintassi non L'inglese, molto Love in inglese è sia Evitare questi termini. diverso dal punto una termine che dell'inglese ci fa rifiutare equivalente : di vista sintattico significa amore che il a priori i verbi nome, verbo dalle altre lingue verbo amare : studiate, ha spesso all'infinito, al presente la stessa forma dell'indicatico (amo, come nome e ami, amiamo, amate, variante verbale, amano), ecc. equivalente questa ultima a parecchie forme della coniugazione nelle altre lingue. L'aggettivo inglese Stare attenti a Gli aggettivi, Morfosintassi non invariabili in yellow corrisponde moltiplicare le varianti equivalente : inglese, variano in giallo / gialla / gialli nel genere, numero e aggettivi e nomi genere e numero / gialle. La parola caso nelle altre lingue, nelle altre lingue inglese instability / quando lo esige il studiate. I nomi, instabilities bisogno di equivalenza. che in generale corrisponde alle non variano nelle varianti romene : altre lingue, instabilitate / variano anche instabilitatea / secondo il caso instabilităţii / (nominativo, instabilităţi / genitivo, ecc.) e instabilităţile / instabilităţilor (non nel caso includiamo qui le determinato, indeterminato in varianti senza diacritici). romeno. Fare attenzione a Quando una Secondo il paese Pluricentrismo moltiplicare le varianti lessico e semantica lingua ha più di un ispanofono, si dice centro normativo nafta oppure gasolina sinonimiche nazionali o lessico-semantico. (benzina). Americano, regionali per le equivalenze, quando è in alcuni paesi possibile. ispanofoni dell'America latina, non ha lo stesso senso che nelle altre lingue o in Spagna ("appartenenti all'insieme del continente" o "appartenenti agli Stati Uniti "). Quando una È il caso dell'inglese e Stare attenti a Pluricentrismo moltiplicare le varianti lingua ha più di un in particolare del ortografico centro normativo portoghese. Alcuni ortografiche nazionali ortografico. termini si scrivono in per le equivalenze, quando è possibile. modo diverso negli Stati Uniti e in Inghilterra (theater e theatre), in Portogallo e in Brasile (electricidade e eletricidade). LUGAR DAS LÍNGUAS LATINAS NA INTERNET EDIÇÃO 2001 Estudo proposto por: Funredes (Associação Redes & Desenvolvimento) http://funredes.org União Latina http://www.unilat.org Realizado entre agosto de 2000 e junho de 2001 Direitos autorais e editoriais ©, 2000-2001, Funredes, União Latina. SUMÁRIO 1- PROLOGO E ANTECEDENTES .........................................................................................................................4 2. AUTORES................................................................................................................................................................5 3. APRESENTAÇÃO GERAL DO ESTUDO E DE SEUS RESULTADOS..........................................................6 3.1 METODOLOGIA .....................................................................................................................................................6 3.2. SINTESE COMENTADA DOS RESULTADOS ........................................................................................................6 3.2.1. Resultados relativos com relação ao inglês...........................................................................................6 3.2.2 Resultados absolutos ....................................................................................................................................6 3.3. RELAÇÃO ENTRE O NUMERO DE LOCUTORES E SUA PRESENÇA NA WEB ...............................................................7 3.4. VITALIDADE DA PRODUÇÃO DE INFORMAÇÃO PELOS INTERNAUTAS CONFORME AS LINGUAS ..............................8 4. DETALHE DOS RESULTADOS.........................................................................................................................10 4.1 METODOLOGIA INTERNET...................................................................................................................................10 4.1.1. Identificação dos principais motores de busca disponíveis na Web e pré-seleção..............................10 4.1.2 Validação dos motores selecionados em função da metodologia empregada. ...........................................10 4.1.3 Seleção final dos motores de busca para a aplicação da metodologia ......................................................11 4.2. METODOLOGIA LINGÜISTICA ........................................................................................................................11 4.2.1 Novos problemas apresentados pelo alemão..............................................................................................11 4.2.2 Outras problemáticas .................................................................................................................................12 4.3. METODOLOGIA ESTATISTICA ........................................................................................................................12 4.3.1. Resultados das medidas com os motores de busca pré-selecionados ..................................................12 4.3.2. Cálculos estatísticos dos resultados relativos ao inglês ......................................................................12 4.3.3. Cálculos dos resultados absolutos.......................................................................................................13 4.4. COMPARAÇÃO COM OUTROS ESTUDOS..........................................................................................................14 4.4.1. Comparação com os estudos anteriores ..............................................................................................14 4.4.2. Comparação com estudos similares (Alis e Inktomi).................................................................................14 5. TENDENCIA NA EVOLUÇÃO DAS LINGUAS ESTUDADAS .................................................................16 6. PERSPECTIVAS PARA UM ACOMPANHAMENTO DA OBSERVAÇÃO.............................................17 7. REFERENCIAS, EM INTERNET, DOS TRABALHOS CONEXOS..........................................................18 ANEXO 1: RECAPITULATIVO E REFERENCIAS DOS DIVERSOS ESTUDOS REALIZADOS PELOS AUTORES..................................................................................................................................................................19 ANEXO 2: VISUALIZAÇÃO DOS INTERVALOS DE CONFIANÇA PARA OS RESULTADOS POR LINGUA .....................................................................................................................................................................21 ANEXO 3: LISTA DOS TERMOS DA AMOSTRA DE REFERENCIA ............................................................22 ANEXO 4: SELEÇÃO DOS MOTORES DE BUSCA PARA O ESTUDO L5 ...................................................34 INTRODUÇÃO ............................................................................................................................................................34 RESULTADOS POR MOTOR E POR LINGUA ..................................................................................................................34 Dados relativos a Internet e aos motores de busca ............................................................................................35 Validação dos motores de busca em função de nossa metodologia ..................................................................36 CONCLUSÃO .............................................................................................................. ERREUR ! SIGNET NON DEFINI. ANEXO 5: INTERFACE DE AUTOMATIZAÇÃO DO ESTUDO L5 ................................................................38 INTRODUÇÃO ............................................................................................................................................................38 TECNOLOGIA UTILIZADA ..........................................................................................................................................38 DETALHES DE FUNCIONAMENTO DO SISTEMA ...........................................................................................................38 Base de dados ......................................................................................................................................................38 Interfaces PHP....................................................................................................................................................39 CONCLUSÃO E PLANO PARA A PROXIMA VERSÃO ......................................................................................................40 ANEXO 6: RESULTADOS DAS MEDIDAS DE CLASSIFICAÇÃO POR LINGUA DE FASTSEARCH E COMPARAÇÃO .......................................................................................................................................................41 ANEXO 7: CRITERIOS DE SELEÇÃO DOS TERMOS .....................................................................................43 ANEXO 8: RESULTADO DA CONTAGEM DE CADA VARIANTE POR TERMO E POR MOTOR ver (páginas em construção, em françês) ANEXO 9: RESULTADO DA CONTAGEM DOS TERMOS POR MOTOR ver (páginas em construção, em françês) Referências das tabelas Tabela 1: Médias das línguas latinas (e do alemão) com relação ao inglês ...................................................................6 Tabela 2: Presença absoluta das línguas estudadas na Web ..........................................................................................7 Tabela 3: Peso das línguas estudadas (cifras arredondadas em milhões) ......................................................................8 Tabela 4: Presença ponderada das línguas estudadas no espaço WWW .......................................................................8 Tabela 5: Número de internautas classificados por língua (em milhões) ......................................................................8 Tabela 6: Produtividade dos locutores...........................................................................................................................9 Tabela 7: Detalhes sobre os resultados estatísticos......................................................................................................12 Tabela 8: Hipótese de progressão do peso das línguas estudadas................................................................................13 Tabela 9: Evoluções das relações entre o peso do francês, do inglês e do espanhol ...................................................14 Tabela 10: Resultados do estudo de Inktomi (fevereiro de 2000) ...............................................................................15 Tabela 11: Resultados do Fastsearch em agosto de 2000, janeiro de 2001, junho de 2001........................................16 Tabela 12: Tendências da evolução ............................................................................................................................16 Tabela 13: Recapitulativo e referências dos diversos estudos realizados pelos autores ..............................................19 Tabela 14: Visualização dos intervalos de confiança ..................................................................................................21 Tabela 15: Lista dos termos da amostra de referência .................................................................................................22 Tabela 16: Resultados do estudo relativo aos 6 motores de busca pré-selecionados...................................................34 Tabela 17: Resultados da classificação por língua de Fastsearch e comparação .........................................................41 Tabela 18: Critérios de seleção lingüística dos termos da amostra..............................................................................43 1- Prólogo e antecedentes Este estudo dá seguimento aos trabalhos realizados pela Funredes entre 1995 e 19981 sobre o lugar das línguas e culturas latinas na Web, sendo que esta edição concentra-se no estudo das línguas. O princípio metodológico de base, que mostrou sua solidez quando da edição anterior, foi conservado. Trata-se de proceder à medição, em certos espaços da Internet2, da quantidade de menções ou ocorrências de 57 palavras ou termos cada um deles tendo um significado e um alcance equivalentes nas línguas estudadas (espanhol, francês, inglês, italiano, português, romeno) e de analisar e comparar, a seguir, os resultados para, a partir do método estatístico, chegar a porcentagens de presença de cada uma delas. Uma primeira extensão do estudo ao alemão (com a intenção de ampliar, posteriormente, a outras línguas) começou a ser considerada. O ambiente dos motores de busca evoluiu muito desde o estudo realizado anteriormente, o que levou a uma análise das implicações das mudanças em nossa metodologia e das melhorias sensíveis verificadas com relação aos trabalhos anteriores. • • • Aplicação de vários motores de busca a partir dos quais foi feita uma seleção ponderada com o objetivo de obter os resultados mais rigorosos possíveis. Automatização da contagem e dos cálculos a partir de um software que funcionava como interface entre os termos a serem medidos, organizados em bases de dados, e os motores de busca. No futuro, este investimento possibilitará a publicação dos resultados em intervalos regulares, constituindo, assim, um verdadeiro observatório. Sistematização do processamento das homografias interlingüísticas através de uma administração automatizada, mais sólida no plano metodológico. Por outro lado, certos erros involuntários, encontrados em algumas ocorrências da amostra, foram corrigidos3. Além disso, um primeiro passo foi dado para a ampliação do estudo ao alemão, sem mudar, por enquanto, o método de pesquisa dessas ocorrências e estabelecendo resultados claramente menos precisos que os de outras línguas4. Referências serão feitas nas etapas anteriores deste estudo. Para ajudar o leitor, uma síntese dos procedimentos e resultados anteriores, com links em Internet associados, permitirá o acesso aos documentos correspondentes no anexo 1. 1 Com o apoio da Agence de la Francophonie para a quarta edição e em colaboração com a União Latina a partir da terceira edição. 2 Nesta edição, só o espaço Web foi considerado (páginas da Web). O espaço Usenet não foi considerado. 3 Trata-se de erros menores que não provocaram um desvio importante com relação aos resultados publicados no estudo anterior. 4 A forma de composição das palavras em alemão faz com que a busca, tal como ela é feita para as outras línguas, apresente valores abaixo da realidade lingüística. Os resultados aqui apresentados, com as correções introduzidas em aumento, ainda são aproximativos. Os problemas apresentados pela adaptação de nossa metodologia ao alemão são detalhados no capítulo 4.2.1. 2. Autores A equipe de trabalho do estudo foi formada da seguinte maneira: Coordenação geral: Organizador do estudo: Supervisão lingüística: Responsável lingüístico: Equipe lingüística: Automatização das medidas e cálculos estatísticos5: 5 Daniel Pimienta ([email protected]) Benoit Lamey ([email protected]), sob a direção de Daniel Pimienta Daniel Prado ([email protected]) Marcelo Sztrum ([email protected]) Diretoria de Terminologia e Indústrias da Língua da União Latina Benoit Lamey ([email protected]) Com um cordial agradecimento a Roger Price por seu apoio a distância. 3. Apresentação geral do estudo e de seus resultados 3.1 Metodologia Os resultados são obtidos conservando-se a metodologia utilizada desde 1998. Primeiramente, procedeu-se a uma seleção de 57 termos por língua, cada um deles com suas variantes ortográficas, conforme a presença ou não de sinais diacríticos, sinonímicas, dialetais ou morfossintáticas, tendo um significado e um alcance equivalentes nas línguas estudadas (detalhes dos critérios lingüísticos: ponto 4.2 e anexo 7). A seguir, tratou-se de analisar e comparar os resultados para deles deduzir, através do método estatístico, porcentagens de presença de cada uma das línguas. Para cada termo, a relação das línguas latinas ao inglês é utilizada como variável aleatória e as técnicas da estatística são aplicadas tendo-se como hipótese uma distribuição matemática corrente desta variável aleatória (a curva de Gauss, também chamada de distribuição "normal"). Os resultados apresentados a seguir foram obtidos a partir da síntese dos pontos anotados nos dois motores de busca que satisfizeram os critérios de seleção descritos no anexo 4. Todas as medidas levadas em conta neste estudo foram efetuadas entre agosto de 2000 e junho de 2001. . 3.2. Síntese comentada dos resultados 3.2.1. Resultados relativos com relação ao inglês O quadro a seguir apresenta a relação média entre cada língua latina (com o alemão) e o inglês, obtida através da medição da ocorrência dos termos no espaço Web, efetuada em junho de 2001. Tabela 1: Médias das línguas latinas (e do alemão) com relação ao inglês ESPANHOL 10,95% FRANCÊS 8,86% ITALIANO PORTUGUÊS 5,88% 5,40% ROMENO 0,32% ALEMÃO > 13,42% estimado6 3.2.2 Resultados absolutos Os resultados que acabam de ser citados permitem avaliar a presença das línguas latinas e, aproximadamente, do alemão com relação ao inglês; para numerar a presença absoluta destas línguas no espaço Web, é necessário 6 Nesta versão do estudo, há uma diferença de qualidade entre os resultados obtidos no tocante ao alemão e às outras línguas. Com efeito, a formação das palavras em alemão, muito diferente com relação às outras línguas estudadas até agora, o "sancionaria" sobremaneira se só olhássemos os resultados obtidos ao solicitar aos sistemas uma busca "por palavra isolada" ou separada, ou seja, sem nenhum contexto antes ou depois. Para chegar a obter resultados tão fiáveis quanto os estabelecidos para as outras línguas, seria necessário, num segundo momento, prever buscas "por palavra não isolada" (com contexto antes e depois) valendo-se, por outro lado, e na medida do possível, de um fator numérico que exprima a diferença na quantidade de palavras separadas entre as outras línguas do estudo e o alemão. Nossa solução foi conservar a amostra original, ampliando-a com a mesma metodologia lingüística a 57 termos alemães equivalentes e buscando, ainda, por palavra isolada. Uma correção de pelo menos 30 % em aumento com relação aos resultados assim obtidos, pareceu-nos necessária para começarmos a nos aproximar desta realidade lingüística. A cifra de 13,42% é obtida ao aplicar um aumento de 30% ao primeiro resultado bruto de 10,32%. construir anteriormente uma hipótese sobre a presença absoluta do inglês. O quadro abaixo mostra os valores de presença absoluta, estabelecidos a partir das médias para diversas hipóteses de presença do inglês. Tabela 2: Presença absoluta das línguas estudadas na Web Se INGLÊS = então ESPANHOL = 65% 7,12% 60% 6,57% 55% 6,02% 52% 5,69% 50% 5,48% 45% 4,93% 40% 4,38% então FRANCÊS = 5,76% 5,32% 4,87% 4,61% 4,43% 3,99% 3,54% então ITALIANO = então PORTUGUÊS = 3,82% 3,51% 3,53% 3,24% 3,23% 2,97% 3,06% 2,81% 2,94% 2,70% 2,65% 2,43% 2,35% 2,16% então ROMENO = 0,21% 0,19% 0,18% 0,17% 0,16% 0,14% 0,13% 8,71 % 5,83% 8,04% 13,10% 7,37% 20,35% 6,97% 24,96% 6,70% 27,59% 6.03% 34,83% 5,37% 42,07% 7 então ALEMÃO = Restaria, assim, um espaço para as outras línguas Este quadro apresenta-nos uma idéia mais precisa do peso absoluto das línguas estudadas com relação ao conjunto das páginas apresentadas na Web. Um dos indicadores mais significativos é o do espaço disponível para as línguas restantes que nos permite selecionar a hipótese de uma presença absoluta do inglês que se aproxima de 52% como sendo a mais provável. Para tal, basta considerar o chinês e o japonês que, provavelmente, têm um peso da mesma ordem que o do alemão ou do espanhol (entre 5 e 8%), assim como o das línguas que representam entre 0,5% e 2% (coreano, neerlandês, russo e as quatro línguas escandinavas num total entre 8 e 10%), o das línguas cuja presença é muito escassa, como o romeno (a saber, uma dezena de línguas a 0,1% para um total de 1%) e, finalmente, as línguas muito numerosas cuja presença continua sendo marginal. Esta última proporção é a mais difícil de estimar; tomando-se em consideração a hipótese de 200 línguas a 0,01%, atingiríamos um total de 2%... Um dos grandes mistérios, cujas conseqüências deverão ser avaliadas no futuro, é a possível multiplicação das línguas em Internet, sendo que o total das línguas existentes atualmente é calculado entre 3.000 e 6000… Estas estimações nos levam a um peso total de 25% para as línguas não estudadas e a defender a hipótese de uma presença absoluta de 52% para o inglês. Esta estimação de 25% para o peso das línguas não consideradas diretamente no estudo é reforçada pela evolução dinâmica de seu peso descrita detalhadamente no capítulo 4.3.3. 3.3. Relação entre o número de locutores e sua presença na Web Obviamente, os valores de presença absoluta não são um indicador perfeito do vigor de uma língua nas redes. Para obter um resultado significativo, seria conveniente proporcionar os valores que exprimem a presença das línguas em Internet por sua própria presença no mundo real. A presença relativa dessas línguas é calculada sem levar completamente em conta o fator "plurilingüismo". Este método comporta inconvenientes metodológicos que foram descritos quando do estudo L4. 7 Resultados majorados em 30% (ver nota 6). Tabela 3: Peso das línguas estudadas (cifras arredondadas em milhões) Inglês Presença absoluta (número de locutores) Presença relativa (porcentagem mundial) Espanhol Francês Italiano Português Romeno Alemão 630 375 130 60 190 30 120 10,50% 6,25% 2,17% 1% 3,17% 0,50% 2% Tabela 4: Presença ponderada das línguas estudadas no espaço WWW INGLÊS ESPANHOL Presença absoluta 2001 52% 5,69% Presença ponderada 1998 7,14 0,40 Presença ponderada 2000 5,71 0,78 Presença ponderada 2001 4,95 0,91 FRANCÊS 4,61% 1,30 2,02 2,12 ITALIANO PORTUGUÊS 3,06% 2,81% 1,50 0,26 2,77 0,68 3,06 0,88 ROMENO 0,17% 0,30 0,38 0,34 8 3,499 ALEMÃO Não disponível 6,97% 3,15 Um quociente igual a 1 deve ser considerado como um resultado "normal"; se inferior a 1, como inexpressivo e se superior a 1, como um resultado respeitável. Forte progressão do espanhol e, sobretudo, do português, ainda que ambas continuem abaixo do limite de uma representação "normal". Excelente resultado do alemão e do italiano e bom resultado do francês. 3.4. Vitalidade da produção de informação pelos internautas conforme as línguas Um estudo Global Reach, cujos últimos resultados datam de 31 de março de 2001, (http//:www.glreach.com) propõe um valor para o número de usuários de Internet por língua: Tabela 5: Número de internautas classificados por língua (em milhões) Inglês Espanhol Francês Italiano Portuguê s Romeno Alemão Outras 215,6 20,4 16,6 14,2 11,5 0,6 27,5 146,2 Repartição em 47,6% % 4,5% 3,7% 3,1% 2,5% 0,13% 6,1% 32,2% Internautas (em milhões) Ao relacionar estes resultados com os obtidos por nosso estudo (ver tabela 6), deveria ser possível chegar à dedução de quais são os segmentos lingüísticos que produzem maior quantidade de informação na Web. 8 9 Resultados majorados em 30% (ver nota 6). Resultados majorados em 30% (ver nota 6). Tabela 6: Produtividade dos locutores Páginas INGLÊS 52% Internautas 47,6% P/I 1,09 ESPANHOL FRANCÊS 5,69% 4,61%% 4,5% 3,7% 1,26 1,25 ITALIANO 3,06%% 3,1% 0,98 PORTUGUÊS ROMENO 2,81%% 0,17%% 2,5% 0,13% 1,12 1,31 ALEMÃO 6,97%%10 6,1% 1,14 Obtemos um resultado bastante importante: as proporções por língua das páginas disponíveis na Web e a dos Internautas presentes têm a mesma ordem de grandeza! A relação porcentagem de páginas / porcentagem de usuários se situa por volta de 1 para todas as línguas estudadas11, o que mostra que, hoje em dia, a quantidade de páginas da Web produzidas numa língua é diretamente proporcional ao número de internautas que praticam esta língua. O resultado do inglês surpreende: poderíamos esperar um valor muito mais elevado sob a influência do plurilingüismo12. O que poderia significar que a produtividade dos locutores de língua inglesa é inferior à dos locutores nas outras línguas mencionadas, prova de uma recompensa à produção das populações de locutores de outras línguas ocidentais, conscientes dos desafios lingüísticos da Internet ? Seria muito interessante conhecer estes mesmos valores para as línguas mais recentes em Internet... 10 Resultados majorados em 30% (ver nota 6). Os desvios são inferiores a 25% em valor absoluto e podemos dificilmente tirar conclusões sobre estas inexpressivas variações que se encontram provavelmente dentro dos intervalos de confiança das cifras anunciadas por Global Reach, cifras estas que não beneficiam de uma metodologia padrão para todas as línguas. 12 A proporção de locutores de línguas diferentes do inglês que produzem páginas em inglês (ou traduzem também suas páginas em inglês) é, como sabemos, muito elevada. 11 4. Detalhe dos resultados 4.1 Metodologia Internet A evolução acelerada dos motores de busca que indexam o conteúdo da Web, desde nosso último estudo, exigiu um trabalho suplementar e um novo questionamento em profundidade sobre a metodologia Internet utilizada a fim de obter nossos resultados. Este trabalho passou por três etapas: Identificação dos principais motores de busca disponíveis e realização de uma pré-seleção. Verificação de seu comportamento no tocante às contagens13. Seleção dos motores que oferecem as melhores garantias para a aplicação de nossa metodologia. 4.1.1. Identificação dos principais motores de busca disponíveis na Web e pré-seleção. Quando desta primeira etapa, foram identificados os seguintes motores: AltaVista, Excite, Fastsearch14, Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo e Webtop. Webtop, o mais recente motor, ainda não foi suficientemente testado para que pudéssemos correr o risco de o incorporar. Hotbot, Lycos e Yahoo foram descartados porque trabalham como parceiros diretos de outros motores de busca, fornecendo os mesmos resultados: Lycos utiliza o índex de Fastsearch, e Yahoo, o de Google. Hotbot e iWon partilham o mesmo índex, que lhes é fornecido por Inktomi. Hotbot, que havia sido nosso escolhido quando do estudo anterior, infelizmente não pôde ser retomado porque já não indica os resultados de contagem. Inktomi não oferece os serviços de seu índex diretamente aos usuários: resta-nos, então, iWon. Quanto ao Excite, não pôde ser utilizado porque, como o Hotbot, não fornecia resultados de contagem no momento das medidas15. Assim, restringimo-nos aos seis motores restantes: AltaVista, Fastsearch, Google, Infoseek, iWon e Northern Light. 4.1.2 Validação dos motores selecionados em função da metodologia empregada. Uma automatização do processo de medição, cujos detalhes são descritos no anexo 5, possibilitou a produção dos resultados para os 6 motores de busca pré-selecionados, tratando cada um as quase 1.600 variantes dos 57 termos por língua. Os resultados obtidos mostraram grandes divergências entre os motores e produziram não menores inquietações quanto à solidez de nossa metodologia! Sem dúvida, era necessário um esforço de análise dos motores de busca utilizados para explicar essas divergências e saber quais os motores que ofereciam os resultados de maior credibilidade. Vários critérios foram definidos para validar a utilização de um motor de busca para o presente estudo. Um motor de busca, para poder servir de ferramenta para a aplicação de nossa metodologia, deve possuir as seguintes características: um índex suficientemente grande em relação ao tamanho da Web, levar em consideração, de maneira coerente, os sinais diacríticos, oferecer resultados coerentes no tocante à contagem das páginas encontradas, 13 É preciso compreender que os resultados de contagens são totalmente anexos à função principal dos sistemas que é de identificar as páginas que contenham os termos da busca, numa ordem de relevância máxima. Certos sistemas apresentam os valores do número total de páginas que respondem ao critério de busca, enquanto que outros não o fazem. Em todo caso, é preciso tomar muitas precauções para verificar corretamente a fiabilidade dos dados de contagem fornecidos. 14 Também conhecido pelo nome de Alltheweb. 15 Este defeito já foi corrigido; assim, os resultados de Excite serão examinados na próxima versão deste estudo, caso esta função se mantenha. dispor de um índex que seja homogêneo com relação às línguas. Os resultados obtidos por cada motor, os detalhes de sua seleção, bem como outras informações gerais sobre os motores de busca encontram-se no anexo 4. 4.1.3 Seleção final dos motores de busca para a aplicação da metodologia Do conjunto de motores pré-selecionados, apenas dois, Google e Fastsearch, foram escolhidos para servir de suporte a um estudo sobre a presença das diferentes línguas na rede no momento das primeiras medições, em agosto de 2000. Nesse primeiro momento, os resultados dos dois motores foram usados conjuntamente para a obtenção dos resultados finais. A proximidade de cada um dos resultados, obtidos através de índice e de técnicas de pesquisa diferentes, pareceu-nos, por outro lado, um bom sinal para a validade de nossa metodologia. Google Fast Inglês 210 147 16 Espanhol 7,86% 8,41% Francês 7,33% 7,33% Italiano 4,65% 4,60% Português 2,82% 3,95% Romeno 0,27% 0,37% Alemão 7,89% 8,47% 17 Contudo, na última contagem, efetuada em junho de 2001, notamos que Google já não tratava os signos diacríticos de modo satisfatório, e tivemos portanto que descartar seus resultados. 4.2. Metodologia lingüística Excetuando-se a introdução, a título de primeiro passo na exploração, de equivalências do alemão e a correção de certos erros surgidos na escrita das variantes18, a metodologia lingüística permanece inalterada com relação à versão anterior do estudo. A seleção de 57 termos por língua, feita em 1998, foi ampliada aos equivalentes alemães. Cada termo, sempre com a inclusão de uma certa quantidade de variantes (ortográficas, conforme a presença ou não de sinais diacríticos, sinonímicas, dialetais, morfossintáticas…) continuou sendo escolhido para que pudesse ser considerado ao mesmo tempo equivalente aos de seu mesmo número em todas as línguas estudadas e distintivo, ou seja, sem (ou quase sem) homografias interlingüísticas19 de algumas de suas variantes ou outros obstáculos à equivalência. A amostra dos 57 termos encontra-se no anexo 3. 4.2.1 Novos problemas apresentados pelo alemão A formação das palavras em alemão é bem diferente das outras línguas estudadas até agora: línguas como o alemão reúnem numa única palavra "composta" raízes que, nas formas equivalentes das outras línguas estudadas (exceto parcialmente, mas muito menos que o alemão, o inglês), encontram-se separadas em palavras diferentes, constituindo um sintagma. Ora, as equivalências foram feitas entre palavras não compostas e, supondo-se que iríamos buscar palavras separadas, sem contexto determinado antes ou depois, o alemão foi bastante "penalizado" já que formas muito freqüentes tais como Ziegenkäse, equivalente a "queijo de cabra", foram sistematicamente eliminadas. Um primeiro passo foi dado ao adicionar aos resultados obtidos, seguindo a antiga metodologia, 30% de majoração como base mínima provável. Mas, para obter resultados tão fidedignos quanto os estabelecidos para as outras 16 Milhões de páginas em inglês. Trata-se, aqui, dos resultados brutos, sem a correção de 30%. 18 Trata-se de erros menores que não provocaram nenhum desvio importante com relação aos resultados publicados no estudo anterior. Os detalhes se encontram no anexo 3. 19 Fazemos alusão às formas que teriam uma mesma escrita em mais de uma língua; os homógrafos dentro de uma mesma língua são considerados como uma mesma palavra (gráfica). 17 línguas, será necessário, sem dúvida, num segundo momento, conceber consultas "por palavra não isolada" (com e sem contexto indeterminado antes e depois da palavra), auxiliando-se, por outro lado, na medida do possível, de um fator numérico que exprima a diferença de quantidade de palavras entre as outras línguas do estudo e o alemão. Este fator de correção deve ser encontrado, provavelmente, nas pesquisas feitas em trabalhos sobre corpus paralelos interlingüísticos. 4.2.2 Outras problemáticas O trabalho lingüístico deveria ser compreendido ao consultar-se os anexos 3 e 7. No tocante a outros detalhes sobre a metodologia lingüística, pode-se consultar a versão anterior, L4, capítulo 2.2. Lembremos a decisão preconcebida de incluir sempre, para as formas que apresentem sinais diacríticos (acentos, etc.), as variantes sem diacríticos, muito freqüentes na Web. No caso do alemão, a diferenciação morfossintática maiúscula / minúscula, neutralizada, não foi considerada por nossos motores de busca, sendo, assim, não pertinente. Também foi decidido não incluir formas com menos de 4 letras a fim de evitar homografias possíveis (sobretudo com siglas, mas não unicamente). As homografias entre ao menos duas das línguas estudadas mostraram-se extremamente freqüentes, sobretudo entre o espanhol e o português, mas não somente e, obviamente, era preciso evitar coincidências por empréstimo. Por vezes uma homografia casual tal como a das variantes alemãs Montage / Montages (segunda-feira) com as formas francesas foi duplicada por uma homografia por empréstimo, já que a expressão francesa foi tomada emprestada por quase todas as outras línguas na área do cinema. 4.3. Metodologia estatística Os intervalos de confiança entre 90% e 99% dos resultados foram estabelecidos utilizando-se a distribuição T de Student, tomando-se como hipótese uma distribuição de tipo Normal. 4.3.1. Resultados das medidas com os motores de busca pré-selecionados No quadro 16 do anexo 4, indicam-se os resultados das pesquisas obtidos em agosto de 2000 no espaço WWW, para cada língua, de acordo com os seis motores pré-selecionados. 4.3.2. Cálculos estatísticos dos resultados relativos ao inglês Eis aqui as porcentagens médias da presença das línguas latinas (e do alemão) com relação ao inglês. Tabela 7: Detalhes sobre os resultados estatísticos Espanhol Francês Italiano Português Romeno Alemão20 Média 10,95% 8,86% 5,88% 5,40% 0,32% 13,4% Desvio-padrão 9,46% 5,09% 5,55% 5,49% 0,33% 8,97% Coeficiente de variância 0,86 0,57 0,94 1,01 1,02 0,66 20 Resultados majorados em 30% (ver nota 6) Intervalo de confiança a 90% 8,89-13,01 7,75-9,97 4,67-7,09 4,20-6,60 0,25-0,39 11,45-15,37 O coeficiente de variância é a raiz quadrada do desvio-padrão ao quadrado dividido pela média ao quadrado. Um valor superior a 1 indica uma forte dispersão, levando a uma média pouco fiável. Um valor inferior a 1 indica uma dispersão inexpressiva, fornecendo um resultado cada vez mais fiável à medida que o valor é inexpressivo. Assim, quanto menor for o intervalo de confiança, mais inexpressivo será o valor do coeficiente de variância. 4.3.3. Cálculos dos resultados absolutos Segundo as conclusões estabelecidas no capítulo 3.2.1, chegamos a uma presença absoluta das línguas estudadas de: Inglês Espanhol Francês Italiano Português Romeno Alemão Outras 52% 5,69% 4,61% 3,06% 2,81% 0,17% 6,97%21 24,96% Assim sendo, o espanhol, como havíamos previsto no estudo anterior, ultrapassa atualmente o francês. E o alemão se situa antes de todas as línguas latinas. A obtenção destes resultados baseia-se no cálculo dos resultados relativos (capítulo anterior) assim como numa aproximação realista do peso das línguas não estudadas descrita na linha "outras". A aproximação do peso das línguas não estudadas foi realizada a partir de uma medida do tamanho da área de cada língua no motor de busca Fastsearch. No momento em que estas medidas foram tomadas, Fastsearch apresentava um índex de 360 milhões de páginas divididas entre 31 línguas. Para saber quantas páginas o índex contém em cada língua (segundo o algoritmo de detecção de Fast), é preciso utilizar a seção "advanced search" (busca avançada) e fazer uma busca, para cada língua, a partir da técnica que tínhamos batizado no estudo anterior de "complemento do conjunto vazio" (busca do número de páginas que não contenham uma palavra inexistente)22. Obtém-se o quadro 17 do anexo 6. Este quadro apresenta uma aproximação do peso de cada língua, deduzida do algoritmo de reconhecimento das línguas do motor de busca, que, por sua vez, não é perfeito. Por exemplo, fazer uma consulta sobre a letra "è" nos sites em inglês dá (em Google ou Fastsearch) um resultado de um milhão de sites, sobretudo em tailandês, coreano, japonês, russo... Uma maneira diferente de obter o peso das línguas não estudada é constatar sua evolução dinâmica entre L4 e L5. A partir do quadro de hipóteses de valores absolutos descritos no capítulo 3.2.1, e dos valores absolutos das línguas consideradas no estudo realizado em setembro de 1998, obtém-se a seguinte tabela: Tabela 8: Hipótese de progressão do peso das línguas estudadas Línguas estudadas Hipóteses do peso absoluto para L5 21 22 L4 Set. 1998 Resultados majorados em 30% (ver nota 6) O argumento da busca é, por exemplo, < - "hgavdhjgduhgedujhgsdfyuhg">. Progressões L4/L5 INGLÊS ESPANHOL 55% 6,02% 50% 5,48% 45% 4,93% 75% 2,53% -26,67% 137,94% -33,33% 116,60% -40% 94,86% FRANCÊS 4,87% 4,43% 3,99% 2,81% 73,31% 57,65% 41,99% ITALIANO PORTUGUÊS 3,23% 2,97% 2,94% 2,70% 2,65% 2,43% 1,50% 0,82% 115,33% 262,20% 96% 229,27% 76,67% 196,34% ROMENO 0,18% 0,16% 0,14% 0,15% 20% 6,67% -6,67% Restante para as outras línguas 20,35% 27,59% 34,83% 17,19% 18,38% 60,50% 102,62% Uma vez mais, é a hipótese de um peso absoluto do inglês, próximo de 50%, a mais realista. Com efeito, uma progressão de menos de 18,38% das outras línguas23 parece muito insuficiente: o que representaria uma progressão duas vezes mais lenta que a do romeno e 4 a 15 vezes menos rápida que a das outras línguas latinas estudadas. Um aumento de 102% para as línguas não estudadas parece, por outro lado, exagerado: o que traduziria uma evolução mundial mais rápida que a evolução da grande maioria das línguas latinas (com exceção do português). Uma progressão por volta de 60% em média para as línguas não estudadas as colocaria no mesmo nível de progressão do francês, o que parece ser muito mais credível. Esta constatação reforça nossa hipótese de um resultado final da ordem de 50% como valor absoluto do inglês. 4.4. Comparação com outros estudos 4.4.1. Comparação com os estudos anteriores As relações inglês/francês e francês/espanhol evoluíram da seguinte maneira entre o primeiro estudo e este24: Tabela 9: Evoluções das relações entre o peso do francês, do inglês e do espanhol Março 1996 (L1) Inglês/Francês 21,91 Francês/Espanhol 2,40 Inglês/Espanhol 52,58 Março 1997 (L2) 19,99 1,92 38,38 Março 1998 (L3) 17,60 1,33 23,32 Setembro 1998 (L4) 35,59 1,11 39,53 Agosto 2000 (L5) 13,66 0,91 12,38 Junho 2001 (L5) 11,28 0,81 9,14 Os números em cursiva (de L1 a L3), recordamos, são por demais aproximativos para serem sérios. A observação real começou a partir de L4. 4.4.2. Comparação com estudos similares (Alis e Inktomi) 23 As "outras línguas" englobam realidades diferentes, indo das línguas escandinavas e asiáticas, com forte progressão, às línguas menos difundidas, com progressão provavelmente mais lenta. 24 É preciso considerar esta progressão com a maior reserva já que as cifras de L1 a L3 não apresentavam as características de rigor lingüístico obtidas a partir de L4. O estudo de Alis nunca mais foi realizado desde 1998: assim sendo, mantemos a análise feita em L4. Por outro lado, Inktomi publicou resultados que tiveram grande repercussão na Internet e que são utilizados atualmente como fonte oficial por numerosos relatórios. Tabela 10: Resultados do estudo de Inktomi (fevereiro de 2000) LÍNGUA Inglês Alemão Francês Italiano Espanhol Português Neerlandês Finlandês Sueco Japonês PROPORÇÃO (%) 86,54 5,83 2,36 1,55 1,23 0,75 0,54 0,50 0,36 0,34 Estes dados numéricos contribuem para perpetrar a visão errônea de que o inglês continua sendo a língua de mais de 80% das páginas Web. Contudo, é fácil descobrir uma aberração nestes resultados, em sua apresentação ou interpretação... Com efeito, a porcentagem anunciada para o inglês (86%) não é considerada com relação a todas as línguas, mas somente com relação às 10 línguas citadas no quadro, já que o total das porcentagens para as 10 línguas atinge 100%! Caso tomemos por hipótese que 30% de páginas Web são dedicadas às línguas não citadas, o total real do inglês seria de: 86,54% x (100-30) = 60,58%!!! Afora este evidente lapso, que nos leva a perder o significado dos resultados absolutos (mas que não impede que a maioria dos escritórios de marketing da Internet retomem estas cifras absurdas...), seria interessante comparar nossos resultados, baseados numa amostra de termos cujos critérios de seleção lingüística são apresentados em nossos relatórios, com os algoritmos de reconhecimento das línguas utilizados pelos diferentes motores de busca, e cujo mecanismo permanece oculto. Ver, por exemplo, a tabela 17 no anexo 6 que mostra as cifras derivadas do motor Fastsearch comparando-as com as de nosso estudo. Até prova do contrário, devemos considerar nosso método como sendo o mais rigoroso no plano metodológico e concluir dizendo que os algoritmos de reconhecimento das línguas em Internet têm todos a deplorável tendência a superestimar os dados sobre o inglês. 5. Tendência na evolução das línguas estudadas Como assinalamos, foram efetuadas medições em agosto de 2000 e em janeiro de 2001, com os motores Fastsearch e Google. Em junho de 2001, utilizamos somente o motor Fastsearch, já que Google não tratava mais de modo conveniente os signos diacríticos. Para as comparações da tabela abaixo, levamos em conta somente os resultados de Fastsearch, em agosto de 2000, em janeiro de 2001 e em junho de 2001. Tabela 11: Resultados de Fastsearch em agosto de 2000, janeiro de 2001, junho de 2001 Agosto 2000 Janeiro 2001 Junho 2001 Espagnol 8,41% 9,46% 10,95% Français 7,33% 7,89% 8,86% Italien 4,60% 4,93% 5,88% Portugais 3,95% 4,44% 5,40% Roumain 0,37% 0,33% 0,32% Allemand 11,0% 11,4% 13,4% A tabela abaixo indica as tendências atuais da evolução das línguas estudadas na rede, a partir das cifras precedentes. Tabela 12: Tendências da evolução Tendências atuais da evoluçâo das linguas na rede 16% 14% 10% Espanhol Francês Italiano 8% Português 6% 4% 2% 00 Se t0 0 O ut 00 N ov 00 D ez 00 Ja n 01 Fe v 0 M 1 ar 01 Ab r0 1 M ai 01 Ju n 01 Ju l0 Ag 1 o 01 Se t0 1 O ut 01 0% Ag o % em relaçâo ao Inglês 12% Romeno Alemão 6. Perspectivas para um acompanhamento da observação Atualmente, as condições logísticas encontram-se reunidas por um real e freqüente acompanhamento deste estudo. A automatização da captura dos resultados torna mais fácil a digitação e interpretação dos dados. Podemos manter um observatório da evolução da presença das línguas estudadas, com medições a cada 3 ou 6 meses. A criação deste observatório exige um controle permanente do que acontece no mundo dos motores de busca para poder determinar se as mudanças de procedimento de um motor de busca o desqualifica para este estudo ou se, ao contrário, um novo motor de busca pode ser utilizado para os objetivos do estudo. Cada modificação da interface de um motor de busca implica, por sua vez, um trabalho de programação da aplicação informática que automatiza as medições. Também podemos considerar uma ampliação do estudo a outras línguas começando pelo conjunto das línguas faladas no seio da União Européia. Esta ampliação pode requerer trabalhos complementares não apenas no que se refere à tradução dos termos, mas provavelmente também no que diz respeito a um ajuste da metodologia de pesquisa das ocorrências, como sugerido em 4.2.1. Obviamente, seria interessante começar a medir línguas não européias, como por exemplo o quíchua, na América do Sul, ou o ulof, na África. Novos parceiros lingüísticos serão provavelmente necessários e estamos dispostos a examinar propostas neste sentido. Resta ainda retomar o trabalho começado nos primeiros estudos sobre uma medição, mais subjetiva, do peso das culturas na Web. A experiência adquirida com a automatização será, sem dúvida, de grande utilidade. Finalmente, esta abordagem também pode fazer com que se empreendam estudos transversais para diferenciar segmentos de penetração lingüísticos na Web (como por exemplo, o turismo, o comércio eletrônico ou a educação). As pistas estão abertas, só nos falta encontrar parceiros e apoio financeiro... 7. Referências, em Internet, dos trabalhos conexos O estudo anterior menciona um certo número de referências. Eis aqui algumas referências que poderão completar a lista: Referências sobre os motores de busca: http://www.searchenginewatch.com http://www.searchengineshowdown.com Resultados parciais do estudo de Inktomi: http://www.inktomi.com/webmap/ Número de internautas por língua: http://www.glreach.com/globstats/index.php3 Estudo de “cyberveillance” sobre o tamanho da Web: http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf Estudo realizado para o Internet Council: http://usic.wslogic.com/intro.html Anexo 1: Recapitulativo e referências dos diversos estudos realizados pelos autores Tabela 13: Recapitulativo e referências dos diversos estudos realizados pelos autores Data e nome 3/96 L1 Direitos autorais Funredes http://funredes.org/LC/L1 3/96 C1 Funredes http://funredes.org/LC/C1 3/97 L2 Funredes http://funredes.org/LC/L2 3/98 L3 Funredes 25 http://funredes.org/LC/L3 9/98 L4 Agence de la francophonie Funredes União Latina http://www.unilat.org/dtil/le nguainternet/pt/lingua/lingu a_indice.htm 25 Localização Internet Com o apoio metodológico da União Latina Descrição Primeiro estudo de língua tendo por eixo o francês e que leva em conta o espanhol. Medidas comparativas, com AltaVista, da presença de palavras em WWW, em inglês, francês e espanhol, a partir de uma amostra de 50 conceitos determinados sem rigor metodológico no plano lingüístico. Resultado muito aproximativo, que mostra uma relação inglês/francês por volta de 2,2 e francês/espanhol perto de 2,4. Primeiro estudo de cultura tendo por base a francofonia e que leva em consideração a hispanidade. Medidas comparativas, com AltaVista, do número de menções do nome de personalidades culturalmente representativas, nas páginas web: cerca de 500 personalidades divididas em 13 categorias. O resultado, subjetivo, mostra uma presença bastante importante dos representantes da cultura francófona com relação aos norte-americanos nas áreas em que a cultura e o comércio não se confundem. Simples atualização do estudo língua que mostra uma progressão inexpressiva do francês com relação ao inglês e uma forte progressão do espanhol. Importante atualização, apresentada na conferência "Visionarios" em Caracas. • Análise dos limites dos motores de busca e da presença relativa dos diacríticos. Recomendação do abandono de AltaVista e da utilização de HotBot. • O "método do complemento do conjunto vazio" aplicado a AltaVista oferece uma ordem de grandeza da presença das línguas derivada do algoritmo de reconhecimento das línguas de AltaVista. • Avaliação crítica dos resultados do estudo de Alis Technologies. O francês continua sua lenta progressão e o espanhol encontra-se atualmente muito próximo do francês. Importantes mudanças no método e obtenção de resultados rigorosos. • Consideração de todas as línguas latinas: espanhol, francês, italiano, português, romeno. • Definição de uma amostra que responda a critérios lingüísticos rigorosos. • Medição auxiliada por HotBot no espaço WWW. • 9/98 C2 9/98 LC 2000-2001 L5 Agence de la francophonie Funredes União Latina http://www.unilat.org/dtil/le nguainternet/pt/culturas/ind ice_culturas.htm http://funredes.org/LC Funredes União Latina http://www.unilat.org/dti l/LI/index.htm Medição no espaço Usenet auxiliada por DejaNews. • Estabelecimento dos intervalos de confiança em 90% e 99%. • Ponderação dos resultados em função do tamanho dos espaços lingüísticos. Segundo estudo cultural, 3 anos depois. Nenhuma diferença notável para o estudo da presença cultural francófona. • Utilização da mesma metodologia, ainda que melhorada no tocante às categorias, escolha e número dos personagens, e quanto à extensão a personagens locutores de todas as línguas latinas. • Análise de certos resultados por língua e na língua de referência. Página de entrada do conjunto dos estudos de línguas e culturas. • • • • • Extensão do estudo ao alemão Seleção, após um estudo aprofundado, dos motores de busca Google e Fastsearch e, em seguida, apenas de Fastsearch. Medição somente no espaço WWW. Automatização dos cálculos com o auxílio de um programa funcionando como interface entre os termos a serem medidos, organizados em bases de dados, e os motores de busca. Correção dos erros ligados à ortografia de certos termos da amostra, bem como à omissão de outros. Início da sistematização das medidas e da apresentação de curvas de extrapolação. Anexo 2: Visualização dos intervalos de confiança para os resultados por língua Tabela 14: Visualização dos intervalos de confiança Espanhol Francês Italiano Português Romeno Alemão Em % 0 1 2 3 4 Intervalo a 90% 5 6 7 Intervalo a 99% 8 9 10 11 Anexo 3: Lista dos termos da amostra de referência Em cursiva: forma suscetível de estar presente, mas de ser "incorreta". O caso mais freqüente corresponde a termos escritos sem sinais diacríticos. Em MAIÚSCULA: variante que apresenta uma homografia interlingüística observada, variante com menos de quatro caracteres (forte risco de homografia com uma sigla) ou variante (e termo) de alcance sintático ou semântico maior do que os dos equivalentes nas outras línguas. Tabela 15: Lista dos termos da amostra de referência INGLÊS (EN) 1 ambiguity ambiguities ambiguousne ss ambiguousne sses ESPANHOL (ES) ambigüedad ambiguedad ambigüedad es ambiguedad es FRANCÊS (FR) ambiguïté ambiguite ambiguïtés ambiguites ITALIAN O (IT) ambiguit à ambiguit a 2 causality causalities causalidad CAUSALIDA DES causalité causalite causalités causalites causalità causalita 3 cheese cheeses queso quesos fromage fromages formaggi o formaggi PORTUGUÊS (PT) ambigüidade ambiguidade ambigüidades ambiguidades ROMENO (RO) ambiguitate ambiguitatea ambiguităţii ambiguitatii ambiguităţi ambiguitati ambiguităţile ambiguitatile ambiguităţilor ambiguitatilor causalidade cauzalitate CAUSALIDADES cauzalitatea cauzalităţii cauzalitatii cauzalităţi cauzalitati cauzalităţile cauzalitatile cauzalităţilor cauzalitatilor queijo brânză queijos branza brânze branze brânza brânzele branzele brânzei branzei brânzelor branzelor brânzeturi branzeturi brânzeturile branzeturile brânzeturilor branzeturilor ALEMÃO (DE) Ambiguität Ambiguitat Ambiguitaet Ambiguitäten Ambiguitaten Ambiguitaeten Doppeldeutigkeit Doppeldeutigkeiten Zweideutigkeit Zweideutigkeiten Kausalität Kausalitat Kausalitaet Kausalitäten Kausalitaten Kausalitaeten Käse Kase Kaese Käsen Kasen Kaesen 4 compatibility compatibilid compatibilitie ad s COMPATIBIL IDADES 5 contiguity contiguities 6 dangerous 7 december 8 DENSITY DENSITIES compatibilit é compatibilit e compatibilit és compatibilit es compatibi compatibilidade compatibilitate Kompatibilität lità COMPATIBILID compatibilitate Kompatibilitat compatibi ADES a Kompatibilitaet lita compatibilităţii Kompatibilitäten compatibilitatii Kompatibilitaten compatibilităţi Kompatibilitaeten compatibilitati Vereinbarkeit compatibilităţil Vereinbarkeiten e compatibilitatil e compatibilităţil or compatibilitatil or contigüidad contiguïté contiguità contigüidade contiguitate Kontiguität contiguidad contiguite contiguita contiguidade contiguitatea Kontiguitat CONTIGÜID contiguïtés CONTIGÜIDADE contiguităţii Kontiguitaet ADES contiguites S contiguitatii Kontiguitäten CONTIGUID CONTIGUIDADE contiguităţi Kontiguitaten ADES S contiguitati Kontiguitaeten contiguităţile contiguitatile contiguităţilor contiguitatilor peligroso dangereux pericolos perigoso primejdios GEFÄHRLICH peligrosa dangereuse o perigosa primejdioasă GEFAHRLICH peligrosos dangereuse pericolos perigosos primejdioasa GEFAEHRLICH peligrosas s a perigosas primejdioase Gefährliche pericolosi primejdioşi Gefahrliche pericolos primejdiosi Gefaehrliche e Gefährlicher Gefahrlicher Gefaehrlicher Gefährliches Gefahrliches Gefaehrliches Gefährlichen Gefahrlichen Gefaehrlichen Gefährlichem Gefahrlichem Gefaehrlichem diciembre décembre dicembre dezembro decembrie Dezembers decembre Dezembern densidad densité densità densidade densitate Dichte DENSIDADE densite densita DENSIDADES densitatea DICHTEN S densités densităţii Dichtheit densites densitatii Dichtheiten densităţi Dichtigkeit densitati Dichtigkeiten densităţile densitatile densităţilor densitatilor 9 disparity disparities disparidad disparité DISPARIDAD disparite ES disparités disparites 1 divisibility 0 divisibilities divisibilidad divisibilité DIVISIBILID divisibilite ADES divisibilités divisibilites 1 elasticity 1 elasticities elasticidad élasticité ELASTICIDA elasticite DES élasticités elasticites 1 electricity 2 electricities electricidad électricité ELECTRICID electricite ADES électricités electricites 1 february 3 febrero février fevrier 1 femininity 4 femininities feminidad femineidad FEMINIDADE S femineidade s féminité feminite féminités feminites disparità disparita disparidade disparitate DISPARIDADES disparitatea disparităţii disparitatii disparităţi disparitati disparităţile disparitatile disparităţilor disparitatilor divisibilit divisibilidade divizibilitate à DIVISIBILIDAD divizibilitatea divisibilit ES divizibilităţii a divizibilitatii divizibilităţi divizibilitati divizibilităţile divizibilitatile divizibilităţilor divizibilitatilor elasticità elasticidade elasticitate elasticita ELASTICIDADE elasticitatea S elasticităţii elasticitatii elasticităţi elasticitati elasticităţile elasticitatile elasticitităţilor elasticitatilor elettricità electricidade electricitate elettricita eletricidade electricitatea ELECTRICIDAD electricităţii ES electricitatii eletricidades electricităţi electricitati electricităţile electricitatile electricităţilor electricitatilor febbraio fevereiro februarie femminili tà femminili ta feminidade feminilidade FEMINIDADES feminilidades feminitate feminitatea feminităţii feminitatii feminităţi feminitati feminităţile feminitatile feminităţilor feminitatilor Disparität Disparitat Disparitaet Disparitäten Disparitaten Disparitaeten Divisibilität Divisibilitat Divisibilitaet Divisibilitäten Divisibilitaten Divisibilitaeten Teilbarkeit Teilbarkeiten Dehnbarkeit Dehnbarkeiten Elastizität Elastizitat Elastizitaet Elastizitäten Elastizitaten Elastizitaeten Elektrizität Elektrizitat Elektrizitaet Elektrizitäten Elektrizitaten Elektrizitaeten STROM Februar Februars Februare Februaren Femininität Femininitat Femininitaet Femininitäten Femininitaten femininitaeten weiblichkeit weiblichkeiten 1 fertility 5 fertilities fertilidad fertilité FERTILIDAD fertilite ES fertilités fertilites 1 fidelity fidelidad 6 fidelities FIDELIDADE faithfulness S faithfulnesses fidélité fidelite fidélités fidelites 1 fraternity fraternidad 7 fraternities FRATERNIDA brotherhood DES brotherhoods fraternité fraternite fraternités fraternites 1 friday 8 fridays vendredi vendredis viernes fertilità fertilita fertilitate fertilitatea fertilităţii fertilitatii fertilităţi fertilitati fertilităţile fertilitatile fertilităţilor fertilitatilor fedeltà fidelidade fidelitate fedelta FIDELIDADES fidelitatea fidelităţii fidelitatii fidelităţi fidelitati fidelităţile fidelitatile fidelităţilor fidelitatilor fraternità fraternidade fraternitate fraternita FRATERNIDADE fraternitatea fratellanz S fraternităţii a fraternitatii fratellanz fraternităţi e fraternitati fraternităţile fraternitatile fraternităţilor fraternitatilor venerdì venerdi fertilidade FERTILIDADES sexta-feira sextas-feiras vineri vinerea fertilität fertilitat fertilitaet fertilitäten fertilitaten fertilitaeten fruchtbarkeit fruchtbarkeiten TREUE TREUEN brüderlichkeit bruderlichkeit bruederlichkeit brüderlichkeiten bruderlichkeiten bruederlichkeiten fraternität fraternitat fraternitaet fraternitäten fraternitaten fraternitaeten freitag freitags freitages freitage freitagen 1 heterosexuali heterosexual 9 ty idad heterosexuali heterosexual ties idades hétérosexua lité heterosexua lite hétérosexua lités heterosexua lites eterosess ualità eterosess ualita 2 homosexualit homosexuali 0 y dad homosexualiti homosexuali es dades homosexual ité homosexual ite homosexual ités homosexual ites omosess ualità omosess ualita 2 horse 1 horses caballo caballos cheval chevaux cavallo cavalli 2 humidity 2 humidities humedad humedades humidité humidite humidités humidites umidità umidita heterossexualid ade heterossexualid ades heterosexualita te heterosexualita tea heterosexualită ţii heterosexualita tii heterosexualită ţi heterosexualita ti heterosexualită ţile heterosexualita tile heterosexualită ţilor heterosexualita tilor homossexualida homosexualitat de e homossexualida homosexualitat des ea homosexualităţ ii homosexualitat ii homosexualităţ i homosexualitat i homosexualităţ ile homosexualitat ile homosexualităţ ilor homosexualitat ilor cavalo CAL cavalos CAI calul CAII calului cailor calule humidade umiditate umidade umiditatea humidades umidităţii umidades umiditatii umidităţi umiditati umidităţile umiditatile umidităţilor umiditatilor heterosexualität heterosexualitat heterosexualitaet heterosexualitäten heterosexualitaten heterosexualitaeten homosexualität homosexualitat homosexualitaet homosexualitäten homosexualitaten homosexualitaeten pferd pferdes pferds pferde pferden feuchtigkeit feuchtigkeiten humidität humiditat humiditaet humiditäten humiditaten humiditaeten 2 illness 3 illnesses sickness sicknesses disease diseases 2 immortality 4 immortalities enfermedad enfermedad es doença doenca doenças doencas enfermidade enfermidades inmortalidad immortalité immortali imortalidade inmortalidad immortalite tà imortalidades es immortalité immortali s ta immortalite s krankheit krankheiten seuche seuchen 2 immunity 5 immunities inmunidad inmunidades immunität immunitat immunitaet immunitäten immunitaten immunitaeten 2 incompatibilit incompatibili 6 y dad incompatibiliti INCOMPATIB es ILIDADES 2 infallibility 7 infallibilities infalibilidad INFALIBILID ADES MALADIE maladies malattia malattie infermità infermita boală BOLI boala bolile bolii bolilor imortalitate imortalitatea imortalităţii imortalitatii imortalităţi imortalitati imortalităţile imortalitatile imortalităţilor imortalitatilor immunité immunità imunidade imunitate immunite immunita imunidades imunitatea immunités imunităţii immunites imunitatii imunităţi imunitati imunităţile imunitatile imunităţilor imunitatilor incompatibil incompati incompatibilida incompatibilitat ité bilità de e incompatibil incompati INCOMPATIBILI incompatibilitat ite bilita DADES ea incompatibil incompatibilităţ ités ii incompatibil incompatibilitat ites ii incompatibilităţ i incompatibilitat i incompatibilităţ ile incompatibilitat ile incompatibilităţ ilor incompatibilitat ilor infaillibilité infallibilit infalibilidade infaibilitate infaillibilite à INFALIBILIDAD infaibilitatea infaillibilités infallibilit ES infaibilităţii infaillibilites a infaibilitatii infaibilităţi infaibilitati infaibilităţile infaibilitatile infaibilităţilor infaibilitatilor immortalität immortalitat immortalitaet immortalitäten immortalitaten immortalitaeten unsterblichkeit unsterblichkeiten inkompatibilität inkompatibilitat inkompatibilitaet inkompatibilitäten inkompatibilitaten inkompatibilitaeten unvereinbarkeit unvereinbarkeiten infallibilität infallibilitat infallibilitaet infallibilitäten infallibilitaten infallibilitaeten unfehlbarkeit unfehlbarkeiten 2 inferiority 8 inferiorities inferioridad infériorité INFERIORID inferiorite ADES infériorités inferiorites 2 infidelity 9 infidelities unfaithfulnes s unfaithfulnes ses infidelidad INFIDELIDA DES 3 instability 0 instabilities inestabilidad instabilité inestabilidad instabilite es instabilités instabilites 3 inviolability 1 inviolabilities inviolabilida d INVIOLABILI DADES infidélité infidelite infidélités infidelites inviolabilité inviolabilite inviolabilités inviolabilites inferiorità inferioridade inferiorita INFERIORIDAD ES inferioritate inferioritatea inferiorităţii inferioritatii inferiorităţi inferioritati inferiorităţile inferioritatile inferiorităţilor inferioritatilor infedeltà infidelidade infidelitate infedelta INFIDELIDADES infidelitatea infidelităţii infidelitatii infidelităţi infidelitati infidelităţile infidelitatile infidelităţilor infidelitatilor instabilità instabilidade instabilitate instabilita instabilidades instabilitatea instabilităţii instabilitatii instabilităţi instabilitati instabilităţile instabilitatile instabilităţilor instabilitatilor inviolabili inviolabilidade t INVIOLABILIDA inviolabili DES ta inviolabilitate inviolabilitatea inviolabilităţii inviolabilitatii inviolabilităţi inviolabilitati inviolabilităţile inviolabilitatile inviolabilităţilor inviolabilitatilor inferiorität inferioritat inferioritaet inferioritäten inferioritaten inferioritaeten minderwertigkeit minderwertigkeiten UNTREUE UNTREUEN treulosigkeit treulosigkeiten instabilität instabilitat instabilitaet instabilitäten instabilitaten instabilitaeten unbeständigkeit unbestandigkeit unbestaendigkeit unbeständigkeiten unbestandigkeiten unbestaendigkeiten unverletzlichkeit unverletzlichkeiten unverletzbarkeit unverletzbarkeiten 3 irregularity 2 irregularities unevenness unevennesse s irregularidad irrégularité IRREGULARI irregularite DADES irrégularités irregularites irregolarit irregularidade à IRREGULARIDA irregolarit DES a iregularitate iregularitatea iregularităţii iregularitatii iregularităţi iregularitati iregularităţile iregularitatile iregularităţilor iregularitatilor iresponsabilitat e iresponsabilitat ea iresponsabilităţ ii iresponsabilitat ii iresponsabilităţ i iresponsabilitat i iresponsabilităţ ile iresponsabilitat ile iresponsabilităţ ilor iresponsabilitat ilor iunie juni junis JUNO genunchi knie genunchiul knies genunchii knie genunchiului KNIEN genunchilor cuţit MESSER cutit MESSERS cuţite MESSERN cutite cuţitul cutitul cuţitele cutitele cuţitului cutitului cuţitelor cutitelor 3 irresponsibilit irresponsabil 3 y idad irresponsibilit IRRESPONS ies ABILIDADES irresponsabi lité irresponsabi lite irresponsabi lités irresponsabi lites irrespons abilità irrespons abilita irresponsabililid ade IRRESPONSABI LIDADES 3 june 4 junio juin giugno junho 3 knee 5 knees rodilla rodillas genou genoux ginocchio joelho ginocchia joelhos ginocchi 3 KNIFE 6 KNIVES cuchillo cuchillos couteau couteaux coltello coltelli FACA FACAS irregularität irregularitat irregularitaet irregularitäten irregularitaten irregularitaeten unregelmäßigkeit unregelmässigkeit unregelmassigkeit unregelmaessigkeit unregelmäßigkeiten unregelmässigkeite n unregelmassigkeite n unregelmaessigkeit en irresponsabilität irresponsabilitat irresponsabilitaet irresponsabilitäten irresponsabilitaten irresponsabilitaeten unverantwortbarkei t unverantwortbarkei ten unverantwortlichkei t unverantwortlichkei ten verantwortungslosi gkeit verantwortungslosi gkeiten 3 LUNG 7 lungs pulmón pulmon pulmones poumon poumons polmone polmoni pulmão pulmao pulmões pulmoes plămân plaman plămâni plamani plămânul plamanul plămânii plamanii plămânului plamanului plămânilor plamanilor masculinité mascolini masculinidade masculinitate masculinite tà MASCULINIDAD masculinitatea masculinités mascolini ES masculinităţii masculinites ta masculinitatii masculinităţi masculinitati masculinităţile masculinitatile masculinităţilor masculinitatilor 3 masculinity 8 masculinities masculinida d MASCULINI DADES 3 monday 9 mondays lunes lundi lundis lunedì lunedi segunda-feira luni segundas-feiras lunea 4 october 0 octubre octobre ottobre outubro octombrie 4 parity 1 parities equality equalities igualdad IGUALDADE S paridad PARIDADES égalité egalite égalités egalites parité parite parités parites eguaglian za eguaglian ze uguglianz a uguglianz e parità parita igualdade IGUALDADES paridade PARIDADES egalitate egalitatea egalităţii egalitatii egalităţi egalitati egalităţile egalitatile egalităţilor egalitatilor paritate paritatea parităţii paritatii parităţi paritati parităţile paritatile parităţilor paritatilor lunge lungen männlichkeit mannlichkeit maennlichkeit männlichkeiten mannlichkeiten maennlichkeiten maskulinität maskulinitat maskulinitaet maskulinitäten maskulinitaten maskulinitaeten montag MONTAGES montags MONTAGE MONTAGEN oktober oktobers oktobern egalität egalitat egalitaet egalitäten egalitaten egalitaeten gleichheit gleichheiten gleichstellung gleichstellungen gleichberechtigung gleichberechtigung en parität paritat paritaet paritäten paritaten paritaeten 4 probability 2 probabilities likelihood likelihoods probabilidad probabilité PROBABILID probabilite ADES probabilités probabilites probabilit probabilidade à PROBABILIDAD probabilit ES a probabilitate probabilitatea probabilităţii probabilitatii probabilităţi probabilitati probabilităţile probabilitatile probabilităţilor probabilitatilor 4 productivity productivida productivité produttivi produtividade productivitate 3 productivities d productivite tà produtividades productivitatea productivene productivida productivité produttivi productivităţii ss des s ta productivitatii productivene productivite productivităţi sses s productivitati productivităţile productivitatile productivităţilo r productivitatilo r 4 puberty pubertad puberté pubertà puberdade pubertate 4 puberties pubertades puberte puberta puberdades pubertatea pubertés pubertăţii pubertes pubertatii pubertăţi pubertati pubertăţile pubertatile pubertăţilor pubertatilor 4 responsibility responsabili responsabili responsa responsabilidad responsabilitat 5 responsibilitie dad té bilità e e s RESPONSAB responsabili responsa RESPONSABILI responsabilitat liability ILIDADES te bilita DADES ea liabilities responsabili responsabilităţi tés i responsabili responsabilitati tes i responsabilităţi responsabilitati responsabilităţi le responsabilitati le responsabilităţi lor responsabilitati lor probabilität probabilitat probabilitaet probabilitäten probabilitaten probabilitaeten wahrscheinlichkeit wahrscheinlichkeite n produktivität produktivitat produktivitaet produktivitäten produktivitaten produktivitaeten pubertät pubertat pubertaet pubertäten pubertaten pubertaeten responsabilität responsabilitat responsabilitaet responsabilitäten responsabilitaten responsabilitaeten verantwortung verantwortungen 4 sexuality 6 sexualities sexualidad SEXUALIDA DES sexualité sexualite sexualités sexualites sessualità sexualidade sexualitate sessualita SEXUALIDADES sexualitatea sexualităţii sexualitatii sexualităţi sexualitati sexualităţile sexualitatile sexualităţilor sexualitatilor singularité singolarit singularidade singularitate singularite à SINGULARIDAD singularitatea singularités singolarit ES singularităţii singularites a singularitatii singularităţi singularitati singularităţile singularitatile singularităţilor singularitatilor supériorité superiorit superioridade superioritate superiorite à SUPERIORIDAD superioritatea supériorités superiorit ES superiorităţii superiorites a superioritatii superiorităţi superioritati superiorităţile superioritatile superiorităţilor superioritatilor 4 singularity 7 singularities singularidad SINGULARID ADES 4 superiority 8 superiorities superioridad SUPERIORID ADES 4 thursday 9 thursdays jueves jeudi jeudis giovedì giovedi quinta-feira quintas-feiras JOI JOIA 5 today 0 HOY aujourde hui oggi hoje 5 truth 1 truths verdad VERDADES vérité verite vérités verites verità verita verdade VERDADES 5 tuesday 2 tuesdays martes MARDI mardis martedì martedi terça-feira terca-feira terças-feiras tercas-feiras AZI astăzi astazi adevăr adevar adevărul adevarul adevărului adevarului adevăruri adevaruri adevărurile adevarurile adevărurilor adevarurilor marţi MARTI marţea martea sexualität sexualitat sexualitaet sexualitäten sexualitaten sexualitaeten einzigartigkeit einzigartigkeiten singularität singularitat singularitaet singularitäten singularitaten singularitaeten superiorität superioritat superioritaet superioritäten superioritaten superioritaeten überlegenheit uberlegenheit ueberlegenheit überlegenheiten uberlegenheiten ueberlegenheiten donnerstag donnerstages donnerstags donnerstage donnerstagen heute wahrheit wahrheiten dienstag dienstages dienstags dienstage dienstagen 5 uniformity 3 uniformities uniformitate uniformitatea uniformităţii uniformitatii uniformităţi uniformitati uniformităţile uniformitatile uniformităţilor uniformitatilor 5 universality universalida universalité universali universalidade universalitate 4 universalities d universalite tà UNIVERSALIDA universalitatea UNIVERSALI universalité universali DES universalităţii DADES s ta universalitatii universalite universalităţi s universalitati universalităţile universalitatile universalităţilor universalitatilor 5 university universidad université università universidade universitate 5 universities UNIVERSIDA universite universita UNIVERSIDADE universitatea DES universités S universităţii universites universitatii universităţi universitati universităţile universitatile universităţilor universitatilor 5 wednesday miércoles mercredi mercoledì quarta-feira miercuri 6 wednesdays miercoles mercredis mercoledi quartas-feiras miercurea 5 yellow 7 uniformidad UNIFORMID ADES amarillo amarilla amarillos amarillas uniformité uniformite uniformités uniformites jaune jaunes uniformit uniformidade à UNIFORMIDADE uniformit S a giallo gialla gialli gialle amarelo amarela amarelos amarelas galben galbenă galbena galbeni galbene uniformität uniformitat uniformitaet uniformitäten uniformitaten uniformitaeten universalität universalitat universalitaet universalitäten universalitaten universalitaeten universität universitat universitaet universitäten universitaten universitaeten mittwoch mittwoches mittwochs mittwoche mittwochen gelb gelbe gelber gelbes gelben gelbem Anexo 4: Seleção dos motores de busca para o estudo L5 Introdução Os motores de busca utilizados pelo último estudo evoluíram e outros surgiram nos dois últimos anos. Um trabalho sistemático de análise da compatibilidade dos motores disponíveis com a metodologia utilizada para este estudo revelou-se necessário. Algumas incompatibilidades conduziram à eliminação de um certo número de motores. Os motores de busca pré-selecionados (ver capítulo 4.1.1) foram: AltaVista, Fastsearch (Alltheweb), Google, Infoseek, iWon e Northernlight, seis motores independentes uns dos outros ou até mesmo concorrentes no mercado da busca por palavras-chaves em Internet. Revelou-se que os resultados das medições de presença nas páginas da Web dos termos de nossa amostra variam sensivelmente conforme o motor de busca utilizado. Para compreender melhor este fenômeno, que poderia desqualificar definitivamente nossa metodologia, a partir do mês de agosto de 2000 foi realizado um estudo que considera os seguintes elementos, suscetíveis de terem alguma influência na validez dos resultados: - número de páginas indexadas, - maneira de selecionar as páginas indexadas, - coerência dos resultados de contagem apresentados. Resultados por motor e por língua Os resultados abaixo (tabela 16) apresentam o total do número de páginas em Internet que comportam cada um dos 1.600 variantes do estudo, em agosto de 2000. A coluna do inglês apresenta o total de páginas recenseadas (em milhões) por motor de busca para o conjunto dos termos em inglês. As cifras contidas nas outras colunas representam, para cada língua, a porcentagem, com relação ao inglês, do número total de páginas recenseadas. Por exemplo, para iWon: 212 milhões de páginas foram contadas para os termos em inglês e 2,14 milhões para o português (1,01% de 212). Tabela 16: Resultados do estudo relativo aos 6 motores de busca pré-selecionados AltaVista Fast Google Infoseek iWon Northern Light Inglês 188 M 147M 210M 37M 212M 145M Espanhol 9,28% 8,41% 7,86% 2,49% 4,13% 6,32% Francês 9,56% 7,33% 7,33% 3,97% 2,64% 5,26% Italiano 4,50% 4,60% 4,65% 2,98% 0,69% 3,66% Português 3,98% 3,95% 2,82% 0,96% 1,01% 3,50% Romeno 0,19% 0,37% 0,27% 0,03% 0,35% 0,26% Alemão 16,06% 8,47% 7,89% 5,39% 5,44% 5,23% Como podemos constatar, os resultados, exceto os de Fast e Google, apresentam variações importantes conforme o motor de busca utilizado, o que nos leva a questionar seriamente a validez de nosso método. Assim sendo, torna-se necessário analisar as especificidades de cada motor utilizado para compreender a razão dessas variações e também para determinar que motores fornecem resultados rigorosos conforme nossos critérios. Uma análise dos motores de busca exige um conhecimento prévio das características quantitativas da Internet. Dados relativos a Internet e aos motores de busca Qual o volume da Web? Dispomos de alguns dados sobre este tema: Em Janeiro de 2000, a Inktomi afirmava que a web havia ultrapassado um bilhão de páginas (que teriam sido pré-indexadas por este motor). De forma secundária, a Inktomi anuncia a cifra de 86,55% de páginas em inglês e 2,36% de páginas em francês. É impressionante constatar que o resultado do francês é muito próximo dos valores que encontramos no motor de busca iWon (que, por sua vez, utiliza o índex de Inktomi). Contudo, a cifra do inglês parece ser vítima de um erro de referencial (ver 4.4.2). Nova cifra da Inktomi em maio de 2000: 1,5 bilhões de páginas. A Inktomi sublinha que a proporção de páginas repetidas nos mirror sites é superior a 20% (nos 6,5 milhões de provedores indexados encontraríamos 1,5 milhões de espelhos). Estudo de cyberveillance search: 2,1 bilhões de páginas em julho de 2000, com um crescimento exponencial de 7 milhões de novas páginas por dia. Este estudo assegura a existência de 84,7% de páginas em inglês na Web. Os motores de busca com os índex mais extensos A competição intensifica-se no mercado dos motores de busca, o que provoca uma intensa motivação para o aumento do tamanho dos índex. Os líderes na área da indexação da Web atualmente são: Google: um bilhão de páginas indexadas26. Webtop: 500 milhões de páginas indexadas, mas insuficientemente testado, por enquanto. Inktomi: o novo índex de Inktomi, GEN3, que ainda não foi oficialmente utilizado por seus parceiros (Hotbot, Snap, iWon), deveria conter 500 milhões de páginas (contrariamente a 110 para o antigo). Testes efetuados por Searchengine Watch (http:www.searchenginewatch.com ) indicam que iWon já utiliza este índex expandido. Efetivamente, iWon oferece resultados próximos de Google no tocante ao número total de páginas contadas em inglês. AltaVista: 350 milhões de páginas. Fastsearch: 340 milhões de páginas, tendo por objetivo atingir 1 bilhão até o final do ano. Northern Light: 265 milhões de páginas. É importante constatar que os motores indexam uma proporção considerável do universo que nos interessa (entre 25 e 50%), o que torna possível a aplicação de nossa metodologia sem muitos riscos no âmbito estatístico27. 26 Parece que a metade delas não foi indexada diretamente, sendo objeto de um algoritmo original qua trabalha a partir do texto dos links em direção a estas páginas. Não dispomos de precisões suficientes sobre a natureza deste algoritmo para poder tirar conclusões, mas tudo leva a crer que não há nenhum impacto em nossas medidas. 27 Não obstante, nada nos impede pensar que para uma amostra da ordem de 25 a 50% do universo, possa existir uma perpendicular na seleção do índex que favoreça as línguas mais utilizadas e, em primeiro lugar, o inglês. Em particular, é extremamente provável que os sites mais recentes não sejam indexados tão rapidamente quanto os sites mais antigos e que isso represente um prejuízo estatístico para as línguas jovens na Internet. Como são indexadas as páginas? Seria conveniente notar que nem todas as páginas detectadas pelos motores de busca encontram-se incluídas no índex. A tabela abaixo indica o número de páginas realmente presentes no índex de certos motores de busca em comparação com o volume anunciado do universo indexado28. AltaVista Fast Excite Inktomi PÁGINAS ANALISADAS (milhões) 400 700 920 1000 PÁGINAS INDEXADAS (milhões) 250 400 250 110 É importante compreender como é feita a redução e em que medida pode afetar a validade dos resultados de nosso estudo. Duas abordagens diferentes foram identificadas: 1. Inktomi: Um índex de base de 110 milhões de páginas selecionadas e classificadas a partir de uma fonte de 1 bilhão de páginas. O critério de seleção para o índex de base é considerar somente as páginas cujo URL é o mais intensamente citado (ou seja, as páginas que são objeto do maior número de links externos). Esta técnica permite selecionar as páginas mais reconhecidas classificando-as facilmente em ordem de "celebridade", conservando um tempo de resposta curto graças ao tamanho reduzido do índex de trabalho. Esta abordagem, totalmente respeitável do ponto de vista do objetivo primeiro dos motores, é, infelizmente, desqualificativa para a aplicação de nossa metodologia já que a repartição estatística das páginas é alterada por um algoritmo que favorece certas páginas de maneira não neutra no plano lingüístico (as páginas mais populares, logo mais freqüentes em inglês, terão uma maior probabilidade de fazer parte dos 110 milhões de escolhidas). Este mecanismo mostra claramente suas conseqüências quanto ao romeno (os termos romenos apresentam resultados anormalmente escassos, na maioria das vezes nulo). 2. AltaVista, Excite, Fast, e Google: Um índex maior com uma seleção menos forte e, sobretudo, independente do conteúdo (só são suprimidos os mirror sites e os que apresentam os erros 40129 ou 40430). Com esta técnica, os índex são mais amplos; mesmo se eles não oferecem obrigatoriamente os resultados mais coerentes em termos de pertinência, são compatíveis com nossa metodologia já que não deveriam favorecer uma língua em detrimento de outra. Note-se que Google conserva uma imagem das páginas no momento em que elas foram colocadas em seu índex, o que possibilita encontrar a informação mesmo quando a página indexada foi eliminada da Web. Validação dos motores de busca em função de nossa metodologia AltaVista AltaVista é, já há vários anos, um dos motores de busca mais utilizados na Web. Seu índex continua sendo um dos mais amplos; não obstante, uma vez mais31,a utilização deste motor de busca no âmbito de nosso estudo não foi possível. Com efeito: • AltaVista "trunca os resultados"32. Esta disposição é tomada por AltaVista para chegar a reduzir seu tempo de resposta no caso de seu provedor estar sobrecarregado (o motor de busca pode parar de processar uma consulta e só fornecer um resultado parcial). 28 As cifras apresentadas no parágrafo anterior são de março de 2000 enquanto que estas são de julho de 2000, o que explica as diferenças. 29 Ou seja, uma página de acesso restrito, não disponível ao grande público. 30 A saber, uma página inexistente num site referenciado corretamente. 31 AltaVista havia sido eliminado no estudo anterior pelas mesmas razões. 32 O que significa que ele não leva em consideração uma parte das páginas que respondem ao critério de busca, acarretando uma redução no valor de contagem, que já não corresponde mais à realidade. • • Como durante o estudo anterior, não nos foi possível estabelecer a natureza precisa da administração dos sinais diacríticos; caso exista uma lógica, ela não nos foi revelada e, nessas condições, é impossível realizar um trabalho sério. Os valores mostrados para as contagens mudam de maneira aleatória; por exemplo, pode-se muito bem ter um número de páginas diferente para a mesma consulta quando observamos os resultados de 1 a 10 ou de 11 a 20... Infoseek Infoseek tem um tamanho de índex muito limitado para ser utilizado no âmbito de nossa metodologia (podemos constatá-lo nas cifras sobre as páginas em inglês: 36 milhões contra mais de 150 milhões para a maioria dos outros motores). Esta limitação de indexação confere uma vantagem ao inglês com relação às outras línguas presentes em Internet. iWon iWon utiliza o mesmo índex que Hotbot (Inktomi), o motor por nós utilizado no estudo anterior. A técnica de seleção de páginas de Inktomi não é compatível com nossa metodologia, como explicado no parágrafo anterior. Northern Light Este motor não pôde ser utilizado em nosso estudo porque não reconhece os sinais diacríticos (em particular, não interpreta corretamente os sinais utilizados pelo romeno). Além disso, busca os plurais dos termos sistematicamente quando efetua consultas em inglês, mas não nas outras línguas. Google Esse motor, que pretende possuir o mais vasto índice no Web, fornece resultados rápidos. Foi descartado num primeiro momento, pois, assim como AltaVista, fazia cortes em seus resultados. Esse inconveniente tendo sido corrigido, foi então selecionado para a obtenção dos resultados finais. Contudo, na contagem de junho de 2001, os signos diacríticos não sendo mais tratados de modo satisfatório, voltamos a descartá-lo. Fastsearch Fastsearch, que possui um dos índices mais vastos, fornece resultados rápidos, não faz cortes nos resultados, não limita seu índice aos sites mais populares e trata os signos diacríticos de modo satisfatório, foi, portanto, o motor selecionado para o estudo, em junho de 2001. Conclusão O motor de busca Fastsearch é o único, no momento das últimas medições (junho de 2001), que permite a aplicação de nossa metodologia para medir a repartição das línguas na rede, e é dele, portanto, que provêm os resultados finais. Mas o fato das cifras produzidas por Fastsearch e Google serem, até janeiro de 2001, estatisticamente tão próximas (intervalos de confiança coincidindo muitas vezes) foi um elemento essencial para continuarmos confiando na validade de nossa metodologia. Anexo 5: Interface de automatização do estudo L5 Introdução A obtenção de resultados no estudo do lugar das línguas latinas em Internet passa por um trabalho minucioso, longo e repetitivo de medição dos resultados oferecidos pelos motores de busca. Com efeito, cada resultado final (por motor de busca) exige uma contagem do número de páginas que contenham cada uma das quase 1.200 variantes dos 57 termos considerados (1.600 desde que o alemão foi integrado). Este processo vem seguido de correções manuais para as 73 variantes que apresentam problemas de homografia (em maiúscula no quadro dos termos do anexo 3). Os resultados obtidos para cada variante serão, depois, reunidos por termo e obteremos os 57 resultados, classificados por língua. A seguir, será calculada a média dos resultados e o coeficiente de variância, bem como o intervalo de confiança por língua para obter o resultado final. Sem esquecer, obviamente, a etapa minuciosa de verificação dos resultados já que alguns deles certamente terão sido alterados por diversos erros de digitação ou de desatenção engendrados pela forma repetitiva das tarefas... Todos estes resultados por variante, termo ou finais não são em absoluto maleáveis em sua utilização; um erro detectado a posteriori na retranscrição de um resultado necessita um novo cálculo sistemático de seu termo associado, bem como um novo cálculo das estatísticas finais. Assim sendo, uma automatização destes procedimentos manuais era desejável. Foi decidido investir na programação de um algoritmo que, a partir das 1.600 formas, fosse capaz de facilitar sua busca nos motores de busca, recuperando as contagens e organizando-as de maneira que, após as correções das homografias, pudessem efetuar o conjunto dos cálculos estatísticos. Esta automatização também permite utilizar vários motores de busca sem impor um trabalho suplementar excessivamente importante. Tecnologia utilizada Para permitir uma administração otimizada do conjunto, decidiu-se utilizar uma estrutura de base de dados como eixo central de articulação das diferentes aplicações. O administrador de base de dados escolhido foi PosgreSQL, de uso freqüente no mundo da Internet e, para executar a interface entre a base de dados e os serviços da Web, escolheu-se a linguagem de programação PHP. Detalhes de funcionamento do sistema Base de dados A base de dados comporta três tabelas de grande importância que são a base do sistema automatizado: • Tabela das 1.600 variantes dos termos: nesta tabela são registradas as diferentes variantes da amostra, que são classificadas conforme o termo e a língua à que pertencem e registradas com os parâmetros que lhes são associados: homografias, etc. O anexo 3 é uma representação do conteúdo desta tabela. • Tabela dos resultados: nela são conservados todos os resultados (contagem das páginas) conseguidos, através da interface PHP, dos serviços de motores de busca. Estes resultados são classificados em função das variantes às quais estão ligados, e do motor no qual este resultado foi encontrado. • Tabela dos resultados por termo: Depois que as 1.600 variantes foram introduzidas na base e que os resultados de cada uma delas foram obtidos, os resultados de cada termo são calculados. Isto é feito adicionando-se os resultados das variantes pertencentes ao mesmo termo de uma mesma língua. Estes resultados obtidos (classificados por palavra, motor e língua) serão utilizados para obter os resultados finais e servirão de entrada para os cálculos estatísticos previstos. O design é aberto graças aos parâmetros da lista das línguas e dos motores utilizados. Esta disposição possibilita uma enorme flexibilidade à medida em que se pode adicionar à vontade novos termos, novos motores e novas línguas. Interfaces PHP O programa PHP apresenta três tipos de interface: Interfaces de digitação de dados Estas interfaces servem para preencher os campos das variantes e os resultados da base de dados. A primeira é uma interface usuário utilizada pela administração para a introdução das variantes e de suas propriedades associadas33. A segunda é uma interface máquina que permite, para cada motor considerado, estocar os resultados obtidos durante uma execução do programa. Os dados digitados na primeira interface são conservados entre cada execução; os da segunda interface são volatilizáveis, substituídos a cada execução. Obviamente, os dados substituídos no processo são previamente arquivados. Interfaces de processamento dos dados São de dois tipos: as que permitem modificar a tabela "resultado" das variantes e as que permitem calcular os valores associados a cada palavra. As primeiras são utilizadas para corrigir os seguintes problemas de homografia: As distorções mais freqüentes quanto às variantes são os plurais em -idades, comuns ao espanhol e ao português. A repartição na contagem entre o espanhol e o português foi feita de forma automática proporcionalmente aos resultados parciais do estudo. A partir dos resultados parciais, foram calculados os coeficientes (por motor) do peso do espanhol com relação ao peso do português e estes coeficientes foram aplicados para distribuir eqüitativamente os resultados das palavras em -idades entre o espanhol e o português. Há um caso de homografia a partir do romeno (cal e cai para cavalo: homógrafos de outras palavras em espanhol, italiano, e português...). Por isso as formas cal e cai não foram contadas, o que penaliza o romeno. Por sua vez, a forma caii também foi eliminada já que é homógrafa de siglas freqüentes em Internet. Faca e facas significam são também duas formas de conjugação do verbo fazer: faça e faças, sem diacríticos: o resultado indicado foi calculado a posteriori utilizando o mesmo método que o utilizado para as palavras em -idades baseando-se nos coeficientes do português com relação ao inglês. A forma boli (doença) é uma abreviação muito freqüente de bolígrafo em espanhol (caneta) e foi eliminada da contagem. Joi (quinta-feira em romeno) é uma palavra de três letras e, assim sendo, sujeita a homografia com siglas. Joia é homógrafa do português jóia sem diacrítico. O resultado indicado foi calculado a posteriori utilizando o mesmo método que o utilizado para as palavras em -idades. Marti é homógrafo do nome de um personagem célebre (José Martí, sem diacrítico), e seu resultado não foi contabilizado para o romeno terça-feira. O resultado de mardi em francês foi subtraído do resultado de mardi gras para não contabilizar esta forma freqüente em inglês. As interfaces do segundo tipo atualizam a parte "resultados por termos" da base de dados. Interfaces de apresentação dos resultados A base de dados utilizada para estocar os resultados contém: 33 Língua, termos associados, problemas de homografia, variante sem diacríticos. (a) 1.600 variantes de termos classificados por termo (57) e por língua (7) (b) os resultados destas 1.600 variantes, medidos por 6 motores de busca (9.600 resultados) (c) os resultados dos 57 termos, calculados a partir dos 9.600 resultados para 6 motores e 7 línguas (2.394 resultados). Estes resultados são visíveis em forma de cifras absolutas ou em proporção ao resultado do inglês. O acesso a estas informações necessitou a criação de interfaces de apresentação dos resultados que deveriam respeitar estas duas condições: • • possibilitar a obtenção de resultados rápidos e precisos para o conjunto das informações disponíveis dispor de resultados atualizados cada vez que se proceda a uma modificação na base de dados. Já que a interface possibilitava o acesso aos resultados (a) foi possível criar o quadro do anexo 3. Os resultados de (b) são apresentados no anexo 8, e os de (c), no anexo 9. A interface do anexo 9 calcula também a média, o desviopadrão e o coeficiente de variância dos resultados quando as porcentagens são apresentadas. Os resultados obtidos por esta interface permitem ilustrar também as características dos motores de busca (anexo 4). Conclusão e plano para a próxima versão Este sistema apresenta uma melhoria incontestável com relação ao método manual. Ele transforma uma operação lenta e fastidiosa que necessitaria 10 dias de trabalho para 1.200 variantes e um único motor de busca num trabalho de 2 dias para 1.600 variantes e 6 motores de busca, com resultados de uso mais maleáveis. Este sistema possibilita, ainda, uma fácil integração de outras línguas a serem estudadas, de outras amostras lingüísticas ou de outros motores de busca. Esta maleabilidade permite-nos prever o acréscimo de novas funcionalidades no futuro no tocante à base de dados e às interfaces. Um armazenamento regular e datado dos resultados possibilitará uma análise dinâmica da evolução da presença das línguas latinas estudadas em Internet e, assim, transformar este estudo num verdadeiro observatório permanente destas evoluções. Estes resultados podem possibilitar, também, a avaliação da maneira utilizada por cada motor para processar o plurilingüismo da Internet. Anexo 6: Resultados das medidas de classificação por língua de Fastsearch e comparação Tabela 17: Resultados da classificação por língua de Fastsearch e comparação34 Fastsearch 2000 Africâner Albanês Fastsearch % total % total % total 2001 parcial 2000 parcial 2001 absoluto 0,06 0% 0,01% 0,01% % inglês 0,03 0% 0,01% 0,01% 0,01% 42,15 6,81% 7,57% 7,33% 12,58% Árabe 0,16 0,57 0,05% 0,10% 0,10% 0,17% Basco 0,04 0,05 0,01% 0,01% 0,01% 0,01% 0,03 0, % 0,01% 0,01% 0,01% Bielorrusso Búlgaro 0,06 0,16 0,02% 0,03% 0,03% 0,05% Catalão 0,52 0,75 0,16% 0,13% 0,13% 0,22% 6,30 0% 1,13% 1,10% 1,88% 4,9 20,57 1,50% 3,70% 3,58% 6,14% 4,87 9,81 1,49% 1,76% 1,71% 2,93% 0,45 0% 0,08% 0,08% 0,13% 2,89 0,50% 0,52% 0,50% 0,86% 0,69 0% 0,12% 0,12% 0,21% Chinês simplificado Chinês tradicional Coreano Croata Dinamarquê s Eslovaco 1,63 Esloveno 0,14 0,40 0,04% 0,07% 0,07% 0,12% Espanhol 8,92 15,98 2,73% 2,87% 2,78% 4,77% Estoniano 0,20 0,48 0,06% 0,09% 0,08% 0,14% 0,02 0, % 0% 0% 0,01% 1,33 2,64 0,41% 0,47% 0,46% 0,79% 10,66 19,15 3,27% 3,44% 3,33% 5,72% 0 0% 0% 0% 0% 0,39 0,00% 0,07% 0,07% 0,12% Faroense Finlandês Francês Frisão Gaélico Galego 0,01 0% 0% 0% 0% Grego 0,31 0,66 0,09% 0,12% 0,11% 0,20% Hebreu 0,21 0,30 0,06% 0,05% 0,05% 0,09% Húngaro 0,57 1,36 0,17% 0,24% 0,24% 0,41% 0,76 0% 0,14% 0,13% 0,23% 220,78 335,04 67,63% 60,20% 58,27% 100 % 0,07% Indonésio Inglês Islandês 0,15 0,25 0,05% 0,04% 0,04% Italiano 5,67 10,77 1,74% 1,93% 1,87% 3,21% Japonês 19,33 37,40 5,92% 6,72% 6,50% 11,16% 0,03 0% 0,01% 0,01% 0,01% Latim Letão 0,07 0,10 0,02% 0,02% 0,02% 0,03% Lituano 0,11 0,16 0,03% 0,03% 0,03% 0,05% 0,17 0% 0,03% 0,03% 0,05% Malaio Neerlandês 3,77 6,83 1,15% 1,23% 1,19% 2,04% Norueguês 1,44 2,62 0,44% 0,47% 0,46% 0,78% 34 Esse quadro não toma em conta páginas plurilíngües. L5 (2001) total L4 (1998) total 0,02% 22,24 Alemão L5 (2001) % inglês 13,4% 6,97% 10,95% 5,69% 2,53% 8,86% 4,61% 2,81% 52% 5,88% 3,06% 75% 1,50% Polonês 1,08 3,36 0,33% 0,60% 0,58% 1% Português 5,03 9,04 1,54% 1,62% 1,57% 2,70% 5,40% 2,81% 0,82% Romeno 0,14 0,22 0,04% 0,04% 0,04% 0,07% 0,32% 0,17% 0,15% Russo 7,04 12,76 2,16% 2,29% 2,22% 3,81% Sueco 3,33 5,11 1,02% 0,92% 0,89% 1,53% 0,95 0% 0,17% 0,17% 0,28% Tai Tcheco 1,21 3,50 0,37% 0,63% 0,61% 1,04% Turco 0,52 1,15 0,16% 0,21% 0,20% 0,34% Ucraniano 0,30 0% 0,05% 0,05% 0,09% Vietnamita 0,17 0% 0,03% 0,03% 0,05% Total estimado Total parcial 340 575 326,43 556,59 (Cifras indicadas por Fastsearch) Anexo 7: Critérios de seleção dos termos O quadro abaixo particulariza o conjunto de critérios escolhidos para proceder à seleção dos termos da amostra. Trata-se de critérios de filtragem para a aceitação de um termo. Para atingir os 57 termos da amostra, centenas de outros foram eliminados. Tabela 18: Critérios de seleção lingüística dos termos da amostra CRITÉRIO Neutralidade cultural Homografia interlingüística DÉFINIÇÃO Propriedade de uma palavra em relação com a freqüência de seu aparecimento na linguagem em função da cultura. EXEMPLOS Vin, parfum, gastronomie (vinho, perfume, gastronomia) e os termos da linguagem diplomática não são culturalmente neutros em francês. Exemplo de grafia A ortografia de um termo numa idêntica: casa em língua é idêntica à espanhol, em italiano e de um termo numa em português. outra língua. Isto Exemplos de falsos concerne tanto as cognatos: red em grafias idênticas espanhol (rede), red que possuem o em inglês (vermelho); hier em francês mesmo sentido quanto os "falsos (ontem) e hier em cognatos". alemão (aqui). Quando uma Homografia interlingüística por palavra de uma língua é aceita tal empréstimo qual numa outra língua. Homografia com uma abreviação Homografia com um nome próprio freqüente Os anglicismos como business, sandwich ou software. Reciprocamente, deja vu em inglês (homógrafo do francês sem diacríticos). Número sept (em francês) com as abreviações de septembre e, sobretudo, September (inglês). Julio, julho em espanhol, e o nome espanhol muito freqüente com o mesmo significante. Windows significa janela em inglês.... mas é também o nome de um programa informático muito MÉTODO A fim de obter uma amostra com o menor coeficiente de variância possível, foram eliminados os termos culturalmente não neutros. COMENTÁRIOS Eliminar da amostra os termos que apresentam esta característica (com ou sem diacríticos). Somente são levadas em consideração as homografias entre as línguas do estudo e/ou com línguas muito presentes na Internet (como o alemão). Para evitar o risco estatístico de homografia com línguas estranhas ao estudo, foram eliminadas as palavras de menos de quatro letras. Eliminação da amostra dos termos emprestados. Evitar estes termos. Eliminar os termos desta categoria Estamos relativamente protegidos por nossa instrução de evitar as palavras de menos de quatro letras. citado no espaço Internet. Ambasador em romeno e amba(s)sador em inglês. Pseudohomografia interlingüística Escrever um termo com um erro comum de ortografia corresponde a um termo numa outra língua. Significados não equivalentes Prix em francês Evitar estes termos ou, se significa ao mesmo possível, compará-los escrupulosamente tempo prêmio e preço, premio e precio incluindo todos os (espanhol), price e significantes que prime (inglês). completariam um significado equivalente nas línguas que o exijam. O inglês, muito Love em inglês é ao Evitar estes termos. Esta característica do inglês leva-nos a diferente do ponto mesmo tempo o termo de vista sintático que significa amor e o eliminar a priori os das outras línguas verbo amar: no verbos estudadas, possui infinitivo, no presente muitas vezes a do indicativo (amo, mesma forma amas, amamos, amais, como nome e amam), etc. variante verbal, equivalente por sua vez a várias formas da conjugação nas outras línguas. Os adjetivos, O adjetivo inglês Procurar multiplicar as invariáveis em yellow corresponde a variantes em gênero, inglês, variam em amarelo /amarela / número e caso nas outras gênero e número amarelos/ amarelas. línguas, quando a nas outras línguas O substantivo inglês necessidade de estudadas. Os equivalência o exigir. instability / substantivos, que instabilities às só variam, em seguintes variantes geral, em número romenas: nas outras línguas, instabilitate / instabilitatea / variam também conforme o caso instabilităţii / instabilităţi / (nominativo, instabilităţile / genitivo, etc.) e apresentam uma instabilităţilor (não incluímos aqui as diferença determinado / não variantes sem determinado em diacríticos). romeno. Quando uma Dependendo do país Tentar multiplicar as língua possui mais hispanófono, pode-se variantes sinonímicas de um centro dizer nafta ou nacionais ou regionais no normativo léxico- gasolina. Americano, tocante às equivalências, semântico. em certos países quando possível. Morfossintaxe não equivalente: nome, verbo Morfossintaxe não equivalente: adjetivos e nomes Pluricentrismo léxico e semântico O caso é eliminado somente se a língua de chegada for o inglês. Pluricentrismo ortográfico hispanoparlantes da América Latina, não tem o mesmo sentido que em outros ou na Espanha ("pertencente ao conjunto do continente" ou "pertencente aos Estados Unidos"). Quando uma É o caso do inglês e, língua possui mais sobretudo, do de um centro português. Certos normativo termos são ortográfico. ortografados de forma diferente nos Estados Unidos e na Inglaterra, (theater e theatre), em Portugal e no Brasil (electricidade e eletricidade). Procurar multiplicar as variantes ortográficas nacionais quanto às equivalências, sempre que possível. LOCUL LIMBILOR LATINE PE INTERNET EDIŢIA 2001 Studiu propus de: FUNREDES (Asociaţia Reţele şi Dezvoltare) http://funredes.org Uniunea Latină http://www.unilat.org Studiu realizat în perioada august 2000 - iunie 2001 Drepturi de autor şi de exploatare © 2000-2001, Funredes, Uniunea Latină. CUPRINS 1- PROLOG ŞI ANTECEDENTE ................................................................................. 4 2. AUTORI .............................................................................................................. 5 3. PREZENTAREA GENERALĂ A STUDIULUI ŞI A REZULTATELOR SALE ................... 6 3.1 METODOLOGIE ......................................................................................................6 3.2. SINTEZĂ COMENTATĂ A REZULTATELOR .......................................................................6 3.2.1. Rezultate relative în raport cu limba engleză .................................................6 3.2.2 Rezultate absolute........................................................................................7 3.3. RELAŢIA DINTRE NUMĂRUL LOCUTORILOR ŞI PREZENŢA LOR PE INTERNET .................................7 3.4. VITALITATEA PRODUCERII DE INFORMAŢII DE CĂTRE INTERNAUŢI ÎN FUNCŢIE DE LIMBA LOR ............8 4. REZULTATELE ÎN DETALIU ............................................................................... 11 4.1 METODOLOGIE INTERNET ........................................................................................ 11 4.1.1. Identificarea şi preselectarea principalelor motoare de căutare disponibile pe Web 11 4.1.2 Validarea motoarelor selecţionate în funcţie de metodologia folosită ................. 11 4.1.3 Selectarea finală a motoarelor de căutare pentru aplicarea metodologiei ........... 12 4.2. METODOLOGIE LINGVISTICĂ ................................................................................. 12 4.2.1 Problemele noi apărute pentru limba germană ............................................... 13 4.2.2 Alte probleme ............................................................................................ 13 4.3. METODOLOGIE STATISTICĂ ................................................................................... 13 4.3.1. Rezultatele măsurătorilor cu motoarele de căutare preselecţionate ................ 14 4.3.2. Calculele statistice şi rezultatele pentru limba engleză.................................. 14 4.3.3. Calculul rezultatelor absolute .................................................................... 14 4.4. COMPARAŢIE CU ALTE STUDII ................................................................................ 16 4.4.1. Comparaţie cu studiile precedente ............................................................. 16 4.4.2. Comparaţie cu studiile similare (Alis şi Inktomi) .......................................... 16 5. TENDINŢA EVOLUŢIEI LIMBILOR STUDIATE................................................... 18 6. PERSPECTIVE PENTRU O CONTINUARE A OBSERVAŢIEI ................................. 20 7. REFERINŢELE PE INTERNET PRIVIND LUCRĂRILE CONEXE............................. 21 ANEXA 1: RECAPITULAREA REFERINŢELOR DIVERSELOR STUDII REALIZATE DE AUTORI ................................................................................................................ 22 ANEXA 2: VIZUALIZAREA INTERVALELOR DE ÎNCREDERE PENTRU REZULTATELE PE FIECARE LIMBĂ .................................................................................................... 24 ANEXA 3: LISTA TERMENILOR EŞANTIONULUI DE REFERINŢĂ............................. 25 ANEXA 4: SELECTAREA MOTOARELOR DE CĂUTARE PENTRU STUDIUL L5 ............ 38 INTRODUCERE .......................................................................................................... 38 REZULTATELE, PE FIECARE LIMBĂ, ÎN FUNCŢIE DE MOTORUL DE CĂUTARE ...................................... 38 Date referitoare la Internet şi la motoarele de căutare ............................................ 39 Validarea motoarelor de căutare în funcţie de metodologia noastră ........................... 41 CONCLUZIE ........................................................................ ERREUR ! SIGNET NON DEFINI. ANEXA 5: INTERFAŢA DE AUTOMATIZARE A STUDIULUI L5 ................................. 43 INTRODUCERE .......................................................................................................... 43 TEHNOLOGIA UTILIZATĂ............................................................................................... 43 DETALIILE FUNCŢIONĂRII SISTEMULUI .............................................................................. 43 Baza de date...................................................................................................... 43 Interfeţele PHP................................................................................................ 44 CONCLUZII ŞI PLAN PENTRU VERSIUNEA VIITOARE ................................................................ 45 ANEXA 6: REZULTATELE MĂSURĂTORILOR CLASAMENTULUI PE LIMBI CU FASTSEARCH ŞI COMPARAŢIE .............................................................................. 47 ANEXA 7: CRITERII DE SELECŢIE A TERMENILOR ................................................ 49 ANEXA 8: REZULTATUL CONTORIZĂRII FIECĂREI VARIANTE PE TERMEN ŞI PE MOTOR (în curs de elaborare, în franceză) ANEXA 9: REZULTATUL CONTORIZĂRII TERMENILOR PE FIECARE MOTOR (în curs de elaborare, în franceză) Referinţele tabelelor Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul Tabelul 1: Mediile limbii neolatine (şi limbii germane) în raport cu limba engleză................6 2: Prezenţa absolută pe Internet a limbilor studiate.............................................7 3: Ponderea limbilor studiate (cifre rotunjite în milioane) .....................................8 4: Prezenţa ponderată a limbilor studiate în spaţiul WWW ....................................8 5: Numărul internauţilor clasaţi în funcţie de limbă (în milioane) ...........................9 6: Productivitatea locutorilor.............................................................................9 7: Detaliile rezultatelor statistice ..................................................................... 14 8: Ipoteza progresiei ponderii limbilor studiate ................................................. 15 9: Evoluţiile raporturilor între ponderea limbilor franceză, spaniolă şi engleză ....... 16 10: Rezultatele studiului Inktomi (februarie 2000)............................................. 16 11: Rezultatele obţinute cu Fastsearch în august 2000, ianuarie 2001, iunie 2001. 18 12: Tendinţe de evoluţie ................................................................................ 18 13: Recapitularea referinţelor şi studiilor realizate de autori ............................... 22 14: Vizualizarea intervalelor de încredere ......................................................... 24 15: Liste termenilor eşantionului de referinţă ................................................... 25 16: Rezultatele studiului pentru cele 6 motoare de căutare preselecţionate .......... 38 17: Rezultatele clasamentului pe limbi obţinut cu Fastsearch şi comparaţie .......... 47 18: Criterii de selecţie lingvistică ai termenilor eşantionului ................................ 49 1- Prolog şi antecedente Acest studiu continuă lucrările realizate de Funredes, între anii 1995 şi 19981, privind locul limbilor şi al culturilor neolatine pe Internet. Această ediţie se concentrează pe studiul limbilor. A fost păstrat principiul metodologic de bază care şi-a demonstrat soliditatea cu ocazia ediţiei precedente a studiului. Este vorba de măsurarea, în anumite spaţii Internet2, a numărului de menţionări sau de ocurenţe a 57 cuvinte sau termeni având o semnificaţie echivalentă în limbile studiate (engleză, franceză, italiană, portugheză, română, spaniolă), analizând şi comparând apoi rezultatele pentru a deduce, prin metode statistice, prezenţa, în procente, a fiecăreia dintre limbi. A fost luată în considerare o primă extindere a studiului la limba germană (cu intenţia de a-l lărgi, în continuare, şi la alte limbi). Spaţiul motoarelor de căutare a evoluat foarte mult de la studiul precedent, ceea ce a condus la o analiză a implicaţiilor schimbărilor asupra metodologiei noastre; în consecinţă, s-au produs ameliorări sensibile faţă de cercetările precedente. • • • Aplicarea mai multor motoare de căutare, selecţionate atent în prealabil, în scopul obţinerii de rezultate cât de riguroase posibil. Automatizarea numărătorilor şi a calculelor cu ajutorul unui program având rolul de interfaţă între termenii de contorizat, înregistraţi în baze de date, şi motoarele de căutare. Această investiţie va permite, în viitor, publicarea de rezultate la intervale regulate, realizându-se, astfel, o observare reală. Sistematizarea prelucrării omografiilor interlingvistice printr-o gestiune automatizată, mai solidă pe plan metodologic. Pe de altă parte, au fost corectate anumite erori care s-au strecurat în câteva ocurenţe ale eşantionului3. În plus, s-a făcut un prim pas pentru extinderea studiului la limba germană, fără a schimba, pentru moment, metoda de căutare a acestor ocurenţe, obţinând însă rezultate net mai imprecise decât pentru celelalte limbi4. Se vor face referiri la etapele anterioare acestui studiu. Pentru a ajuta cititorul, o sinteză a demersurilor şi a rezultatelor anterioare, cu legăturile Internet asociate, permite accesul la documentele corespunzătoare în anexa 1. 1 Cu sprijinul Agenţiei pentru Francofonie pentru ediţia a IV-a şi în colaborare cu Uniunea Latină începând cu cea de a III-a ediţie. 2 În această ediţie a fost luat în considerare numai spaţiul web (pagini de Internet), fără spaţiul Usenet. 3 Este vorba de erori minore care nu au produs o abatere notabilă faţă de rezultatele publicate în studiul precedent. 4 Forma de compunere a cuvintelor în germană face ca această cercetare, aşa cum este făcută pentru celelalte limbi, să dea valori peste realitatea lingvistică. Rezultatele pe care le prezentăm, având corecţiile introduse în exponent, sunt încă aproximative. Problemele pe care le pune adaptarea metodologiei noastre la limba germană sunt detaliate în capitolul 4.2.1. 2. Autori Echipa de lucru: Coordonare generală: Conducerea studiului: Supervizare lingvistică: Responsabil lingvistic: Echipa lingvistică: Daniel Pimienta ([email protected]) Benoit Lamey ([email protected]), sub direcţia lui Daniel Pimienta Daniel Prado ([email protected]) Marcelo Sztrum ([email protected]) Direcţia Terminologie şi Inginerie Lingvistică a Uniunii Latine Automatizarea măsurătorilor şi a calculelor lingvistice5: Benoit Lamey ([email protected]) 5 Mulţumim călduros lui Roger Price pentru sprijinul acordat. 3. Prezentarea generală a studiului şi a rezultatelor sale 3.1 Metodologie Rezultatele sunt obţinute păstrând metodologia urmată începând din anul 1998. Mai întâi se realizează o selecţie cuprinzând 57 de termeni pentru fiecare limbă, fiecare admiţând variante ortografice în funcţie de semnele diacritice, variante sinonimice, dialectale sau morfosintactice şi care au aceeaşi semnificaţie în limbile studiate (detaliile criteriilor lingvistice: în 4.2 şi anexa 7). În continuare, se analizează şi se compară rezultatele pentru a deduce, în procente, prezenţa fiecărei limbi. Pentru fiecare termen, raportul limbilor latine faţă de limba engleză este utilizat ca o variabilă aleatorie, fiind aplicate tehnici statistice care iau ca ipoteză o distribuţie matematică curentă a acestei variabile aleatorii (curba lui Gauss, numită şi distribuţie „normală“). Rezultatele prezentate mai jos au fost obţinute prin sinteza scorurilor obţinute cu două motoare de căutare care au îndeplinit criteriile de selecţie descrise în anexa 4. Toate măsurătorile luate în calcul în acest studiu au fost efectuate în perioada august 2000 iunie 2001. 3.2.Sinteză comentată a rezultatelor 3.2.1. Rezultate relative în raport cu limba engleză Tabelul următor prezintă raportul mediu între fiecare limbă neolatină (şi limba germană) şi limba engleză, obţinut prin contorizarea ocurenţelor noastre în spaţiul Web în iunie 2001. Tabelul 1: Mediile limbii neolatine (şi limbii germane) în raport cu limba engleză 6 SPANIOLĂ 10,95% FRANCEZĂ 8,86% ITALIANĂ 5,88% PORTUGHEZĂ 5,40% ROMÂNĂ 0,32% GERMANĂ > 13,42% estimat6 Există, în această versiune a studiului, o diferenţă calitativă între rezultatele obţinute pentru limba germană şi cele pentru celelalte limbi. Într-adevăr, formarea cuvintelor în limba germană, foarte diferită faţă de celelalte limbi studiate până în prezent, ar „sancţionao“ greu dacă am considera rezultatele obţinute cerând motoarelor noastre să facă o căutare “după cuvânt izolat” sau separat, adică fără nici un context înainte sau după termen. Pentru a obţine rezultate la fel de fiabile ca acelea stabilite pentru celelalte limbi, ar trebui, într-o etapă viitoare, să se realizeze căutări „după fiecare cuvânt neizolat“ (i.e.: cu context nedeterminat înainte şi după termen) şi să utilizeze, ca ajutor, în măsura posibilităţilor, un factor numeric care exprimă diferenţa de cantitate a cuvintelor separate, în general între limbile studiate şi limba germană. Am ales ca soluţie păstrarea eşantionului şi extinderea lui la 57 de termeni germani echivalenţi şi căutarea şi după cuvânt izolat. Ni s-a părut necesară, pentru a începe să ne apropiem de această realitate lingvistică, o corecţie de cel 3.2.2 Rezultate absolute Rezultatele pe care tocmai le-am citat permit evaluarea prezenţei limbilor neolatine şi, aproximativ, a limbii germane faţă de limba engleză; pentru a estima prezenţa absolută a acestor limbi în spaţiul Internet, este necesar, ca în prealabil, să construim o ipoteză privind prezenţa limbii engleze. Tabelul de mai jos arată valorile prezenţei absolute, stabilite plecând de la mediile pentru diverse ipoteze privind prezenţa limbii engleze. Tabelul 2: Prezenţa absolută pe Internet a limbilor studiate Dacă ENGLEZA= 65% 60% 55% 52% 50% 45% atunci SPANIOLA = 7,12% 6,57% 6,02% 5,69% 5,48% 4,93% 4,38% atunci FRANCEZA = 5,76% 5,32% 4,87% 4,61% 4,43% 3,99% 3,54% atunci ITALIANA = 3,82% 3,53% 3,23% 3,06% 2,94% 2,65% 2,35% atunci PORTUGHEZA = 3,51% 3,24% 2,97% 2,81% 2,70% 2,43% 2,16% atunci ROMÂNA = 0,21% 0,19% 0,18% 0,17% 0,16% 0,14% 0,13% atunci GERMANA7 8,71 % 8,04% 7,37% 6,97% 6,70% 6.03% 5,37% Va rămâne deci un spaţiu pentru celelalte limbi 5,83% 13,10% 20,35% 24,96% 27,59% 34,83 % 40% 42,07 % Acest tabel ne oferă o imagine mai precisă a ponderii absolute a limbilor studiate faţa de ansamblul paginilor prezente pe Internet. Unul din indicatorii cei mai semnificativi este cel al spaţiului disponibil pentru limbile rămase care ne permite să selectăm ipoteza unei prezenţe absolute a limbii engleze de aproximativ 52% ca fiind cea mai probabilă. Pentru aceasta, este suficient să considerăm limbile chineză şi japoneză, care, foarte verosimil, au o pondere de acelaşi ordin ca şi limbile germană sau spaniolă (între 5 şi 8%), la fel cu limbile care au o reprezentare între 0,5% şi 2% (coreeană, olandeză, rusă şi cele patru limbi scandinave care însumează un total între 8% şi 10%), limbile cu o prezenţă foarte slabă, cum este româna (şi anume zece limbi cu 0,1% pentru un total de 1%) şi, în final, numeroasele limbi a căror prezenţă rămâne marginală. Această ultimă proporţie este cel mai dificil de estimat; reţinem ipoteza că cele 200 de limbi cu 0,01% au atins un total de 2%... Una din marile necunoscute, ale cărei consecinţe rămân de evaluat în viitor, este posibila multiplicare a limbilor pe Internet, totalul limbilor existente fiind între 3000 şi 6000. Aceste estimări ne fac să ajungem la o pondere totală de 25% pentru limbile nestudiate şi, deci, ne îndeamnă să susţinem ipoteza unei prezenţe absolute de 52% pentru limba engleză. Estimarea de 25% pentru ponderea limbilor neluate în calcul direct în studiu este susţinută de evoluţia dinamică a ponderilor acestor limbi descrisă în capitolul 4.3.3. 3.3. Relaţia dintre numărul locutorilor şi prezenţa lor pe Internet Este evident că valorile prezenţei absolute nu sunt un indicator perfect al vigorii unei limbi în reţelele internaţionale. Pentru a obţine un rezultat semnificativ ar trebui să se proporţioneze puţin 30 % în plus faţă de rezultatele astfel obţinute. Cifra de 13,42% s-a obţinut prin aplicarea unei creşteri de 30% primului rezultat brut de 10,32%. 7 Rezultate majorate cu 30% (vezi nota 6). valorile care exprimă prezenţa limbilor pe Internet cu o valoare a prezenţei lor în lumea reală. Prezenţa relativă a limbilor este calculată fără a ţine seama în totalitate de factorul „plurilingvism“. Această metodă implică anumite dificultăţi metodologice care au fost descrise în studiul L4. Tabelul 3: Ponderea limbilor studiate (cifre rotunjite în milioane) Engleză Prezenţă absolută 630 (număr de locutori) Prezenţă relativă 10,50% (procentaj mondial) Franceză Italian Portugh Română Spaniolă ă eză 130 60 190 30 375 2,17% 1% 3,17% 0,50% Germană 6,25% 120 2% Tabelul 4: Prezenţa ponderată a limbilor studiate în spaţiul WWW Prezenţă absolută 2001 Prezenţă ponderată 1998 Prezenţă ponderată 2000 Prezenţă ponderată 2001 ENGLEZĂ 52% 7,14 5,71 4,95 FRANCEZĂ 4,61% 1,30 2,02 2,12 ITALIANĂ 3,06% 1,50 2,77 3,06 PORTUGHEZĂ 2,81% 0,26 0,68 0,88 ROMÂNĂ 0,17% 0,30 0,38 0,34 SPANIOLĂ 5,69% 0,40 GERMANĂ 6,97% Nedisponibil 0,78 3,158 0,91 3,499 Un rezultat egal cu 1 este, deci, considerat „normal“, dacă este inferior lui 1 este considerat slab şi dacă este superior lui 1– respectabil. Un progres important pentru spaniolă şi portugheză, dar ele rămân, totuşi, sub pragul unei reprezentări „normale”. Scor excelent pentru germană şi italiană şi rezultat bun pentru franceză. 3.4. Vitalitatea producerii de informaţii de către internauţi în funcţie de limba lor Un studiu Global Reach, ale cărui ultime rezultate au fost publicate la date de 31 martie 2001 (http//:www.glreach.com), propune o valoare pentru numărul de utilizatori ai Internetului pentru fiecare limbă: 8 9 Rezultate majorate cu 30% (vezi nota 6). Rezultate majorate cu 30% (vezi nota 6). Tabelul 5: Numărul internauţilor clasaţi în funcţie de limbă (în milioane) Spaniolă Englez Portug Franceză Italiană Română Germană Restul ă heză Internauţi (în milioane) 215,6 16,6 14,2 11,5 0,6 20,4 Repartiţii în % 47,6% 3,7% 3,1% 2,5% 0,13% 4,5% 27,5 146,2 6,1% 32,2% Comparând aceste rezultate cu cele obţinute prin studiul nostru (a se vedea Tabelul 6), ar trebui să putem deduce care sunt segmentele lingvistice care produc cea mai multă informaţie pe Internet. Tabelul 6: Productivitatea locutorilor ENGLEZĂ Pagini 52% Internauţi 47,6% P/I 1,09 FRANCEZĂ 4,61%% 3,7% 1,25 ITALIANĂ 3,06%% 3,1% 0,98 PORTUGHEZĂ 2,81%% 2,5% 1,12 ROMÂNĂ 0,17%% 0,13% 1,31 SPANIOLĂ 5,69% 6,97%%10 4,5% 1,26 6,1% 1,14 GERMANĂ Am obţinut un rezultat destul de important: proporţia paginilor disponibile pe Internet pentru fiecare limbă şi proporţia internauţilor prezenţi au acelaşi ordin de mărime ! Raportul dintre procentajul paginilor şi procentajul utilizatorilor are valori în jurul lui 1 pentru toate limbile studiate11, de unde ar rezulta că, în prezent, cantitatea de pagini Web produse pentru o limbă este direct proporţională cu numărul internauţilor care vorbesc această limbă. Rezultatul obţinut de limba engleză ne surprinde: am fi putut să ne aşteptăm la o valoare mult mai mare sub influenţa plurilingvismului12. Aceasta ar putea, deci, să însemne că productivitatea locutorilor de limbă engleză este inferioară celei a locutorilor altor limbi menţionate, să fie dovada unui avans în producţia locutorilor altor limbi 10 Rezultate majorate cu 30% (vezi nota 6). Diferenţele sunt mai mici de 25% în valoare absolută şi este dificil să tragem concluzii în ceea ce priveşte aceste diferenţe foarte mici, care sunt cuprinse în intervalele de încredere ale cifrelor anunţate de Global Reach, care nu beneficiază de o metodologie standard pentru toate limbile. 12 Proporţia locutorilor de limbi diferite de limba engleză care produc pagini în această limbă (sau traduc paginile lor în engleză) este, se ştie, foarte mare. 11 occidentale, conştienţi de miza lingvistică a Internetului ? Ar fi foarte interesant să aflăm aceste valori pentru cele mai recente limbi de pe Internet. 4 Rezultatele în detaliu 4.1 Metodologie Internet Evoluţia accelerată, de la ultimul nostru studiu, a motoarelor de căutare aflate pe Internet a făcut necesară o muncă suplimentară şi o analiză în profunzime a metodologiei Internet utilizate pentru obţinerea rezultatelor. Această muncă suplimentară a cuprins 3 etape: Identificarea motoarelor de căutare şi realizarea unei preselecţii. Verificarea lor în ceea ce priveşte numărarea termenilor13. Selectarea motoarelor care oferă cele mai bune garanţii pentru aplicarea metodologiei noastre. 4.1.1. Identificarea şi preselectarea principalelor motoare de căutare disponibile pe Web În această etapă au fost identificate următoarele motoare: AltaVista, Excite, Fastsearch14, Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo şi Webtop. Webtop, cel mai nou motor de căutare, n-a fost încă suficient testat pentru ca să decidem să ne asumăm riscul de a-l include. Hotbot, Lycos şi Yahoo au fost eliminate pentru că sunt în parteneriat cu alte motoare de căutare şi furnizează aceleaşi rezultate: Lycos utilizează indexul lui Fastsearch, şi Yahoo pe cel al lui Google. Hotbot şi iWon utilizează acelaşi index furnizat de Inktomi. Hotbot, pe care l-am ales pentru studiul precedent, n-a putut fi reutilizat, din păcate, pentru că nu mai indică rezultatele numărătorilor. Inktomi nu oferă direct utilizatorilor serviciile indexului său, rămâne deci iWon. În ceea ce priveşte Excite, nu a putut fi folosit, la fel ca şi Hotbot, nu furnizează rezultatele în momentul numărătorilor15. Au rămas, deci, în cursă şase motoare: AltaVista, Fastsearch, Google, Infoseek, iWon şi Northern Light. 4.1.2 Validarea motoarelor selecţionate în funcţie de metodologia folosită O automatizare a procedeului de măsurare, detaliată în anexa 5, a permis producerea de rezultate pentru 6 motoare de căutare preselectate, fiecare prelucrând cele aproximativ 1600 de variante ale celor 57 de termeni selectaţi pentru fiecare limbă. Rezultatele obţinute au arătat mari divergenţe între motoare. ceea ce ne-a ridicat mari semne de întrebare în ceea ce priveşte metodologia noastră ! A reieşit cu claritate că trebuia făcut un efort de analiză amănunţită pentru a explica aceste divergenţe şi a detecta motoarele care oferă rezultatele cele mai credibile. 13 Trebuie înţeles foarte bine că rezultatele numărătorilor sunt, în întregime, anexe funcţiei principale a motoarelor care este de a identifica paginile care conţin termenii căutaţi într-un ordin de relevanţă maximală. Anumite motoare furnizează valori ale totalului paginilor care răspund criteriului de căutare, altele nu. În toate cazurile trebuie luate toate precauţiile pentru a verifica foarte bine fiabilitatea datelor obţinute în urma numărătorilor. 14 Cunoscut şi sub numele de Alltheweb. 15 Acest neajuns a fost corectat între timp, rezultatele obţinute cu Excite vor fi luate în calcul la următoarea versiune a studiului, dacă îşi menţine această funcţie. Au fost definite mai multe criterii pentru a valida utilizarea unui motor de căutare pentru prezentul studiu. Un motor de căutare ca să poată fi un instrument al aplicării metodologiei noastre trebuie să posede următoarele caracteristici: să aibă un index suficient de mare în raport cu întinderea Internetului, să ia în calcul, într-o manieră coerentă, semnele diacritice, să ofere rezultate coerente în ceea ce priveşte numărarea paginilor găsite, să dispună de un index omogen pentru toate limbile. Rezultatele obţinute pentru fiecare motor, detaliile selectării lor, precum şi alte informaţii generale care privesc motoarele de căutare sunt disponibile în anexa 4. 4.1.3 Selectarea finală a motoarelor de căutare pentru aplicarea metodologiei Din totalul motoarelor preselectate au fost reţinute numai două, Google şi Fastsearch, pentru a servi, la momentul realizării primelor măsurători în august 2000, ca suport unui studiu privind prezenţa diferitelor limbi pe Internet. În acest prim moment, rezultatele lor au fost utilizate concomitent16 la obţinerea rezultatelor finale. Proximitatea rezultatelor obţinute cu fiecare motor, plecând de la un index şi de la tehnici de căutare diferite, ni s-a părut a fi un bun argument pentru validitatea metodologiei noastre: Engleză17 Google 210 Fast 147 Spaniolă 7,86% 8,41% Franceză Italiană Portugheză Română Germană18 7,33% 4,65% 2,82% 0,27% 7,89% 7,33% 4,60% 3,95% 0,37% 8,47% Însă, cu ocazia ultimei contorizări, realizată în iunie 2001, s-a dovedit că Google nu mai trata semnele diacritice într-o manieră satisfăcătoare şi de aceea am renunţat la rezultatele sale. 4.2. Metodologie lingvistică În afară de introducerea, ca un prim pas în extinderea cercetării, a echivalentelor pentru limba germană şi de corectarea anumitor erori care au apărut la scrierea variantelor19, metodologia lingvistică rămâne neschimbată faţă de versiunea precedentă a studiului. Celor 57 de termeni selectaţi în 1998 li s-au adăugat echivalentele în limba germană. Fiecare termen, având un anumit număr de variante (ortografice, în funcţie de semnele diacritice, sinonimice, dialectale, morfosintactice …) a fost păstrat în continuare, fiind considerat atât echivalent cu corespondentul său în celelalte limbi studiate, cât şi distinctiv, adică fără (sau aproape fără) omografiile interlingvistice20 ale variantelor sale sau alte obstacole în realizarea echivalentelor. Eşantionul celor 57 de termeni se găseşte în anexa 3. 16 Pentru rezultatele statistice am fuzionat rezultatele celor două motoare pentru a obţine o serie mai lungă a valorilor variabilei noastre aleatoare. 17 Milioane de pagini în limba engleză. 18 Este vorba de rezultate brute, fără corecţia de 30%. 19 Este vorba de erori minore care nu au provocat o diferenţă notabilă faţă de rezultatele publicate în studiul precedent. Detalii în Anexa 3. 20 Este vorba de forme care au aceeaşi grafie în mai mult de o limbă; omografiile în interiorul aceleiaşi limbi sunt considerate ca fiind acelaşi cuvânt. 4.2.1 Problemele noi apărute pentru limba germană Formarea cuvintelor în limba germană este foarte diferită de cea a celorlalte limbi abordate până în prezent în acest studiu: limbile de tipul germanei reunesc într-un singur cuvânt „compus“ rădăcini care, în formele echivalente din celelalte limbi studiate (şi, cu unele excepţii, mult mai puţin decât germana şi engleza), se găsesc separate în cuvinte diferite, constituind o sintagmă. Aşadar, echivalentele fiind făcute între cuvinte necompuse şi, presupunând că se caută cuvinte separate, fără context nedeterminat înainte sau după, limba germană este „penalizată“ foarte mult, deoarece formele foarte frecvente, cum ar fi Ziegenkäse, echivalentul lui „brânză de capră“, sunt înlăturate sistematic. Un prim pas în rezolvarea acestei probleme a fost făcut prin adăugarea la rezultatele obţinute cu vechea metodologie a unui procent de 30%, ca prag probabil minim. Dar, pentru a avea rezultate la fel de fiabile ca acelea obţinute pentru celelalte limbi ar trebui, fără îndoială, ca în viitor să se prevadă căutări „după cuvinte neizolate“ (cu şi fără context nedeterminat înainte sau după cuvânt), folosind pentru corecţie, în măsura posibilităţilor, un factor numeric care exprimă diferenţa cantitativă dintre cuvintele limbilor studiate şi limba germană. Acest factor de corecţie se poate afla, probabil, în cercetările efectuate în cadrul cercetărilor pe corpusuri paralelele interlingvistice. 4.2.2 Alte probleme Partea lingvistică a studiului reiese din anexele 3 şi 7. Pentru celelalte detalii ale metodologiei lingvistice se poate consulta versiunea precedentă a studiului, L4, capitolul 2.2. Reamintim faptul că am ţinut să includem, alături de formele cu semne diacritice (accente etc.), şi variantele fără diacritice, foarte frecvente pe Internet. În cazul limbii germane, nu am ţinut cont de distincţia morfosintactică majusculă / minusculă, care este neutralizată de motoarele noastre de căutare, nefiind, deci, pertinentă. De altfel, fusese luată decizia să nu fie incluse formele cu mai puţin de 4 litere pentru a evita omografiile posibile (mai ales cu sigle, dar nu numai). Omografiile între cel puţin două dintre limbile studiate au apărut extrem de frecvent, mai ales între spaniolă şi portugheză, dar nu numai, şi, bineînţeles, trebuiau evitate coincidenţele apărute în urma împrumutului între limbi. Uneori, unei omografii cazuale, cum este cea a variantelor limbii germane Montage / Montages (luni) cu forme ale limbii franceze i s-a adăugat o omografie de împrumut, deoarece cuvântul din limba franceză este împrumutat, pentru domeniul cinematografiei, de aproape toate celelalte limbi. 4.3.Metodologie statistică Intervalele de încredere la 90% şi 99% din rezultate au fost stabilite utilizând distribuţia T a lui Student, luând ca ipoteză o distribuţie de tip normal. 4.3.1. Rezultatele măsurătorilor cu motoarele de căutare preselecţionate În tabelul 16 din anexa 4 sunt prezentate rezultatele cercetărilor obţinute în august 2000 în spaţiul WWW, pentru fiecare limbă, în funcţie de cele 6 motoare preselecţionate. 4.3.2. Calculele statistice şi rezultatele pentru limba engleză Sunt prezentate mai jos procentajele medii ale prezenţei pe Internet a limbilor latine (şi a limbii germane) faţă de limba engleză. Tabelul 7: Detaliile rezultatelor statistice Franceză Italiană Portughez ă Română Spaniolă Germană21 Medie 8,86% 5,88% 5,40% 0,32% 10,95% 13,4% Abatere-tip 5,09% 5,55% 5,49% 0,33% 9,46% 8,97% Coeficient de variaţie 0,57 0,94 1,01 1,02 0,86 0,66 4,67-7,09 4,20-6,60 Interval de încredere 7,75-9,97 la 90% 0,25-0,39 8,89-13,01 11,4515,37 Coeficientul de variaţie se calculează prin extragerea radicalului din abaterea-tip la pătrat împărţită la media la pătrat. O valoare superioară lui 1 indică o puternică dispersie, deci o medie puţin fiabilă. O valoare inferioară lui 1 indică o dispersie slabă, deci rezultatul este cu atât mai fiabil cu cât valoarea coeficientului este mai mică. Intervalul de încredere va fi deci, şi el, cu atât mai strâns cu cât valoarea coeficientului de variaţie este mai mică. 4.3.3. Calculul rezultatelor absolute Potrivit concluziilor prezentate în capitolul 3.2.1, s-a ajuns la o prezenţă absolută a limbilor studiate de: Engleză 52% Spaniolă 5,69% Franceză 4,61% Italiană 3,06% Portugheză 2,81% Română 0,17% Germană 6,97%22 Restul 24,96% Astfel, spaniola, aşa cum am prevăzut în studiul precedent, depăşeşte în prezent limba franceză, iar germana se situează înaintea tuturor limbilor latine. 21 22 Rezultate majorate cu 30% (a se vedea nota 6) Rezultate majorate cu 30% (a se vedea nota 6). Aceste rezultate au fost obţinute atât pe baza calculului rezultatelor relative (capitolul precedent), cât şi printr-o aproximare realistă a ponderii limbilor nestudiate, descrise la rubrica „restul“. Aproximarea ponderii limbilor nestudiate a fost realizată plecând de la măsurarea întinderii domeniului fiecărei limbi cu motorul de căutare Fastsearch. La momentul efectuării acestei măsurători, Fastsearch prezenta un index de 360 de milioane de pagini repartizate pe 31 de limbi. Pentru a afla câte pagini conţine indexul pentru fiecare limbă (conform algoritmului de detecţie al lui Fast), trebuie să se utilizeze secţiunea „advanced search“ (căutare avansată) şi să se facă o căutare, pentru fiecare limbă, pornind de la tehnica pe care am botezat-o în studiul nostru precedent „complementul ansamblului vid“ (aflarea numărului de pagini care nu conţin un cuvânt inexistent)23. Rezultă tabelul 17 din anexa 6. Acest tabel prezintă o aproximare a ponderii fiecărei limbi, dedusă cu ajutorul algoritmului de recunoaştere a limbilor motorului de căutare, care, fără îndoială, nu este perfect. De exemplu, o căutare a literei "è" în site-urile limbii engleze dă (pentru Google sau Fastsearch) un rezultat de un milion de site-uri dar, mai ales, în tailandeză, coreeană, japoneză, rusă. Un alt mod de obţinere a ponderii limbilor nestudiate este urmărirea dinamicii acesteia între L4 şi L5. Plecând de la valorile absolute ipotetice descrise în capitolul 3.2.1 şi de la valorile absolute ale limbilor considerate în studiul realizat în septembrie 1998, se obţine tabelul următor: Tabelul 8: Ipoteza progresiei ponderii limbilor studiate Limbi studiate Ipotezele ponderii absolute pentru L5 L4 sept 1998 Progresii L4/L5 -26,67% -33,33% ENGLEZĂ 55% 50% 45% 75% SPANIOLĂ 6,02% 5,48% 4,93% 2,53% FRANCEZĂ 4,87% 4,43% 3,99% 2,81% 73,31% ITALIANĂ 3,23% 2,94% 2,65% 1,50% 115,33% PORTUGHEZĂ 2,97% 2,70% 2,43% 0,82% 262,20% 229,27% 196,34% ROMÂNĂ 0,18% 0,16% 0,14% 0,15% Celelalte limbi 20,35% 27,59% 34,83% 17,19% -40% 137,94% 116,60% 94,86% 20% 18,38% 57,65% 41,99% 96% 6,67% 76,67% -6,67% 60,50% 102,62% O dată în plus, ipoteza unei ponderi absolute a limbii engleze în jur de 50% este cea mai realistă. Într-adevăr, o progresie de mai puţin de 18,38% a celorlalte limbi24 pare foarte nesatisfăcătoare: aceasta ar reprezenta o progresie de două ori mai puţin rapidă decât cea a limbii române şi de la 4 la 15 ori mai puţin rapidă decât cea a altor limbi neolatine studiate. Din contră, o creştere de 102% pentru limbile nestudiate ar părea exagerată: aceasta ar însemna o evoluţie mondială mai rapidă decât evoluţia marii majorităţi a limbilor neolatine (cu excepţia portughezei). O progresie, în medie, de 60% pentru limbile nestudiate le-ar aşeza la nivelul progresiei limbii franceze, ceea ce este mult mai credibil. Această confirmare 23 Argumentul de căutare este, de exemplu, < - "hgavdhjgduhgedujhgsdfyuhg">. „Celelalte limbi“ acoperă realităţi diferite, de la limbile scandinave şi asiatice cu progresie puternică la celelalte limbi, mai puţin difuzate, cu o progresie, probabil, mai lentă. 24 ne consolidează ipoteza unui rezultat final de ordinul 50% ca valoare absolută pentru limba engleză. 4.4.Comparaţie cu alte studii 4.4.1. Comparaţie cu studiile precedente Raporturile engleză/franceză şi franceză/spaniolă au evoluat, între primul studiu şi cel de faţă, în felul următor25: Tabelul 9: Evoluţiile raporturilor între ponderea limbilor franceză, spaniolă şi engleză Engleză/Franc eză Franceză/Spaniolă Engleză/Spaniolă Martie 1996 (L1) 21,91 2,40 52,58 Martie 1997 (L2) 19,99 1,92 38,38 Martie 1998 (L3) 17,60 1,33 23,32 Septembrie 1998 (L4) 35,59 1,11 39,53 August 2000 (L5) 13,66 0,91 12,38 Iunie 2001 (L5) 11,28 0,81 9,14 Vă reamintim că cifrele scrise cursiv (de la L1 la L3) sunt prea aproximative pentru a putea fi luate în calcul. Observarea reală a început de la L4. 4.4.2. Comparaţie cu studiile similare (Alis şi Inktomi) Studiul Alis nu a fost reluat din 1998, deci menţinem analiza făcută la L4. În schimb, Inktomi a publicat rezultate care au avut un larg ecou pe Internet, fiind utilizate în prezent ca sursă oficială pentru numeroase rapoarte. Tabelul 10: Rezultatele studiului Inktomi (februarie 2000) LIMBĂ Engleză Germană Franceză Italiană Spaniolă Portugheză Olandeză Finlandeză Suedeză 25 PROPORŢIE (%) 86,54 5,83 2,36 1,55 1,23 0,75 0,54 0,50 0,36 Trebuie să considerăm această progresie cu cea mai mare rezervă deoarece cifrele studiilor L1 la L3 nu prezintă caracteristicile de rigoare lingvistică obţinute începând cu studiul L4. Japoneză 0,34 Aceste cifre construiesc o viziune eronată, potrivit căreia engleza continuă să fie limba a peste 80% din paginile Web. Totuşi, este uşor să descoperim o aberaţie în aceste rezultate, atât în prezentarea, cât şi în interpretarea lor... Într-adevăr, procentajul anunţat pentru limba engleză (86%) nu este obţinut în raport cu toate limbile, ci numai faţă de 10 limbi citate în tabel, chiar dacă totalul procentelor celor 10 limbi ajunge la 100%! Dacă luăm ipoteza că rămân 30% din paginile Web pentru limbile necitate, totalul pentru limba engleză ar fi atunci de: 86,54% x (100-30) = 60,58%!!! În afara acestui lapsus evident, care ştirbeşte semnificaţia rezultatelor absolute (dar nu împiedică majoritatea birourilor de marketing de pe Internet să reia aceste cifre absurde...), este interesant să comparăm rezultatele noastre, bazate pe un eşantion de termeni selecţionaţi după criterii lingvistice prezentate în rapoartele noastre, cu algoritmii de recunoaştere a limbilor utilizaţi de diverse motoare de căutare, al căror mecanism rămâne voalat. A se vedea, de exemplu, tabelul 17 în anexa 6, care prezintă cifrele obţinute cu motorul Fastsearch şi compararea lor cu cele ale studiului nostru. Până la proba contrarie, trebuie să considerăm că metoda noastră este mai riguroasă pe plan metodologic şi să conchidem că algoritmii de recunoaştere a limbilor pe Internet au supărătoarea tendinţă să supraevalueze rezultatele pentru limba engleză. 5. Tendinţa evoluţiei limbilor studiate După cum am semnalat deja, dacă în august 2000 şi în ianuarie 2001 am realizat măsurători cu motoarele Fastsearch şi Google, în iunie 2001 a trebuit să utilizăm numai Fastsearch pentru că Google nu mai trata într-un mod acceptabil semnele diacritice. Pentru comparaţiile din tabelul de mai jos am luat în considerare numai rezultatele obţinute cu Fastsearch, în august 2000, în ianuarie 2001 şi în iunie 2001. Tabelul 11: Rezultatele obţinute cu Fastsearch în august 2000, ianuarie 2001, iunie 2001 August 2000 Ianuarie 2001 Iunie 2001 Spaniolă 8,41% 9,46% 10,95% Franceză Italiană Portugheză Română Germană 7,33% 4,60% 3,95% 0,37% 11,0% 7,89% 4,93% 4,44% 0,33% 11,4% 8,86% 5,88% 5,40% 0,32% 13,4% Tabelul următor ne dă o imagine asupra tendinţelor actuale ale evoluţiei pe Internet a limbilor studiate, plecând de la rezultatele precedente. Tabelul 12: Tendinţe ale evoluţiei Tendintele actuale ale evolutiei limbilor în spatiul WWW 16% 14% Franceza 10% Italiana 8% Portugheza 6% Româna 4% Germana 2% 0 Se 0 pt 00 O ct 0 N 0 ov 0 D 0 ec 00 Ia n 0 Fe 1 b 0 M ar 1 tie 01 Ap r0 1 M ai 01 Iu n 0 Iu 1 lie 0 Au 1 g 0 Se 1 pt 01 O ct 01 0% Au g % în raport cu engleza Spaniola 12% 6. Perspective pentru o continuare a observaţiei Condiţiile logistice sunt acum îndeplinite pentru o continuare, reală şi periodică, a acestui studiu. Automatizarea prelucrării rezultatelor face mai uşoară culegerea şi interpretarea datelor. Putem menţine sub observaţie evoluţia prezenţei limbilor studiate, cu o periodicitate de 3 sau 6 luni. Această observare periodică cere supravegherea permanentă a tot ce se întâmplă în domeniul motoarelor de căutare, pentru a putea determina dacă schimbările de procedură ale unui motor de căutare îl descalifică pentru studiul nostru sau, din contră, putem să utilizăm un nou motor de căutare. Fiecare modificare a interfeţei unui motor de căutare implică, la rândul ei, o muncă de programare a aplicaţiei informatice care automatizează măsurătorile. Se poate prevedea o extindere a studiului şi la alte limbi pornind de la totalitatea limbilor vorbite în Uniunea Europeană. Această extindere necesită o muncă suplimentară nu numai în ce priveşte traducerea termenilor dar şi în ce priveşte schimbarea metodologiei de căutare a ocurenţelor, după cum este specificat în capitolul 4.2.1. Ar fi de dorit, bineînţeles, să se înceapă măsurătorile pentru limbile europene, cum ar fi quechua în America Latină sau wolof în Africa. Vor fi necesare, probabil, noi parteneriate lingvistice şi suntem gata să examinăm propuneri în acest sens. Mai rămâne să fie reluat lucrul început în primele studii privind măsurarea, mai subiectivă, a ponderii culturilor pe Internet. Experienţa pe care am câştigat-o în automatizarea rezultatelor va fi, fără îndoială, utilă. În fine, în acest context putem începe studii transversale pentru a diferenţia segmente de penetrare lingvistică pe Internet (de exemplu, turismul, comerţul electronic sau educaţia). Pistele sunt deschise, mai sunt de găsit partenerii şi resursele financiare... 7. Referinţele pe Internet privind lucrările conexe Studiul precedent menţionează un anumit număr de referinţe. Iată lista cu completări: Referinţele motoarelor de căutare: http://www.searchenginewatch.com http://www.searchengineshowdown.com Rezultate parţiale ale studiului Inktomi: http://www.inktomi.com/webmap/ Număr de internauţi pe limbi: http://www.glreach.com/globstats/index.php3 Studiu asupra mărimii spaţiului Web: http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf Studiu realizat pentru Internet Council: http://usic.wslogic.com/intro.html Anexa 1: Recapitularea referinţelor diverselor studii realizate de autori Tabelul 13: Recapitularea referinţelor şi studiilor realizate de autori Data şi numele Drepturi de autor Localizare pe Internet Descriere 3/96 L1 Funredes http://funredes.org/L C/L1 Primul studiu lingvistic, axat pe limba franceză, care ia în calcul limba spaniolă. Măsurători comparative cu AltaVista asupra prezenţei cuvintelor în limbile engleză, franceză şi spaniolă în spaţiul WWW, pornind de la un eşantion de 50 de cuvinte determinat fără rigoare metodologică pe plan lingvistic. Rezultatul, foarte aproximativ, arată un raport engleză/franceză egal cu 22 şi franceză/spaniolă egal cu 2,4. 3/96 C1 Funredes http://funredes.org/L C/C1 Primul studiu cultural, axat pe francofonie, ia în calcul hispanitatea. Măsurători comparative, cu AltaVista, ale numărului citărilor numelor de personalităţi culturale reprezentative în paginile Web: aproape 500 de personalităţi repartizate pe 13 categorii. Rezultatul, subiectiv, arată o prezenţă destul de importantă a reprezentanţilor culturii francofone faţă de cei nord-americani, în domeniile în care cultura şi comerţul nu se suprapun. 3/97 L2 Funredes http://funredes.org/L C/L2 Actualizare a studiului lingvistic, care arată un progres slab al limbii franceze în raport cu limba engleză şi un progres important al limbii spaniole. Funredes http://funredes.org/L C/L3 Actualizare importantă, prezentată la conferinţa "Visionarios" (Caracas). • Analiza limitelor serviciilor de căutare şi a prezenţei relative fără diacritice. Recomandare pentru abandonarea serviciului AltaVista şi pentru utilizarea HotBot. • "Metoda complementului ansamblului vid" aplicată la AltaVista dă un ordin de mărime al prezenţei limbilor, derivat din algoritmul de recunoaştere a limbilor al motorului de căutare AltaVista. • Evaluare critică a rezultatelor studiului Alis Technologies. Limba franceză continuă să progreseze lent, 3/98 L3 26 26 Cu sprijinul metodologic al Uniunii Latine. iar limba spaniolă este acum foarte apropiată de franceză. 9/98 L4 Agence de la francopho nie Funredes Uniunea Latină http://www.unilat.org /dtil/lenguainternet/r o/limba/limba_cap1.h tm Schimbări importante în metodă şi obţinerea unor rezultate riguroase. • Luarea în consideraţie a tuturor limbilor neolatine: franceză, italiană, portugheză, română, spaniolă. • Definirea unui eşantion răspunzând la criterii lingvistice riguroase. • Măsurarea cu HotBot în spaţiul WWW. • Măsurători în spaţiul Usenet cu DejaNews. • Stabilirea de intervale de încredere la 90% şi 99%. • Ponderarea rezultatelor în funcţie de mărimea spaţiilor lingvistice. 9/98 C2 Agence de la francopho nie Funredes Uniunea Latină http://www.unilat.org /dtil/lenguainternet/r o/limba/limba_cap1.h tm Al doilea studiu cultural, după 3 ani. Studiul nu a relevat nici o diferenţă notabilă a prezenţei culturale francofone. • Utilizarea aceleiaşi metodologii, ameliorată totuşi în ceea ce priveşte categoriile, alegerea şi numărul personalităţilor, extinderea grupului lor prin includerea celor care vorbesc toate limbile neolatine. • Analiza anumitor rezultate pe limbă şi în limba de referinţă. http://funredes.org/L C Pagina de gardă a studiilor de limbă şi de cultură. 9/98 LC 20002001 L5 Funredes Uniunea Latină http://www.unilat.o rg/dtil/LI/index.htm • • • • • Extinderea studiului prin includerea limbii germane Selecţie, după un studiu aprofundat, a motoarelor de căutare Google şi Fastsearch, fiind păstrat în continuare numai Fastsearch. Măsurători numai în spaţiul WWW. Automatizarea calculelor cu ajutorul unui program care are rol de interfaţă între termenii care trebuie măsuraţi, organizaţi în baze de date, şi motoarele de căutare. Corectarea anumitor termeni din punct de vedere ortografic şi a omisiunilor. Începerea sistematizării măsurătorilor şi expunerea unor curbe de extrapolare. Anexa 2: Vizualizarea intervalelor de încredere pentru rezultatele pe fiecare limbă Tabelul 14: Vizualizarea intervalelor de încredere Spaniola Franceza Italiana Portugheza Româna Germana În % 0 1 2 3 4 Interval de 90% 5 6 7 8 Interval de 99% 9 10 11 Anexa 3: Lista termenilor eşantionului de referinţă În cursiv: formă susceptibilă de a fi prezentă pe Web, dar "incorectă". Cazul cel mai frecvent corespunde termenilor scrişi fără semne diacritice. În MAJUSCULE: variantă care prezintă o omografie (interlingvistică) evidentă sau variantă de mai puţin de patru caractere (în acest caz creşte riscul unei omografii cu o siglă) sau variantă (şi termen) având o pondere sintactică sau semantică mult mai importantă decât aceea a echivalentelor în alte limbi. Tabelul 15: Lista termenilor eşantionului de referinţă Engleză (EN) Spaniolă (ES) Franceză Italiană Portugheză (FR) (IT) (PT) 1 ambiguity ambiguities ambiguousne ss ambiguousne sses ambigüedad ambiguedad ambigüedad es ambiguedad es ambiguïté ambiguite ambiguïtés ambiguites ambiguit à ambiguit a 2 causality causalities causalidad CAUSALIDA DES causalité causalite causalités causalites causalità causalita ambigüidade ambiguidade ambigüidades ambiguidades Română (RO) ambiguitate ambiguitatea ambiguităţii ambiguitatii ambiguităţi ambiguitati ambiguităţile ambiguitatile ambiguităţilor ambiguitatilor causalidade cauzalitate CAUSALIDADES cauzalitatea cauzalităţii cauzalitatii cauzalităţi cauzalitati cauzalităţile cauzalitatile cauzalităţilor cauzalitatilor Germană (DE) ambiguität ambiguitat ambiguitaet ambiguitäten ambiguitaten ambiguitaeten doppeldeutigkeit doppeldeutigkeiten zweideutigkeit zweideutigkeiten kausalität kausalitat kausalitaet kausalitäten kausalitaten kausalitaeten 3 cheese cheeses queso quesos fromage fromages formaggi o formaggi queijo queijos brânză branza brânze branze brânza brânzele branzele brânzei branzei brânzelor branzelor brânzeturi branzeturi brânzeturile branzeturile brânzeturilor branzeturilor 4 compatibility compatibilid compatibilit compatibi compatibilidade compatibilitate compatibilitie ad é lità COMPATIBILID compatibilitate s COMPATIBIL compatibilit compatibi ADES a IDADES e lita compatibilităţii compatibilit compatibilitatii és compatibilităţi compatibilit compatibilitati es compatibilităţil e compatibilitatil e compatibilităţil or compatibilitatil or 5 contiguity contigüidad contiguïté contiguità contigüidade contiguitate contiguities contiguidad contiguite contiguita contiguidade contiguitatea CONTIGÜID contiguïtés CONTIGÜIDADE contiguităţii ADES contiguites S contiguitatii CONTIGUID CONTIGUIDADE contiguităţi ADES S contiguitati contiguităţile contiguitatile contiguităţilor contiguitatilor käse kase kaese käsen kasen kaesen kompatibilität kompatibilitat kompatibilitaet kompatibilitäten kompatibilitaten kompatibilitaeten vereinbarkeit vereinbarkeiten kontiguität kontiguitat kontiguitaet kontiguitäten kontiguitaten kontiguitaeten 6 dangerous peligroso peligrosa peligrosos peligrosas 7 december diciembre dangereux dangereuse dangereuse s pericolos o pericolos a pericolosi pericolos e perigoso perigosa perigosos perigosas décembre decembre densidad densité DENSIDADE densite S densités densites dicembre dezembro 9 disparity disparities disparidad disparité DISPARIDAD disparite ES disparités disparites disparità disparita 1 divisibility 0 divisibilities divisibilidad divisibilité DIVISIBILID divisibilite ADES divisibilités divisibilites divisibilit à divisibilit a 8 DENSITY DENSITIES densità densita densidade DENSIDADES primejdios primejdioasă primejdioasa primejdioase primejdioşi primejdiosi decembrie densitate densitatea densităţii densitatii densităţi densitati densităţile densitatile densităţilor densitatilor disparidade disparitate DISPARIDADES disparitatea disparităţii disparitatii disparităţi disparitati disparităţile disparitatile disparităţilor disparitatilor divisibilidade divizibilitate DIVISIBILIDAD divizibilitatea ES divizibilităţii divizibilitatii divizibilităţi divizibilitati divizibilităţile divizibilitatile divizibilităţilor divizibilitatilor GEFÄHRLICH GEFAHRLICH GEFAEHRLICH gefährliche gefahrliche gefaehrliche gefährlicher gefahrlicher gefaehrlicher gefährliches gefahrliches gefaehrliches gefährlichen gefahrlichen gefaehrlichen gefährlichem gefahrlichem gefaehrlichem dezembers dezembern dichte DICHTEN dichtheit dichtheiten dichtigkeit dichtigkeiten disparität disparitat disparitaet disparitäten disparitaten disparitaeten divisibilität divisibilitat divisibilitaet divisibilitäten divisibilitaten divisibilitaeten teilbarkeit teilbarkeiten 1 elasticity 1 elasticities elasticidad élasticité ELASTICIDA elasticite DES élasticités elasticites elasticità elasticita 1 electricity 2 electricities electricidad électricité ELECTRICID electricite ADES électricités electricites elettricità electricidade elettricita eletricidade ELECTRICIDAD ES eletricidades 1 february 3 febrero février fevrier febbraio fevereiro 1 femininity 4 femininities feminidad femineidad FEMINIDADE S femineidade s féminité feminite féminités feminites femminili tà femminili ta feminidade feminilidade FEMINIDADES feminilidades 1 fertility 5 fertilities fertilidad fertilité FERTILIDAD fertilite ES fertilités fertilites fertilità fertilita fertilidade FERTILIDADES fedeltà fedelta fidelidade FIDELIDADES 1 fidelity fidelidad 6 fidelities FIDELIDADE faithfulness S faithfulnesses fidélité fidelite fidélités fidelites elasticidade ELASTICIDADE S elasticitate elasticitatea elasticităţii elasticitatii elasticităţi elasticitati elasticităţile elasticitatile elasticitităţilor elasticitatilor electricitate electricitatea electricităţii electricitatii electricităţi electricitati electricităţile electricitatile electricităţilor electricitatilor februarie feminitate feminitatea feminităţii feminitatii feminităţi feminitati feminităţile feminitatile feminităţilor feminitatilor fertilitate fertilitatea fertilităţii fertilitatii fertilităţi fertilitati fertilităţile fertilitatile fertilităţilor fertilitatilor fidelitate fidelitatea fidelităţii fidelitatii fidelităţi fidelitati fidelităţile fidelitatile fidelităţilor fidelitatilor dehnbarkeit dehnbarkeiten elastizität elastizitat elastizitaet elastizitäten elastizitaten elastizitaeten elektrizität elektrizitat elektrizitaet elektrizitäten elektrizitaten elektrizitaeten STROM februar februars februare februaren femininität femininitat femininitaet femininitäten femininitaten femininitaeten weiblichkeit weiblichkeiten fertilität fertilitat fertilitaet fertilitäten fertilitaten fertilitaeten fruchtbarkeit fruchtbarkeiten TREUE TREUEN 1 fraternity fraternidad 7 fraternities FRATERNIDA brotherhood DES brotherhoods 1 8 1 9 2 0 fraternité fraternite fraternités fraternites fraternità fraternidade fraternita FRATERNIDADE fratellanz S a fratellanz e fraternitate fraternitatea fraternităţii fraternitatii fraternităţi fraternitati fraternităţile fraternitatile fraternităţilor fraternitatilor BRÜDERLICHKEIT bruderlichkeit bruederlichkeit brüderlichkeiten bruderlichkeiten bruederlichkeiten fraternität fraternitat fraternitaet fraternitäten fraternitaten fraternitaeten friday viernes vendredi venerdì sexta-feira vineri freitag fridays vendredis venerdi sextas-feiras vinerea freitags freitages freitage freitagen heterosexuali heterosexual hétérosexua eterosess heterossexualid heterosexualita heterosexualität ty idad lité ualità ade te heterosexualitat heterosexuali heterosexual heterosexua eterosess heterossexualid heterosexualita heterosexualitaet ties idades lite ualita ades tea heterosexualitäten hétérosexua heterosexualită heterosexualitaten lités ţii heterosexualitaeten heterosexua heterosexualita lites tii heterosexualită ţi heterosexualita ti heterosexualită ţile heterosexualita tile heterosexualită ţilor heterosexualita tilor homosexualit homosexuali homosexual omosess homossexualida homosexualitat homosexualität y dad ité ualità de e homosexualitat homosexualiti homosexuali homosexual omosess homossexualida homosexualitat homosexualitaet es dades ite ualita des ea homosexualitäten homosexual homosexualităţ homosexualitaten ités ii homosexualitaeten homosexual homosexualitat ites ii homosexualităţ i homosexualitat i homosexualităţ ile homosexualitat ile homosexualităţ ilor homosexualitat ilor 2 horse 1 horses caballo caballos cheval chevaux cavallo cavalli cavalo cavalos 2 humidity 2 humidities humedad humedades humidité humidite humidités humidites umidità umidita humidade umidade humidades umidades 2 illness 3 illnesses sickness sicknesses disease diseases 2 immortality 4 immortalities enfermedad enfermedad es MALADIE maladies malattia malattie infermità infermita 2 immunity 5 immunities inmunidad immunité inmunidades immunite immunités immunites doença doenca doenças doencas enfermidade enfermidades inmortalidad immortalité immortali imortalidade inmortalidad immortalite tà imortalidades es immortalité immortali s ta immortalite s immunità imunidade immunita imunidades CAL CAI calul CAII calului cailor calule umiditate umiditatea umidităţii umiditatii umidităţi umiditati umidităţile umiditatile umidităţilor umiditatilor boală BOLI boala bolile bolii bolilor imortalitate imortalitatea imortalităţii imortalitatii imortalităţi imortalitati imortalităţile imortalitatile imortalităţilor imortalitatilor imunitate imunitatea imunităţii imunitatii imunităţi imunitati imunităţile imunitatile imunităţilor imunitatilor pferd pferdes pferds pferde pferden feuchtigkeit feuchtigkeiten humidität humiditat humiditaet humiditäten humiditaten humiditaeten krankheit krankheiten seuche seuchen immortalität immortalitat immortalitaet immortalitäten immortalitaten immortalitaeten unsterblichkeit unsterblichkeiten immunität immunitat immunitaet immunitäten immunitaten immunitaeten 2 incompatibilit incompatibili 6 y dad incompatibiliti INCOMPATIB es ILIDADES 2 7 2 8 2 9 incompatibil ité incompatibil ite incompatibil ités incompatibil ites incompati bilità incompati bilita incompatibilida de INCOMPATIBILI DADES incompatibilitat e incompatibilitat ea incompatibilităţ ii incompatibilitat ii incompatibilităţ i incompatibilitat i incompatibilităţ ile incompatibilitat ile incompatibilităţ ilor incompatibilitat ilor infallibility infalibilidad infaillibilité infallibilit infalibilidade infaibilitate infallibilities INFALIBILID infaillibilite à INFALIBILIDAD infaibilitatea ADES infaillibilités infallibilit ES infaibilităţii infaillibilites a infaibilitatii infaibilităţi infaibilitati infaibilităţile infaibilitatile infaibilităţilor infaibilitatilor inferiority inferioridad infériorité inferiorità inferioridade inferioritate inferiorities INFERIORID inferiorite inferiorita INFERIORIDAD inferioritatea ADES infériorités ES inferiorităţii inferiorites inferioritatii inferiorităţi inferioritati inferiorităţile inferioritatile inferiorităţilor inferioritatilor infidelity infidelidad infidélité infedeltà infidelidade infidelitate infidelities INFIDELIDA infidelite infedelta INFIDELIDADES infidelitatea unfaithfulness DES infidélités infidelităţii unfaithfulness infidelites infidelitatii es infidelităţi infidelitati infidelităţile infidelitatile infidelităţilor infidelitatilor inkompatibilität inkompatibilitat inkompatibilitaet inkompatibilitäten inkompatibilitaten inkompatibilitaeten unvereinbarkeit unvereinbarkeiten infallibilität infallibilitat infallibilitaet infallibilitäten infallibilitaten infallibilitaeten unfehlbarkeit unfehlbarkeiten inferiorität inferioritat inferioritaet inferioritäten inferioritaten inferioritaeten minderwertigkeit minderwertigkeiten UNTREUE UNTREUEN treulosigkeit treulosigkeiten 3 instability 0 instabilities inestabilidad instabilité inestabilidad instabilite es instabilités instabilites instabilità instabilidade instabilita instabilidades 3 inviolability 1 inviolabilities inviolabilida d INVIOLABILI DADES inviolabili inviolabilidade t INVIOLABILIDA inviolabili DES ta inviolabilité inviolabilite inviolabilités inviolabilites instabilitate instabilitatea instabilităţii instabilitatii instabilităţi instabilitati instabilităţile instabilitatile instabilităţilor instabilitatilor inviolabilitate inviolabilitatea inviolabilităţii inviolabilitatii inviolabilităţi inviolabilitati inviolabilităţile inviolabilitatile inviolabilităţilor inviolabilitatilor 3 irregularity irregularidad irrégularité irregolarit irregularidade iregularitate 2 irregularities IRREGULARI irregularite à IRREGULARIDA iregularitatea unevenness DADES irrégularités irregolarit DES iregularităţii unevennesses irregularites a iregularitatii iregularităţi iregularitati iregularităţile iregularitatile iregularităţilor iregularitatilor instabilität instabilitat instabilitaet instabilitäten instabilitaten instabilitaeten unbeständigkeit unbestandigkeit unbestaendigkeit unbeständigkeiten unbestandigkeiten unbestaendigkeiten unverletzlichkeit unverletzlichkeiten unverletzbarkeit unverletzbarkeiten irregularität irregularitat irregularitaet irregularitäten irregularitaten irregularitaeten unregelmäßigkeit unregelmässigkeit unregelmassigkeit unregelmaessigkeit unregelmäßigkeiten unregelmässigkeite n unregelmassigkeite n unregelmaessigkeit en 3 irresponsibilit irresponsabil 3 y idad irresponsibiliti IRRESPONS es ABILIDADES irresponsabi lité irresponsabi lite irresponsabi lités irresponsabi lites irrespons abilità irrespons abilita irresponsabililid ade IRRESPONSABI LIDADES 3 june 4 junio juin giugno junho 3 knee 5 knees rodilla rodillas genou genoux ginocchio joelho ginocchia joelhos ginocchi 3 KNIFE 6 KNIVES cuchillo cuchillos couteau couteaux coltello coltelli FACA FACAS 3 LUNG 7 lungs pulmón pulmon pulmones poumon poumons polmone polmoni pulmão pulmao pulmões pulmoes iresponsabilitat e iresponsabilitat ea iresponsabilităţ ii iresponsabilitat ii iresponsabilităţ i iresponsabilitat i iresponsabilităţ ile iresponsabilitat ile iresponsabilităţ ilor iresponsabilitat ilor iunie genunchi genunchiul genunchii genunchiului genunchilor cuţit cutit cuţite cutite cuţitul cutitul cuţitele cutitele cuţitului cutitului cuţitelor cutitelor plămân plaman plămâni plamani plămânul plamanul plămânii plamanii plămânului plamanului plămânilor plamanilor irresponsabilität irresponsabilitat irresponsabilitaet irresponsabilitäten irresponsabilitaten irresponsabilitaeten unverantwortbarkei t unverantwortbarkei ten unverantwortlichkei t unverantwortlichkei ten verantwortungslosi gkeit verantwortungslosi gkeiten juni junis JUNO knie knies knie KNIEN MESSER MESSERS MESSERN lunge lungen 3 masculinity 8 masculinities masculinida d MASCULINI DADES masculinité masculinite masculinités masculinites mascolini masculinidade tà MASCULINIDAD mascolini ES ta 3 monday 9 mondays lunes lundi lundis lunedì lunedi segunda-feira luni segundas-feiras lunea 4 october 0 octubre octobre ottobre outubro 4 parity 1 parities equality equalities igualdad IGUALDADE S paridad PARIDADES égalité egalite égalités egalites parité parite parités parites eguaglian za eguaglian ze uguglianz a uguglianz e parità parita igualdade IGUALDADES paridade PARIDADES 4 probability 2 probabilities likelihood likelihoods masculinitate masculinitatea masculinităţii masculinitatii masculinităţi masculinitati masculinităţile masculinitatile masculinităţilor masculinitatilor octombrie egalitate egalitatea egalităţii egalitatii egalităţi egalitati egalităţile egalitatile egalităţilor egalitatilor paritate paritatea parităţii paritatii parităţi paritati parităţile paritatile parităţilor paritatilor probabilidad probabilité probabilit probabilidade probabilitate PROBABILID probabilite à PROBABILIDAD probabilitatea ADES probabilités probabilit ES probabilităţii probabilites a probabilitatii probabilităţi probabilitati probabilităţile probabilitatile probabilităţilor probabilitatilor männlichkeit mannlichkeit maennlichkeit männlichkeiten mannlichkeiten maennlichkeiten maskulinität maskulinitat maskulinitaet maskulinitäten maskulinitaten maskulinitaeten montag MONTAGES montags MONTAGE MONTAGEN oktober oktobers oktobern egalität egalitat egalitaet egalitäten egalitaten egalitaeten gleichheit gleichheiten gleichstellung gleichstellungen gleichberechtigung gleichberechtigung en parität paritat paritaet paritäten paritaten paritaeten probabilität probabilitat probabilitaet probabilitäten probabilitaten probabilitaeten wahrscheinlichkeit wahrscheinlichkeite n 4 productivity 3 productivities productivenes s productivenes ses productivida d productivida des productivité productivite productivité s productivite s 4 puberty 4 puberties pubertad pubertades puberté puberte pubertés pubertes 4 responsibility responsabili 5 responsibilitie dad s RESPONSAB liability ILIDADES liabilities responsabili té responsabili te responsabili tés responsabili tes 4 sexuality 6 sexualities sexualité sexualite sexualités sexualites sexualidad SEXUALIDA DES produttivi produtividade tà produtividades produttivi ta productivitate productivitatea productivităţii productivitatii productivităţi productivitati productivităţile productivitatile productivităţilo r productivitatilo r pubertà puberdade pubertate puberta puberdades pubertatea pubertăţii pubertatii pubertăţi pubertati pubertăţile pubertatile pubertăţilor pubertatilor responsa responsabilidad responsabilitat bilità e e responsa RESPONSABILI responsabilitat bilita DADES ea responsabilităţi i responsabilitati i responsabilităţi responsabilitati responsabilităţi le responsabilitati le responsabilităţi lor responsabilitati lor sessualità sexualidade sexualitate sessualita SEXUALIDADES sexualitatea sexualităţii sexualitatii sexualităţi sexualitati sexualităţile sexualitatile sexualităţilor sexualitatilor produktivität produktivitat produktivitaet produktivitäten produktivitaten produktivitaeten pubertät pubertat pubertaet pubertäten pubertaten pubertaeten responsabilität responsabilitat responsabilitaet responsabilitäten responsabilitaten responsabilitaeten verantwortung verantwortungen sexualität sexualitat sexualitaet sexualitäten sexualitaten sexualitaeten 4 singularity 7 singularities 4 superiority 8 superiorities singularidad singularité SINGULARID singularite ADES singularités singularites singolarit singularidade à SINGULARIDAD singolarit ES a singularitate singularitatea singularităţii singularitatii singularităţi singularitati singularităţile singularitatile singularităţilor singularitatilor superioridad supériorité superiorit superioridade superioritate SUPERIORID superiorite à SUPERIORIDAD superioritatea ADES supériorités superiorit ES superiorităţii superiorites a superioritatii superiorităţi superioritati superiorităţile superioritatile superiorităţilor superioritatilor 4 thursday 9 thursdays jueves jeudi jeudis giovedì giovedi quinta-feira quintas-feiras JOI JOIA 5 today 0 HOY aujourde hui oggi hoje 5 truth 1 truths verdad VERDADES vérité verite vérités verites verità verita verdade VERDADES 5 tuesday 2 tuesdays martes MARDI mardis martedì martedi terça-feira terca-feira terças-feiras tercas-feiras AZI astăzi astazi adevăr adevar adevărul adevarul adevărului adevarului adevăruri adevaruri adevărurile adevarurile adevărurilor adevarurilor marţi MARTI marţea martea 5 uniformity 3 uniformities uniformidad UNIFORMID ADES uniformité uniformite uniformités uniformites uniformit uniformidade à UNIFORMIDADE uniformit S a uniformitate uniformitatea uniformităţii uniformitatii uniformităţi uniformitati uniformităţile uniformitatile uniformităţilor uniformitatilor einzigartigkeit einzigartigkeiten singularität singularitat singularitaet singularitäten singularitaten singularitaeten superiorität superioritat superioritaet superioritäten superioritaten superioritaeten überlegenheit uberlegenheit ueberlegenheit überlegenheiten uberlegenheiten ueberlegenheiten donnerstag donnerstages donnerstags donnerstage donnerstagen heute wahrheit wahrheiten dienstag dienstages dienstags dienstage dienstagen uniformität uniformitat uniformitaet uniformitäten uniformitaten uniformitaeten 5 universality 4 universalities universalida d UNIVERSALI DADES universalité universalite universalité s universalite s 5 university 5 universities universidad université UNIVERSIDA universite DES universités universites 5 wednesday 6 wednesdays miércoles miercoles mercredi mercredis 5 yellow 7 amarillo amarilla amarillos amarillas jaune jaunes universali universalidade tà UNIVERSALIDA universali DES ta universalitate universalitatea universalităţii universalitatii universalităţi universalitati universalităţile universalitatile universalităţilor universalitatilor università universidade universitate universita UNIVERSIDADE universitatea S universităţii universitatii universităţi universitati universităţile universitatile universităţilor universitatilor mercoledì quarta-feira miercuri mercoledi quartas-feiras miercurea giallo gialla gialli gialle amarelo amarela amarelos amarelas galben galbenă galbena galbeni galbene universalität universalitat universalitaet universalitäten universalitaten universalitaeten universität universitat universitaet universitäten universitaten universitaeten mittwoch mittwoches mittwochs mittwoche mittwochen gelb gelbe gelber gelbes gelben gelbem Anexa 4: Selectarea motoarelor de căutare pentru studiul L5 Introducere Motoarele de căutare utilizate la ultimul studiu au evoluat, în plus, în ultimii doi ani au apărut altele noi. S-a dovedit, deci, necesară o analiză sistematică a compatibilităţii motoarelor disponibile cu metodologia utilizată pentru acest studiu. Incompatibilităţile apărute au dus la eliminarea unui anumit număr de motoare. Motoarele de căutare care au fost preselecţionate (a se vedea capitolul 4.1.1) sunt AltaVista, Fastsearch (Alltheweb), Google, Infoseek, iWon şi Northernlight. Au rămas, deci, şase motoare, independente unele de altele, mai degrabă aflate în concurenţă pe piaţa căutărilor după cuvinte-cheie pe Internet. S-a dovedit că rezultatele măsurătorilor prezenţei termenilor eşantionului nostru, în paginile Internet, variază foarte mult în funcţie de motorul de căutare utilizat. Pentru a încerca să înţelegem acest fenomen, care ar risca să descalifice definitiv metodologia noastră, începând cu luna august 2000 am realizat un studiu care ia în considerare elementele următoare, susceptibile de a influenţa validitatea rezultatelor: - numărul paginilor indexate, - felul în care sunt selecţionate paginile indexate, - coerenţa rezultatelor numărătorilor prezentate. Rezultatele, pe fiecare limbă, în funcţie de motorul de căutare Rezultatele prezentate mai jos (Tabelul 16) arată totalurile paginilor Internet care cuprind, fiecare, cele 1600 de variante ale studiului în august 2000. Coloana corespunzătoare limbii engleze dă totalul paginilor numărate (în milioane) de fiecare motor de căutare pentru totalul termenilor în limba engleză. Cifrele conţinute de celelalte coloane reprezintă, pentru fiecare limbă, procentajul, în raport cu limba engleză, al numărului total de pagini numărate. De exemplu, pentru iWon: 212 milioane de pagini au fost numărate pentru termenii în limba engleză şi 2,14 milioane pentru limba portugheză (1,01% de 212). Tabelul 16: Rezultatele studiului pentru cele 6 motoare de căutare preselecţionte AltaVista Fast Google Infoseek IWon Northern Light Engleză Spaniolă 188 M 147M 210M 37M 212M 145M 9,28% 8,41% 7,86% 2,49% 4,13% 6,32% Franceză Italiană Portughez Română Germană ă 9,56% 4,50% 3,98% 0,19% 16,06% 7,33% 4,60% 3,95% 0,37% 8,47% 7,33% 4,65% 2,82% 0,27% 7,89% 3,97% 2,98% 0,96% 0,03% 5,39% 2,64% 0,69% 1,01% 0,35% 5,44% 5,26% 3,66% 3,50% 0,26% 5,23% Se poate constata, deci, că rezultatele, mai puţin pentru motoarele Fast şi Google, prezintă deosebiri importante în funcţie de motorul de căutare utilizat, ceea ce pune serios sub semnul întrebării validitatea metodei noastre. Rezultă, deci, a fi necesar să se analizeze specificul fiecărui motor de căutare utilizat, atât pentru a înţelege motivul acestor abateri, cât şi pentru a determina care sunt motoarele care furnizează rezultate riguroase în funcţie de criteriile noastre. O analiză a motoarelor de căutare impune, în prealabil, o cunoaştere a caracteristicilor cantitative ale Internetului. Date referitoare la Internet şi la motoarele de căutare Care este volumul Internetului? Dispunem de câteva date referitoare la acest subiect: În luna ianuarie 2000, Inktomi afirmă că Web-ul a depăşit un miliard de pagini (care ar fi fost preindexate de acest motor). Tot Inktomi anunţă că 86,55% din paginile Internet sunt în limba engleză şi 2,36% din pagini în limba franceză. Este frapantă, însă, constatarea că rezultatul limbii franceze este foarte apropiat de valorile pe care le găsim pentru motorul de căutare iWon (care utilizează indexul lui Inktomi). Totuşi, cifra obţinută pentru limba engleză pare a fi victima unei erori de sistem de referinţă (a se vedea 4.4.2). Noul rezultat obţinut de Inktomi în mai 2000: 1,5 miliarde de pagini. Inktomi subliniază că proporţia paginilor dublate în site-uri oglindă este superioară lui 20% (din 6.5 milioane de servere indexate s-ar găsi 1,5 milioane de site-uri oglindă). Rezultatul lui cyveillance search: 2,1 miliarde de pagini în iulie 2000, cu o creştere exponenţială de 7 milioane de pagini noi pe zi. Acest studiu ne asigură că există 84,7% de pagini în limba engleză pe Web. Motoarele de căutare cu cele mai mari indexuri Competiţia provoacă frământări pe piaţa motoarelor de căutare: aceasta produce o puternică motivaţie pentru a creşte dimensiunea indexurilor. Liderii în domeniul indexării Web-ului, în prezent, sunt: Google: un miliard de pagini indexate27. Webtop: 500 de milioane de pagini indexate, încă netestat suficient. Inktomi: noul index al Inktomi, GEN3, care încă nu a fost utilizat oficial de partenerii săi (Hotbot, Snap, iWon), ar trebui să conţină 500 de milioane de pagini (faţă de 110 ale 27 Se pare că jumătate din ele nu sunt indexate direct, ci printr-un algoritm original care lucrează pornind de la textul legăturilor către aceste pagini. Nu dispunem de precizări suficiente asupra naturii acestui algoritm pentru a putea trage concluzii, dar, se pare că el nu are nici un impact asupra măsurătorilor noastre. precedentului). Testele efectuate de Searchengine Watch (http://www.searchenginewatch.com ) arată că motorul iWon utilizează deja acest index extins. De fapt, iWon obţine rezultate apropiate de Google în ceea ce priveşte numărul total de pagini numărate pentru limba engleză. AltaVista: 350 milioane de pagini. Fastsearch: 340 milioane de pagini, având ca obiectiv să ajungă la 1 miliard până la sfârşitul acestui an. Northern Light: 265 milioane de pagini. Este important să constatăm că motoarele indexează o proporţie notabilă din universul care ne interesează (între 25 şi 50%) ceea ce face posibilă aplicarea metodologiei noastre fără prea multe dificultăţi pe plan statistic 28. Cum sunt indexate paginile Web? Trebuie să menţionăm că nu toate paginile detectate de motoarele de căutare sunt incluse în index. Tabelul următor indică numărul real de pagini incluse în index de anumite motoare de căutare în comparaţie cu volumul total al paginilor indexate29. AltaVista Fast Excite Inktomi PAGINI ANALIZATE (milioane) 400 700 920 1000 PAGINI INDEXATE (milioane) 250 400 250 110 Este interesant să înţelegem cum este făcută această reducere şi cum ar putea afecta ea validitatea rezultatelor studiului nostru. Au fost identificate două abordări: 1. Inktomi: Un index de bază de 110 milioane de pagini selecţionate şi clasate plecând de la o sursă de 1 miliard de pagini. Criteriul de selecţie pentru indexul de bază este de a considera numai paginile în care URL-ul este puternic prezent (adică paginile care fac obiectul celui mai mare număr de legături externe). Această tehnică permite selectarea celor mai recunoscute pagini, clasându-le, cu uşurinţă, în ordinea “celebrităţii”, păstrând, însă, un timp de răspuns slab din cauza mărimii reduse a indexului de lucru. Această abordare, valabilă din punctul de vedere al obiectivului primelor motoare de căutare, este, din păcate, descalificată pentru aplicarea metodologiei noastre pentru că repartiţia statistică a paginilor este alterată de un algoritm care favorizează anumite pagini, întrun mod neobiectiv, din punct de vedere lingvistic (paginile cele mai populare, deci, cel mai adesea, în limba engleză, vor avea o probabilitate mai mare de a fi incluse în cele 28 Totuşi, nejustificat să credem că pentru un eşantion cuprinzând între 25 şi 50% din acest univers, ar putea să existe o modalitate în selectarea indexului care să favorizeze limbile cele mai utilizate, în primul rând, engleza. În special, este foarte probabil, ca siturile cele mai noi să nu fie indexate tot atât de repede ca siturile cele mai vechi şi că aceasta reprezintă un prejudiciu statistic pentru limbile mai tinere ale Internetului. 29 Cifrele prezentate în paragraful precedent sunt din martie 2000, în timp ce cifrele de faţă sunt din iulie 2000, ceea ce explică diferenţele. 110 pagini alese). Consecinţele acestui mecanism sunt evidente pentru limba română (termenii în română au scoruri anormal de slabe, adesea nule). 2. AltaVista, Excite, Fast şi Google: Un index mai mare, cu o selecţie mai puţin puternică şi mai ales independentă faţă de conţinut (nu se elimină decât site-urile oglindă şi cele care dau erori 40130 sau 40431). Cu acest procedeu indexurile sunt mai mari; dacă nu dau obligatoriu rezultatele cele mai coerente din punct de vedere al pertinenţei, ele sunt compatibile cu metodologia noastră pentru că nu ar trebui să favorizeze o limbă în detrimentul alteia. Să reţinem că Google păstrează o imagine a paginilor în momentul includerii lor în indexul său, ceea ce permite regăsirea informaţiei chiar atunci când pagina indexată a fost eliminată de pe Internet. Validarea motoarelor de căutare în funcţie de metodologia noastră AltaVista AltaVista este, de mai mulţi ani, unul din motoarele de căutare cel mai utilizat pe Web. Indexul său rămâne unul dinte cele mai mari, totuşi utilizarea acestui motor de căutare în cadrul studiului nostru nu este, nici de această dată32, posibilă. Într-adevăr: • AltaVista "trunchiază rezultatele"33. Această hotărâre este luată de AltaVista pentru a putea să-şi micşoreze timpul de răspuns în cazul în care serverul său este supraîncărcat (motorul de căutare poate să se oprească din rezolvarea unei cereri şi să nu furnizeze decât un rezultat parţial). • Ca şi în studiul precedent, nu a fost posibil să stabilim natura exactă a gestiunii semnelor diacritice; dacă există o logică, ea nu ne-a devenit evidentă şi, în aceste condiţii, ne este imposibil să realizăm o lucrare serioasă. • Valorile afişate pentru numărări se schimbă într-un mod aleatoriu, de exemplu este posibil să avem un număr de pagini diferit pentru aceeaşi căutare, dacă privim rezultatele, de la 1 la 10 sau de la 11 la 20... Infoseek Infoseek are un index prea slab pentru a putea fi utilizat în cadrul metodologiei noastre (am constatat acest lucru prin cifrele paginilor obţinute pentru limba engleză: 36 de milioane faţă de mai mult de 150 de milioane obţinute cu majoritatea celorlalte motoare). Această slăbiciune a indexării conferă un avantaj limbii engleze faţă de celelalte limbi prezente pe Internet. iWon iWon utilizează acelaşi index ca şi Hotbot (Inktomi), motorul pe care l-am utilizat în studiul nostru precedent. Tehnica de selecţie a paginilor de către Inktomi nu este compatibilă cu metodologia noastră, aşa cum am explicat în paragraful precedent. Northern Light Acest motor nu a putut fi utilizat pentru studiul nostru pentru că nu ia în considerare semnele diacritice (în speţă, nu interpretează corect semnele utilizate de limba română). În plus, caută sistematic pluralul termenilor atunci când se fac căutări pentru limba engleză, dar nu şi pentru celelalte limbi. 30 Adică o pagină cu acces limitat, nedisponibilă marelui public. Adică o pagină inexistentă într-un site accesat corect. 32 AltaVista a fost eliminat din studiul precedent din aceleaşi motive. 33 Adică nu ia în considerare o parte din paginile care răspund criteriului de căutare, ceea ce produce o reducere a valorii de numărare, care nu mai corespunde, deci, realităţii. 31 Google Acest motor, care pretinde a avea cel mai mare index de pe Web, dă rezultate rapide. Întrun prim moment a fost eliminat pentru că, spre deosebire de AltaVista, trunchia rezultatele. Acest inconvenient a fost corectat ceea ce a dus la selectarea lui pentru obţinerea rezultatelor finale. Totuşi, cu ocazia numărătorilor din iunie 2001, am constatat că semnele diacritice nu mai erau tratate într-o manieră satisfăcătoare ceea ce ne-a determinat să-l eliminăm din nou. Fastsearch Fastsearch, care are unul din cele mai mari indexuri, dă rezultate rapide, nu trunchiază rezultatele, nu-şi restrânge indexul la site-urile cele mai populare şi tratează semnele diacritice într-o manieră satisfăcătoare. A fost astfel selecţionat ca motor de căutare pentru studiul din iunie 2001. Concluzie Motorul de căutare Fastsearch rămâne singurul, începând cu data ultimelor măsurători (iunie 2001), care permite utilizarea metodologiei noastre de măsurare a repartiţiei limbilor pe Internet şi singurul care furnizează rezultatele finale. Faptul că cifrele furnizate de Fastsearch şi Google până în ianuarie 2001 erau, din punct de vedere statistic, foarte apropiate a reprezentat un element esenţial pentru a ne menţine încrederea în validitatea metodologiei noastre. Anexa 5: Interfaţa de automatizare a studiului L5 Introducere Obţinerea rezultatelor pentru studiul privind locul limbilor latine pe Internet implică o muncă minuţioasă, îndelungată şi repetitivă, de măsurare a rezultatelor obţinute cu motoarele de căutare. Într-adevăr, fiecare rezultat final (pentru fiecare motor de căutare) impune o numărare a paginilor care conţin fiecare din cele aproape 1200 de variante ale celor 57 de termeni selecţionaţi (1600 de când a fost adăugată limba germană). Acest procedeu este urmat de corecţii manuale pentru cele 73 de variante care au probleme de omografie (cu majuscule în tabelul termenilor din anexa 3). Rezultatele obţinute pentru fiecare variantă sunt apoi grupate pe termeni şi se obţin 57 de scoruri clasificate pe fiecare limbă. În continuare se face media scorurilor şi se va calcula atât coeficientul de variaţie, cât şi intervalul de încredere pentru fiecare limbă, pentru a se obţine rezultatul final. Fără să uităm, desigur, de etapa verificării rezultatelor, din care o bună parte sunt, fără îndoială, alterate de diverse erori de dactilografiere sau neatenţie datorate succesiunii de procedee repetitive. Toate aceste rezultate pentru fiecare variantă, pentru fiecare termen sau finale nu sunt flexibile în utilizare, o eroare detectată ulterior, la recopierea unui scor, necesită atât o recalculare sistematică a termenului asociat, cât şi recalcularea statisticilor finale. O automatizare a acestor proceduri manuale era, deci, de dorit. S-a decis investirea în programarea unui algoritm care, pornind de la 1600 de forme, să faciliteze cercetarea cu motoarele de căutare, recuperând numărătorile şi organizându-le astfel încât să se poată efectua, după corectarea omografiilor, ansamblul calculelor statistice. Această automatizare permite, în plus, să se utilizeze mai multe motoare de căutare fără o muncă suplimentară importantă. Tehnologia utilizată Pentru a permite o gestiune optimală a întregului, s-a decis să se utilizeze o structură de bază de date, ca element central articulând celelalte aplicaţii. Gestionarul de baze de date ales a fost PosgreSQL, a cărui utilizare este răspândită în domeniul Internetului iar, pentru interfaţa între baza de date şi serviciile din reţea, a fost ales limbajul de programare PHP. Detaliile funcţionării sistemului Baza de date Baza de date cuprinde trei tabele mari care reprezintă structura sistemului automatizat: • Tabelul celor 1600 de variante ale termenilor: în acest tabel sunt înregistrate diferitele variante ale eşantionului. Ele sunt clasificate după termen şi după limba căreia îi aparţine acesta şi sunt înregistrate împreună cu parametrii care le sunt asociaţi: omografii etc. Anexa 3 prezintă conţinutul acestui tabel. • Tabelul scorurilor: aici sunt păstrate toate rezultatele (numărătorile de pagini) recuperate cu ajutorul interfeţei programului PHP, obţinute cu motoarele de căutare. Aceste scoruri sunt clasificate în funcţie de variantele la care se raportează şi de motorul cu care s-a obţinut acest scor. • Tabelul rezultatelor pe concept: o dată introduse în baza de date cele 1600 de variante şi obţinute scorurile fiecăreia din ele, sunt calculate rezultatele pentru fiecare termen. Aceasta se efectuează adunând scorurile variantelor care aparţin aceluiaşi termen al unui limbi. Aceste rezultate obţinute (clasificate pe cuvânt, pe motor şi pe limbă) vor fi utilizate pentru a se obţine rezultatele finale şi vor servi ca intrări pentru calculele statistice prevăzute. Designul este deschis graţie parametrajului listei limbilor şi motoarelor utilizate. Această înlănţuire permite o foarte mare flexibilitate în măsura în care se pot adăuga, după dorinţă, noi termeni, noi motoare şi noi limbi. Interfeţele PHP Programul PHP cuprinde trei tipuri de interfeţe: Interfeţe pentru culegerea datelor Aceste interfeţe folosesc la completarea câmpurilor variante şi scoruri ale bazei de date. Prima este o interfaţă utilizator care serveşte la gestiunea introducerii variantelor şi a proprietăţilor lor asociate34. A doua este o interfaţă maşină care permite, pentru fiecare motor luat în considerare, să se stocheze scorurile obţinute în timpul execuţiei programului. Datele culese cu prima interfaţă sunt păstrate la fiecare execuţie, cele pentru a doua sunt volatile şi sunt înlocuite la fiecare execuţie. Datele înlocuite în acest proces sunt, bineînţeles, arhivate în prealabil. Interfeţele prelucrării datelor Sunt de două tipuri: cele care permit modificarea tabelului scorurilor variantelor şi cele care permit calculul valorilor asociate fiecărui cuvânt. Primele sunt folosite pentru a corecta următoarele probleme de omografie: Abaterile cele mai frecvente, în ceea ce priveşte variantele, sunt pluralurile în idades, pentru limbile spaniolă şi portugheză. Repartiţia numărătorii între spaniolă şi portugheză a fost făcută automat în proporţie de rezultatele parţiale ale studiului. Pornind de la rezultatele parţiale au fost calculaţi coeficienţii (pentru fiecare motor) ponderii limbii spaniole în raport cu ponderea limbii portugheze, iar aceşti coeficienţi au fost aplicaţi pentru a repartiza scorurile cuvintelor în "-IDADES" între spaniolă şi portugheză. Există un caz de omografie pentru limba română (cal şi cai: omografii ale altor cuvinte în limbile spaniolă, italiană, portugheză...). De aceea formele cal şi cai nu au fost numărate, ceea ce a penalizat limba română. De altfel şi forma caii a fost, de asemenea, eliminată, din cauza omografiei cu sigle frecvent prezente pe Internet. 34 Limbă, termeni asociaţi, probleme de omografie, variantă cu diacritice. Faca şi facas (cuţit… în limba portugheză) dar ele sunt şi două forme ale conjugării verbului “a face” (faça şi faças, în varianta fără diacritice). Rezultatul indicat a fost calculat a posteriori utilizând aceeaşi metodă ca şi pentru cuvintele în -idades pe baza coeficienţilor limbii portugheze în raport cu engleza. Forma boli, în limba română, este o abreviere foarte frecventă a cuvântului bolígrafo din spaniolă (stilou) şi a fost eliminată din numărătoare. Joi este un cuvânt de trei litere deci susceptibil de omografie cu sigle. Joia este un omograf al portughezului jóia fără diacritice (bijuterie). Rezultatul indicat a fost calculat utilizând aceeaşi metodă ca şi pentru cuvintele în -idades. Marti este omograf cu numele unui personaj celebru (José Martí), fără diacritice, şi scorul său nu a fost contabilizat pentru rom. marţi. Scorul lui mardi în franceză a fost diminuat cu scorul lui mardi gras, pentru a nu contabiliza această formă frecventă în limba engleză. Interfeţele celui de al doilea tip actualizează partea "rezultate pe concepte" a bazei de date. Interfeţele afişării rezultatelor Baza de date utilizată pentru stocarea rezultatelor conţine: (a) 1600 de variante ale termenilor clasate pe concept (57) şi pe limbă (7) (b) scorurile celor 1600 de variante grafice, măsurate pentru 6 motoare de căutare (9600 de rezultate) (c) scorurile celor 57 de termeni, calculate pornind de la cele 9600 de rezultate pentru 6 motoare şi 7 limbi (2394 rezultate). Aceste scoruri sunt vizibile sub formă de cifre absolute sau proporţional faţă de scorul limbii engleze. Accesul la aceste informaţii a necesitat crearea unei interfeţe de afişare a rezultatelor care a trebuit să respecte două condiţii: • • să permită obţinerea de rezultate rapide şi obiective pentru ansamblul informaţiilor disponibile să dispună de rezultate actualizate de fiecare dată când se produce o modificare în baza de date. Interfaţa care a permis accesul la rezultate (a) a permis obţinerea tabelului din anexa 3. Rezultatele interfeţei (b) sunt disponibile în anexa 8, iar cele obţinute cu interfaţa (c) în anexa 9. Interfaţa anexei 9 calculează şi media, diferenţa tip şi coeficientul de variaţie a rezultatelor când sunt afişate procentajele. Acestea sunt şi rezultatele obţinute cu această interfaţă care permit să se ilustreze caracteristicile motoarelor de căutare (anexa 4). Concluzii şi plan pentru versiunea viitoare Acest sistem prezintă o ameliorare certă a metodei manuale. El transformă o operaţie lentă şi obositoare care necesita 10 zile de lucru pentru 1200 de variante şi un singur motor de căutare într-o muncă de 2 zile pentru 1600 de variante şi 6 motoare de căutare cu rezultate mai flexibile la utilizare. Acest sistem permite, în plus, integrarea cu uşurinţă a altor limbi pentru studiu, a altor eşantioane lingvistice sau a altor motoare de căutare. Această flexibilitate ne permite să întrevedem adăugarea unor noi funcţionalităţi în viitor în ceea ce priveşte baza de date şi interfeţele. O supraveghere periodică şi datată a rezultatelor va permite atât o analiză dinamică a evoluţiei prezenţei limbilor neolatine studiate pe Internet, cât şi transformarea acestui studiu într-un veritabil observator al acestor evoluţii. Aceste rezultate pot permite, de asemenea, evaluarea modalităţii în care fiecare motor de căutare tratează plurilingvismul pe Internet. Anexa 6: Rezultatele măsurătorilor clasamentului pe limbi cu Fastsearch şi comparaţie Tabelul 17: Rezultatele clasamentului pe limbi obţinut cu Fastsearch şi comparaţie35 Fastsearch Fastsearch 2000 2001 Afrikaans 0,06 Albaneză % total relativ 2000 0% % total % total % engleză L5 (2001) L5 (2001) L4 relativ absolut % total (1998) 2001 engleză total 0,01% 0,01% 0,02% 0,03 0% 0,01% 0,01% 0,01% 22,24 42,15 6,81% 7,57% 7,33% 12,58% 220,78 335,04 67,63% 60,20% 58,27% 100 % Arabă 0,16 0,57 0,05% 0,10% 0,10% 0,17% Bască 0,04 0,05 0,01% 0,01% 0,01% 0,01% 0,03 0, % 0,01% 0,01% 0,01% 0,16 0,02% 0,03% 0,03% 0,05% Germană Engleză Bielorusă Bulgară 0,06 Catalană 0,52 0,75 0,16% 0,13% 0,13% 0,22% 4,9 20,57 1,50% 3,70% 3,58% 6,14% 6,30 0% 1,13% 1,10% 1,88% 9,81 1,49% 1,76% 1,71% 2,93% 0,45 0% 0,08% 0,08% 0,13% Chineză simplificat ă Chineză trad. Coreeană 4,87 Croată Daneză 1,63 2,89 0,50% 0,52% 0,50% 0,86% Spaniolă 8,92 15,98 2,73% 2,87% 2,78% 4,77% Estonă 0,20 0,48 0,06% 0,09% 0,08% 0,14% Feroieză Finlandez ă Franceză 0,02 0, % 0% 0% 0,01% 1,33 2,64 0,41% 0,47% 0,46% 0,79% 10,66 19,15 3,27% 3,44% 3,33% 5,72% 0 0% 0% 0% 0% Frizonă Galiciană 0,01 0% 0% 0% 0% Galeză 0,39 0,00% 0,07% 0,07% 0,12% Greacă 0,31 0,66 0,09% 0,12% 0,11% 0,20% Ebraică 0,21 0,30 0,06% 0,05% 0,05% 0,09% Maghiară 0,57 1,36 0,17% 0,24% 0,24% 0,41% 0,76 0% 0,14% 0,13% 0,23% 0,07% Indonezia nă Islandeză 0,15 0,25 0,05% 0,04% 0,04% Italiană 5,67 10,77 1,74% 1,93% 1,87% 3,21% 19,33 37,40 5,92% 6,72% 6,50% 11,16% 0,03 0% 0,01% 0,01% 0,01% Japoneză Latină Letonă 0,07 0,10 0,02% 0,02% 0,02% 0,03% Lituaniană 0,11 0,16 0,03% 0,03% 0,03% 0,05% 0,17 0% 0,03% 0,03% 0,05% Malaeză 35 Acest tabel nu ia în considerare paginile multilingve. 13,4% 6,97% 52% 75% 10,95% 5,69% 2,53% 8,86% 4,61% 2,81% 5,88% 3,06% 1,50% Olandeză 3,77 6,83 1,15% 1,23% 1,19% 2,04% Norvegian ă Poloneză 1,44 2,62 0,44% 0,47% 0,46% 0,78% 1,08 3,36 0,33% 0,60% 0,58% 1% Portughez ă Română 5,03 9,04 1,54% 1,62% 1,57% 2,70% 5,40% 2,81% 0,82% 0,14 0,22 0,04% 0,04% 0,04% 0,07% 0,32% 0,17% 0,15% Rusă 7,04 12,76 2,16% 2,29% 2,22% 3,81% Slovacă 0,69 0% 0,12% 0,12% 0,21% Slovenă 0,14 0,40 0,04% 0,07% 0,07% 0,12% Suedeză 3,33 5,11 1,02% 0,92% 0,89% 1,53% Cehă 1,21 3,50 0,37% 0,63% 0,61% 1,04% 0,95 0% 0,17% 0,17% 0,28% 1,15 0,16% 0,21% 0,20% 0,34% 0,30 0% 0,05% 0,05% 0,09% 0,17 0% 0,03% 0,03% 0,05% Thai Turcă Ucrainean ă Vietnamez ă Total relativ Total estimat 0,52 326,43 556,59 340 575 (Cifre obţinute cu Fastsearch) Anexa 7: Criterii de selecţie a termenilor Tabelul de mai jos prezintă ansamblul criteriilor alese pentru selectarea termenilor eşantionului. Este vorba de criterii de filtrare pentru acceptarea unui termen. Pentru a reţine cei 57 de termeni au fost eliminaţi sute de termeni. Tabelul 18: Criterii de selecţie lingvistică a termenilor eşantionului CRITERIU DEFINIŢIE Neutralitate Proprietate a culturală unui cuvânt în funcţie de frecvenţa sa de apariţie în limbaj în funcţie de cultura respectivă. EXEMPLE METODĂ Vin, parfum, Adecvată pentru gastronomie şi obţinerea unui termenii eşantion cu limbajului coeficientul de diplomatic nu sunt variaţie cel mai neutri din punct slab, sunt eliminaţi de vedere cultural termenii care nu în limba franceză. sunt neutri din punct de vedere cultural. Omografie Ortografia Exemple de grafie Se elimină din interlingvistic unui termen identică: casa în eşantion termenii ă într-o limbă spaniolă şi care prezintă este identică portugheză această cu cea a altui înseamnă casă. caracteristică (cu termen din Exemple de "falşi sau fără diacritice). altă limbă. prieteni": red în Aceasta este spaniolă (reţea), valabil atât red în pentru grafiile engleză(roşu) ; identice, cât şi hier în franceză “falşii (ieri) şi hier în prieteni”. germană (aici). Omografie interlingvistic ă prin împrumut Omografie cu o abreviere Când un cuvânt al unei limbi este acceptat aşa cum este întro altă limbă. Anglicisme ca business, sandwich sau software. Reciproc, deja vu în engleză (omograf al expresiei franceze fără diacritice). Sept (şapte) în franceză cu abrevierile pentru septembre (franceză) “septembrie” şi mai ales COMENTARII Sunt luate în calcul numai omografiile între limbile studiului şi/sau limbile prezente pe Internet (cum este germana). Pentru a evita riscul statistic de omografie cu limbile neabordate în studiu sunt eliminate cuvintele de mai puţin de patru litere. Eliminarea din eşantion a termenilor împrumutaţi. De evitat aceşti termeni. Suntem relativ protejaţi prin hotărârea noastră de a evita cuvintele de mai puţin de patru litere. Omografie cu un nume propriu frecvent Pseudoomogr afie interlingvistic ă Semnificaţii neechivalente Scrierea unui termen cu o greşeală comună de ortografie corespunde unui termen într-o altă limbă. September (engleză). Julio, iulie în spaniolă, şi prenumele respectiv, foarte frecvent, având acelaşi semnificant. Windows înseamnă fereastră în engleză... dar este şi numele unui program foarte citat în spaţiul Internet. Ambasador în română şi amba(s)sador în engleză. Prix în franceză înseamnă şi premio şi precio (spaniolă), price şi prime (engleză). Love în engleză Morfosintaxă Limba neechivalentă: engleză, foarte înseamnă şi substantiv, diferită din dragoste şi verb punct de verbul a iubi: la vedere infinitiv, la sintactic de prezent indicativ celelalte limbi (iubesc, iubeşti, studiate, are iubim, iubiţi, adesea iubesc) etc. aceeaşi formă ca substantiv şi variantă verbală, aceasta din De eliminat termenii de acest fel Cuvântul este eliminat numai dacă limba ţintă este engleza. De evitat aceşti termeni, sau, dacă este posibil, să se urmărească compararea lor incluzând toţi semnificanţii care ar completa o semnificaţie echivalentă în limbile unde este cazul. De evitat aceşti Această termeni. caracteristică a limbii engleze ne determină să eliminăm a priori verbele urmă fiind echivalentă, de altfel, cu mai multe forme ale conjugării în celelalte limbi. Morfosintaxă Adjectivele neechivalentă: invariabile în adjectiv şi engleză, substantiv variază în gen şi număr în celelalte limbi studiate. Substantivele care nu variază în general decât în număr în celelalte limbi variază şi după caz (nominativ, genitiv etc.) şi diferenţa determinat / nedeterminat în română. Pluricentrism Când o limbă lexical şi are mai mult semantic de un centru normativ lexicosemantic. Pluricentrism Când o limbă ortografic are mai mult de un centru normativ ortografic. Adjectivul din A se urmări engleză yellow multiplicarea corespunde lui variantelor în gen, amarillo / număr şi caz în amarilla / celelalte limbi când amarillos / echivalenţa o cere. amarillas în spaniolă. Substantivul englez instability / instabilities corespunde variantelor româneşti: instabilitate / instabilitatea / instabilităţii / instabilităţi / instabilităţile / instabilităţilor (nu includem aici variantele fără semne diacritice). După ţara A se urmări hispanofonă se multiplicarea spune nafta sau variantelor gasolina sinonimice (benzină). naţionale sau Americano, în regionale pentru anumite ţări echivalente, când hispanofone din este posibil. America Latină, nu are acelaşi înţeles ca în celelalte sau ca în Spania ("care aparţine întregului continent" sau "care aparţine Statelor Unite"). Este cazul limbii A se urmări engleze şi mai multiplicarea ales a limbii variantelor portugheze. ortografice Anumiţi termeni naţionale pentru se ortografiază echivalente, când diferit în Statele este posibil. Unite şi în Marea Britanie, (theater şi theatre), în Portugalia şi în Brazilia (electricidade şi eletricidade).