EL LUGAR DE LAS LENGUAS LATINAS EN INTERNET

Transcrição

EL LUGAR DE LAS LENGUAS LATINAS EN INTERNET
EL LUGAR DE LAS LENGUAS LATINAS
EN INTERNET – Edición 2001
IL POSTO DELLE LINGUE LATINE IN
INTERNET – Edizione 2001
LUGAR DAS LÍNGUAS LATINAS NA
INTERNET – Edição 2001
LOCUL LIMBILOR LATINE PE INTERNET Ediţia2001
EL LUGAR DE LAS LENGUAS LATINAS EN INTERNET –
Edición 2001
Resumen
Estadísticas (presencia de la lengua latina en Internet)
Estudio
Índice
IL POSTO DELLE LINGUE LATINE IN INTERNET –
Edizione 2001
Riassunto
Statistiche
Studio
Indice
LUGAR DAS LÍNGUAS LATINAS NA INTERNET – Edição
2001
Resumo
Estatísticas
Estudo
Índice
LOCUL LIMBILOR LATINE PE INTERNET - Ediţia2001
Rezumat
Statistici
Studiu
Index
Realizado entre agosto 2000 y junio 2001. Publicado: 1/08/2001
Derechos de autor y de explotación ©, 2000-2001, Funredes, Unión Latina.
Con el apoyo de la Délégation générale à la langue française
Este estudio trata la presencia de cinco idiomas latinos (castellano, francés, italiano, portugués y
rumano) en Internet, en relación con el inglés. Es la continuación de versiones realizadas entre
1995 y 1998 sobre la presencia de las lenguas y las culturas latinas en la Red. Se ha conservado el
principio metodológico de base de la edición de 1998: calcular con motores de búsqueda la
cantidad de ocurrencias de 57 términos de significación y alcance equivalentes en las lenguas
estudiadas y analizar los resultados para deducir, estadísticamente, los porcentajes de presencia
respectivos. Se ha empezado también a extender la investigación al alemán, con la idea de abarcar
después otras lenguas.
El entorno de los motores de búsqueda cambió mucho desde la edición anterior, lo que llevó a
analizar las implicaciones e introducir mejoras de importancia:
Aplicación de varios motores de búsqueda, tras un análisis pormenorizado de los existentes y
una selección para obtener resultados rigurosos.
Automatización de las mediciones y cálculos mediante un programa que es interfaz entre los
términos a contar organizados en una base de datos y los motores.
Sistematización del procesamiento de las homografías interlingüísticas de manera automática,
agregando solidez metodológica.
****
Las dos últimas medidas en % sobre la presencia de las lenguas latinas en
Internet (octubre 2001/febrero 2002)
Medidas en términos de % de páginas internet en lenguas latinas (y en
alemán)
en relación con el inglés
10/2001
2/2002
ESPAÑOL
11,36%
11,60%
FRANÇAIS
9,14%
9,60%
ITALIANO
6,15%
6,51%
PORTUGUÊS
5,61%
5,62%
ROMANA
0,36%
0,33%
DEUTSCH
14,08%
14,41%
Sobre la base de estos resultados, los porcentajes de páginas en internet por lengua son
los siguientes: (estimación 02/2002 - progresión a partir de 10/2001).
ENGLISH
49.0% (- 1,8%)
ESPAÑOL
5,68% (- 0,09%)
FRANÇAIS
4,70% (+ 0,06%)
ITALIANO
3,19% (+ 0,07%)
PORTUGUÊS
2,75% (- 0,1%)
ROMANA
0,16% (- 0,02%)
DEUTSCH
7,06% (- 0,09%)
Studio realizzato tra agosto 2000 e giugno 2001 e pubblicato il 01/082001
Diritti d'autore e di gestione ©, 2000-2001, Funredes, Unione Latina.
Con il sostegno della Délégation générale à la langue française
Questo studio considera la presenza de cinque lingue neolatine (francese, italiano, portoghese
romeno e spagnolo) in Internet, rispetto all'inglese. Si tratta della continuazione delle versioni
realizzate tra il 1995 e il 1998 (http://www.unilat.org/dtil/lenguainternet/it/l_latine_it.htm) sulla
presenza delle lingue e delle culture neolatine sulla Rete. È stato mantenuto il principio
metodologico di base dell'edizione del 1998: calcolare con motori di ricerca la quantità delle
occorrenze di 57 termini di significato e portata equivalenti nelle lingue studiate e analizzare i
risultati per dedurre, statisticamente, le rispettive percentuali di presenza. Inoltre si è cominciato a
estendere la ricerca al tedesco, con il proposito di includere in seguito altre lingue.
Il profilo dei motori di ricerca è cambiato molto dall'edizione precedente, il che ha portato ad
analizzarne le contraddizioni e introdurre miglioramenti d'importanza:
Applicazione di vari motori di ricerca, dopo un'analisi dettagliata degli esistenti e una selezione
per ottenere risultati rigorosi.
Automatizzazione delle misurazioni e calcoli attraverso un programma, che fa da interfaccia tra i
termini da contare organizzati in una base di dati e i motori.
Sistematizzazione del trattamento delle omografie interlinguistiche in modo automatico, dando
così solidità metodologica.
****
Le ultime due misurazioni in % della presenza delle lingue neolatine su Internet
(ottobre 2001/febbraio 2002)
Medie percentuali delle pagine Internet per quanto riguarda le lingue latine
(e il tedesco) in rapporto all'inglese
10/2001
2/2002
ESPAÑOL
11,36%
11,60%
FRANÇAIS
9,14%
9,60%
ITALIANO
6,15%
6,51%
PORTUGUÊS
5,61%
5,62%
ROMANA
0,36%
0,33%
DEUTSCH
14,08%
14,41%
Sulla base dei risultati, le percentuali delle pagine Internet per lingua sono le seguenti
(stima del febbraio 2002 - progressione dall'ottobre 2001)
ENGLISH
49.0% (- 1,8%)
ESPAÑOL
5,68% (- 0,09%)
FRANÇAIS
4,70% (+ 0,06%)
ITALIANO
3,19% (+ 0,07%)
PORTUGUÊS
2,75% (- 0,1%)
ROMANA
0,16% (- 0,02%)
DEUTSCH
7,06% (- 0,09%)
Realizado entre agosto de 2000 e junho de 2001. Publicado em 1/08/2001
Direitos autorais e editoriais ©, 2000-2001, Funredes, União Latina.
Com o apoio da Délégation générale à la langue française
Este
estudo
dá
seguimento
aos
trabalhos
realizados
entre
1995
e
1998
(http://www.unilat.org/dtil/lenguainternet/pt/l_latinas_pt.htm), sobre o lugar das línguas e
culturas latinas na Web, sendo que esta edição concentra-se no estudo das línguas. O princípio
metodológico de base, que mostrou sua solidez quando da edição anterior, foi conservado. Tratase de proceder à medição, em certos espaços da Internet, da quantidade de menções ou
ocorrências de 57 palavras ou termos, que possem um significado e um alcance equivalente nas
línguas estudadas (espanhol, francês, inglês, italiano, português, romeno) e de analisar e
comparar, em seguida, os resultados para, a partir do método estatístico, chegar a porcentagens
de presença de cada uma delas. Uma primeira extensão do estudo ao alemão (com a intenção de
ampliar, posteriormente, a outras línguas) começou a ser considerada.
O ambiente dos motores de busca evoluiu muito desde o estudo realizado anteriormente, o que
levou a uma análise das implicações das mudanças em nossa metodologia e das melhorias
sensíveis verificadas com relação aos trabalhos anteriores:
Aplicação de vários sistemas de busca a partir dos quais foi feita uma seleção ponderada com
o objetivo de obter os resultados mais rigorosos possíveis.
Automatização da contagem e dos cálculos a partir de um software que funcionava como
interface entre os termos a serem medidos, organizados em bases de dados, e os sistemas de
busca. No futuro, este investimento possibilitaráa publicação dos resultados em intervalos
regulares, constituindo, assim, um verdadeiro observatório.
Sistematização do processamento das homografias interlingüísticas
administração automatizada, mais sólida no plano metodológico.
através
de
uma
****
As dois ultimas medidas em % sobre a presencia das línguas latinas no Internet
(outubro 2001/fevreiro 2002)
Medidas em términos de % das paginas Internet em línguas latinas (e alemã)
em relação com o inglês
10/2001
2/2002
ESPAÑOL
11,36%
11,60%
FRANÇAIS
9,14%
9,60%
ITALIANO
6,15%
6,51%
PORTUGUÊS
5,61%
5,62%
ROMANA
0,36%
0,33%
DEUTSCH
14,08%
14,41%
Sou base destoes resultados, os porcentagens das paginas em Internet por língua são os
seguintes: 2/2002 - progressão a partir de 10/2001)
ENGLISH
49.0% (- 1,8%)
ESPAÑOL
5,68% (- 0,09%)
FRANÇAIS
4,70% (+ 0,06%)
ITALIANO
3,19% (+ 0,07%)
PORTUGUÊS
2,75% (- 0,1%)
ROMANA
0,16% (- 0,02%)
DEUTSCH
7,06% (- 0,09%)
Studiu realizat în perioada august 2000 - iunie 2001şi publicat la 01/08/2001
Drepturi de autor şi de exploatare © 2000-2001, Funredes, Uniunea Latină.
Cu sprijinul Délégation générale à la langue française
Acest
studiu
continuă
lucrările
realizate
între
anii
1995
şi
1998
(http://www.unilat.org/dtil/lenguainternet/ro/l_latinas_ro.htm), privind locul limbilor şi al culturilor
neolatine pe Internet. Această ediţie se concentrează pe studiul limbilor. A fost păstrat principiul
metodologic de bază care şi-a demonstrat soliditatea cu ocazia ediţiei precedente a studiului. Este
vorba de măsurarea, în anumite spaţii Internet, a numărului de menţionări sau de ocurenţe a 57
cuvinte sau termeni având o semnificaţie echivalentă în limbile studiate (engleză, franceză,
italiană, portugheză, română, spaniolă), analizând şi comparând apoi rezultatele pentru a deduce,
prin metode statistice, prezenţa, în procente, a fiecăreia dintre limbi. A fost luată în considerare o
primă extindere a studiului la limba germană (cu intenţia de a-l lărgi, în continuare, şi la alte
limbi).
Spaţiul motoarelor de căutare a evoluat foarte mult de la studiul precedent, ceea ce a condus la o
analiză a implicaţiilor schimbărilor asupra metodologiei; în consecinţă, s-au produs ameliorări
sensibile faţă de cercetările precedente:
Aplicarea mai multor motoare de căutare, selecţionate atent în prealabil, în scopul obţinerii de
rezultate cât de riguroase posibil.
Automatizarea numărătorilor şi a calculelor cu ajutorul unui program având rolul de
interfaţă între termenii de contorizat, înregistraţi în baze de date, şi motoarele de căutare. Această
investiţie va permite, în viitor, publicarea de rezultate la intervale regulate, realizându-se, astfel, o
observare reală.
Sistematizarea prelucrării omografiilor interlingvistice printr-o gestiune automatizată, mai solidă
pe plan metodologic.
****
Ultimele doua masuri în % privind prezenta limbilor latine pe Internet
(octombrie 2001/februarie 2002)
Medii în % ale paginilor Internet în limbile latine (si în germana)
în raport cu engleza
10/2001
2/2002
ESPAÑOL
11,36%
11,60%
FRANÇAIS
9,14%
9,60%
ITALIANO
6,15%
6,51%
PORTUGUÊS
5,61%
5,62%
ROMANA
0,36%
0,33%
DEUTSCH
14,08%
14,41%
Pe baza acestor rezultate procentajele paginilor Internet pentru fiecare limba sunt
urmatoarele (estimare 2/2002 progresie de la 10/2001)
ENGLISH
49.0% (- 1,8%)
ESPAÑOL
5,68% (- 0,09%)
FRANÇAIS
4,70% (+ 0,06%)
ITALIANO
3,19% (+ 0,07%)
PORTUGUÊS
2,75% (- 0,1%)
ROMANA
0,16% (- 0,02%)
DEUTSCH
7,06% (- 0,09%)
EL LUGAR QUE OCUPAN
LAS LENGUAS LATINAS
EN INTERNET
EDICIÓN 2001
Estudio propuesto por:
Funredes: http://funredes.org
Unión Latina: http://www.unilat.org
Realizado entre agosto de 2000 y junio de 2001
Derechos de autor y de explotación ©, 2000-2001, Funredes, Unión Latina.
1
ÍNDICE
ÍNDICE .................................................................................................................................................................. 1
1- PRÓLOGO Y ANTECEDENTES................................................................................................................... 4
2- AUTORES ......................................................................................................................................................... 6
3- PRESENTACIÓN GENERAL DEL ESTUDIO Y DE SUS RESULTADOS ............................................. 7
3.1 METODOLOGÍA......................................................................................................................................... 7
3.2 SÍNTESIS COMENTADA DE LOS RESULTADOS.................................................................................. 7
3.2.1 Resultados en relación con el inglés..................................................................................................... 7
3.2.2 Resultados absolutos ............................................................................................................................ 8
3.3 RELACIÓN ENTRE EL NÚMERO DE HABLANTES Y SU PRESENCIA EN LA RED ....................... 10
3.4 VITALIDAD DE LA PRODUCCIÓN DE INFORMACIÓN DE LOS INTERNAUTAS SEGÚN LOS
IDIOMAS......................................................................................................................................................... 11
4- DETALLE DE LOS RESULTADOS............................................................................................................ 13
4.1 METODOLOGÍA INTERNET .................................................................................................................. 13
4.1.1 Identificación de los principales motores de búsqueda disponibles en el web y preselección. .......... 13
4.1.2 Validación de los motores seleccionados en función de la metodología utilizada............................. 14
4.1.3 Selección final de los motores de búsqueda para la aplicación de la metodología ........................... 15
4.2 METODOLOGÍA LINGÜÍSTICA............................................................................................................. 15
4.2.1 Nuevos problemas planteados por el alemán ..................................................................................... 16
4.2.2 Otras problemáticas ........................................................................................................................... 16
4.3 METODOLOGÍA ESTADÍSTICA ............................................................................................................ 17
4.3.1 Resultados de las mediciones con los motores de búsqueda preseleccionados.................................. 17
4.3.2 Cálculos estadísticos de los resultados en relación con el inglés ...................................................... 17
4.3.3 Cálculos de los resultados absolutos.................................................................................................. 19
4.4 COMPARACIÓN CON OTROS ESTUDIOS............................................................................................ 21
4.4.1 Comparación con las ediciones anteriores de este estudio ................................................................ 21
4.4.2 Comparación con estudios similares (Alis y Inktomi) ........................................................................ 21
5- TENDENCIA DE LA EVOLUCIÓN DE LAS LENGUAS ESTUDIADAS: ENERO DEL 2001 ........... 23
6- PERSPECTIVAS PARA LA CONTINUIDAD DE LA OBSERVACIÓN ................................................ 25
7- REFERENCIAS, EN INTERNET, SOBRE TRABAJOS CONEXOS ...................................................... 26
ANEXO 1: RECAPITULACIÓN Y REFERENCIAS DE LOS DIVERSOS ESTUDIOS REALIZADOS
POR LOS AUTORES ......................................................................................................................................... 27
ANEXO 2: VISUALIZACIÓN DE INTERVALOS DE CONFIANZA EN LOS RESULTADOS POR
LENGUA ............................................................................................................................................................. 29
ANEXO 3: LISTA DE LOS TÉRMINOS DE LA MUESTRA DE REFERENCIA ..................................... 30
ANEXO 4: SELECCIÓN DE LOS MOTORES DE BÚSQUEDA DE L5 ..................................................... 42
INTRODUCCIÓN ........................................................................................................................................... 42
LOS RESULTADOS POR MOTOR Y POR LENGUA................................................................................... 42
Datos relativos a Internet y a los motores de búsqueda.............................................................................. 43
Validación de los motores de búsqueda en función de nuestra metodología .............................................. 46
CONCLUSIÓN ................................................................................................................................................ 47
ANEXO 5: INTERFAZ DE AUTOMATIZACIÓN DE L5 ............................................................................ 49
INTRODUCCIÓN ........................................................................................................................................... 49
TECNOLOGÍA UTILIZADA.......................................................................................................................... 49
2
DETALLES DEL FUNCIONAMIENTO DEL SISTEMA .............................................................................. 50
Base de datos............................................................................................................................................... 50
Las interfaces PHP...................................................................................................................................... 50
CONCLUSIONES Y PLAN PARA LA PRÓXIMA VERSIÓN ...................................................................... 53
ANEXO 6: RESULTADOS DE LAS MEDIDAS DE LA CLASIFICACIÓN POR LENGUA DE
FASTSEARCH Y COMPARACIÓN................................................................................................................ 54
ANEXO 7: CRITERIOS DE SELECCIÓN DE LOS TÉRMINOS................................................................ 56
ANEXO 8: RESULTADO DEL CONTEO DE CADA VARIANTE POR TÉRMINO Y POR
MOTOR…………………………………………………………………………………(EN PREPARACIÓN)
ANEXO 9: RESULTADO DEL CONTEO DE LOS TERMINOS POR MOTOR…..(EN PREPARACIÓN)
REFERENCIAS DE LOS CUADROS ............................................................................................................. 59
3
1- PRÓLOGO Y ANTECEDENTES
Este estudio es la continuación de los trabajos emprendidos por Funredes entre 1995 y 19981
sobre el puesto que ocupan las lenguas y las culturas latinas en la Red. Esta edición se
concentra en los idiomas. Conservamos el principio metodológico de base que mostró su
solidez en la edición anterior. Se trata de calcular, en ciertos espacios de Internet2, la cantidad
de menciones u ocurrencias de 57 palabras o términos de significación y alcance equivalentes
en las lenguas estudiadas (inglés, castellano, francés, italiano, portugués, rumano) y de
analizar y comparar los resultados para deducir, estadísticamente, porcentajes de presencia de
cada idioma. Por otra parte, empezamos ya a extender la investigación al alemán, con la idea
de abarcar después varias otras lenguas.
El entorno de los motores de búsqueda cambió mucho desde la edición anterior, lo que nos
llevó a analizar las implicaciones en nuestra metodología al respecto e introducir mejoras de
importancia:
•
Aplicación de varios motores de búsqueda, tras un análisis pormenorizado de los
existentes y una selección para obtener resultados rigurosos.
•
Automatización de las mediciones y cálculos mediante un programa que es interfaz entre
los términos a contar, organizados en una base de datos, y los motores de búsqueda. Esta
inversión permitirá publicar en adelante resultados a intervalos regulares, estableciendo un
verdadero observatorio de la presencia de los idiomas en la Red.
•
Sistematización del procesamiento de las homografías interlingüísticas de manera
automática.
Corregimos también algunos de escritura en algunos términos3. Y, aunque hemos extendido el
estudio al alemán, no cambiamos por el momento el método de búsqueda de las formas, lo
que ha dado en este idioma resultados de menor precisión que los demás4.
1
Con el apoyo de la Agence de la francophonie para la cuarta edición y en colaboración con la Unión Latina a
partir de la tercera edición.
2
En esta edición solo se tomó en cuenta el espacio web (páginas de la Red); el espacio Usenet se dejó de lado.
3
Se trata de errores menores que no implicaron diferencias notables en relación con los resultados de la edición
anterior.
4
La forma de composición de palabras en alemán implica que organizar la búsqueda como para las otras lenguas
hasta ahora estudiadas dé valores muy por debajo de la realidad lingüística. Los resultados presentados aquí, con
las correcciones aumentadas, son aproximados. Los problemas que plantea la adaptación de nuestra metodología
al alemán son detallados en 4.2.1.
4
Se harán referencias a las etapas anteriores de este estudio. Una síntesis de éstas, con los
enlaces respectivos, se puede leer en el anexo 1.
5
2- AUTORES
El equipo de trabajo fue el siguiente:
Coordinación general:
Dirección del estudio:
Supervisión lingüística:
Responsable lingüístico:
Equipo lingüístico:
Automatización de las medidas
y de los cálculos estadísticos5:
5
Daniel Pimienta ([email protected])
Benoît Lamey ([email protected]), bajo la dirección de
Daniel Pimienta
Daniel Prado ([email protected])
Marcelo Sztrum ([email protected])
Dirección Terminología e Industrias de la Lengua de
la Unión Latina
Benoît Lamey ([email protected])
Con un caluroso agradecimiento a Roger Price, por su apoyo a distancia.
6
3- PRESENTACIÓN GENERAL DEL ESTUDIO Y DE SUS RESULTADOS
3.1 METODOLOGÍA
Se conservó la metodología de base utilizada desde 1998. En primer lugar, establecer una
selección de 57 términos por lengua, cada uno con variantes ortográficas, según la presencia o
no de signos diacríticos, sinonímicas, dialectales o morfosintácticas y con una significación y
alcance equivalentes en las lenguas estudiadas (detalles de los criterios lingüísticos en 4.2 y
anexo 7). A continuación, analizar y comparar los resultados para deducir, estadísticamente,
porcentajes de presencia de cada idioma. Para cada término, la relación de las lenguas latinas
con respecto al inglés es utilizada como variable aleatoria y se aplican técnicas de la
estadística tomando como hipótesis una distribución matemática corriente de esta variable
aleatoria (la curva de Gauss, también llamada distribución "normal").
Los resultados que se presentan más abajo se obtuvieron haciendo la síntesis de los resultados
observados en los dos motores de búsqueda que satisficieron los criterios de selección
descritos en el anexo 4. Todas las mediciones tomadas en cuenta en esta edición se llevaron a
cabo entre agosto de 2000 y junio de 2001.
3.2 SÍNTESIS COMENTADA DE LOS RESULTADOS
3.2.1 Resultados en relación con el inglés
El cuadro siguiente presenta la relación media entre cada lengua latina (más el alemán) y el
inglés, obtenida por la medición de las ocurrencias de los 57 términos en el espacio web
realizada en junio de 2001.
7
Cuadro 1: Promedios de las lenguas latinas (más el alemán) en relación con el inglés
10,95%
8,86%
5,88%
5,40%
0,32%
> 13,42 %
estimado6
CASTELLANO
FRANCÉS
ITALIANO
PORTUGUÉS
RUMANO
ALEMÁN
3.2.2 Resultados absolutos
Los resultados citados nos permiten evaluar la presencia de las lenguas latinas y, de manera
aproximada, la del alemán, en relación con el inglés. Para cifrar la presencia absoluta de estas
lenguas en la Red, es necesario formular previamente una hipótesis sobre la presencia
absoluta del inglés. El cuadro siguiente muestra valores de presencia absoluta, establecidos a
partir de promedios de diversas hipótesis de presencia del inglés.
6
Hay pues, en esta versión del estudio, una diferencia cualitativa entre los resultados del alemán y los de las
otras lenguas. La formación de palabras en alemán, muy diferente de la de las otras lenguas estudiadas, lo
desaventajaría mucho si nos atuviéramos a los resultados que dan los motores al pedirles una búsqueda "por
palabra aislada", es decir, sin ningún contexto antes ni después. Para llegar a obtener resultados tan fiables como
los de las otras lenguas sería necesario organizar, en un segundo momento, búsquedas "por palabra no aislada"
(es decir, con contexto antes y después) y echar mano, en la medida de lo posible, de un factor cifrado que
exprese la diferencia de cantidad, en general, de las palabras aisladas entre otras lenguas del estudio y el alemán.
Nuestra solución aquí ha sido conservar la muestra de 57 términos tal cual, extenderla con la misma metodología
lingüística a 57 términos alemanes equivalentes y buscar todavía por palabra aislada. Pero nos pareció necesario
corregir aumentando en al menos 30% los resultados del alemán así obtenidos, para comenzar a acercarnos a su
realidad lingüística: la cifra de 13,42% aquí aumenta en 30% el primer resultado bruto de 10,32%.
8
Cuadro 2: Presencia absoluta de las lenguas estudiadas en la Red
Si INGLÉS =
entonces CASTELLANO =
entonces FRANCÉS =
entonces ITALIANO =
entonces PORTUGUÉS =
entonces RUMANO =
entonces ALEMÁN7
Quedará pues un espacio
para las otras lenguas de
65%
7,12%
5,76%
3,82%
3,51%
0,21%
8,71%
5,83%
60%
55%
52%
50%
45%
40%
6,57% 6,02% 5,69% 5,48% 4,93% 4,38%
5,32% 4,87% 4,61% 4,43% 3,99% 3,54%
3,53% 3,23% 3,06% 2,94% 2,65% 2,35%
3,24% 2,97% 2,81% 2,70% 2,43% 2,16%
0,19% 0,18% 0,17% 0,16% 0,14% 0,13%
8,04% 7,37% 6,97% 6,70% 6.03% 5,37%
13,10% 20,35% 24,96% 27,59% 34,83% 42,07%
Este cuadro nos da una idea más precisa de la presencia en términos absolutos de las lenguas
estudiadas en relación con el conjunto de las páginas de la Red. Uno de los indicadores más
significativos es el del espacio disponible para las lenguas restantes, que nos permite
seleccionar, como la más probable, la hipótesis de una presencia absoluta del inglés
próxima al 52%.
Para esto, basta considerar el chino y el japonés, que tienen probablemente una presencia
semejante a las del alemán y el castellano (entre 5%y 8%), así como la de idiomas que
representarían entre el 0,5% y el 3% (coreano, holandés, ruso y las cuatro lenguas
escandinavas con un total entre 8% y 10%), el de las lenguas cuya presencia es muy escasa,
como el rumano (una decena de lenguas con 0,1%, para un total de 1%) y, finalmente, las
numerosísimas lenguas cuya presencia sigue siendo marginal. Esta última proporción es la
más difícil de estimar; tomando la hipótesis de 200 lenguas a 0,01%, se alcanza un total de
2%… Una de las grandes incógnitas, cuyas consecuencias deberán ser evaluadas en el futuro,
es la posible multiplicación de las lenguas en Internet; se calcula que el total de las lenguas
existentes se sitúa entre 3000 y 6000...
Calculando una presencia total de 25% para las lenguas no estudiadas, es razonable la
hipótesis de un total absoluto de 52% para el inglés. La estimación en 25% de las lenguas no
estudiadas se refuerza por la evolución dinámica de su presencia, descrita en 4.3.3.
7
Resultados aumentados en 30% (véase nota 6).
9
3.3 RELACIÓN ENTRE EL NÚMERO DE HABLANTES Y SU PRESENCIA EN LA
RED
Es evidente que los valores de presencia absoluta no son un indicador perfecto del vigor de un
idioma en la Red. Para obtener un resultado significativo, conviene proporcionar valores que
expresen la presencia de las lenguas en Internet según su presencia en el mundo real, en
general. La presencia relativa de estas lenguas se calcula sin tener completamente en cuenta
el factor "plurilingüismo", cuyas dificultades se describieron en L4.
Cuadro 3: Presencia de las lenguas estudiadas (cifras redondeadas en millones)
Inglés
630
Presencia absoluta
(cantidad hablantes)
Presencia relativa 10,50%
(% mundial)
Castellan Francés
o
375
130
6,25%
2,17%
Italiano
60
1%
Portugué Rumano Alemán
s
190
30
120
3,17%
0,50%
2%
Cuadro 4: Presencia ponderada de las lenguas estudiadas en el espacio WWW
Presencia
absoluta 2001
Inglés
Castellano
Francés
Italiano
Portugués
Rumano
Alemán
52%
5,69%
4,61%
3,06%
2,81%
0,17%
6,97%
Presencia
ponderada
1998
7,14
0,40
1,30
1,50
0,26
0,30
No disponible
Presencia
ponderada
2000
5,71
0,78
2,02
2,77
0,68
0,38
3,158
Presencia
ponderada
2001
4,95
0,91
2,12
3,06
0,88
0,34
3,499
Un cociente igual a 1 debe así considerarse como resultado "normal"; si es inferior a 1, se
considera débil y si es superior a 1, respetable.
8
Resultados aumentados en 30% (véase nota 6).
10
Se comprueba una fuerte progresión del castellano y, sobre todo, del portugués, pero los dos
por debajo del umbral de una representación "normal". Excelentes resultados del alemán y del
italiano, buen resultado del francés.
3.4 VITALIDAD DE LA PRODUCCIÓN DE INFORMACIÓN DE LOS
INTERNAUTAS SEGÚN LOS IDIOMAS
Un estudio de Global Reach del 31 de marzo de 2001 (http//:www.glreach.com ) propone un
valor para el número de usuarios de Internet por lengua:
Cuadro 5: Número de internautas clasificados por lenguas (en millones)
Castella
no
Francés
Italiano
Internautas
215,6
(en millones)
20,4
16,6
14,2
11,5
0,6
27,5
146,2
Distribución
47,6%
en %
4,5%
3,7%
3,1%
2,5%
0,13%
6,1%
32,2%
Inglés
Portugu
Rumano
és
Alemán Resto
Si relacionamos estos resultados con los nuestros (en cuadro 6), debería ser posible deducir
cuáles son los idiomas que producen más información en la Red.
9
Resultados aumentados en 30% (véase nota 6).
11
Cuadro 6: Productividad de los hablantes
Páginas
INGLÉS
52%
CASTELLANO
5,69%
FRANCÉS
4,61%%
ITALIANO
3,06%%
PORTUGUÉS
2,81%%
RUMANO
0,17%%
6,97%%10
ALEMÁN
Internautas
47,6%
4,5%
3,7%
3,1%
2,5%
0,13%
6,1%
P/I
1,09
1,26
1,25
0,98
1,12
1,31
1,14
El resultado es notable: las proporciones por lengua de las páginas en la Red y de
internautas… ¡son de dimensión semejante! La relación entre porcentaje de páginas y
porcentaje de usuarios se sitúa alrededor de 1 para todas las lenguas estudiadas11, lo que
mostraría que la cantidad de páginas de la Red producidas en un idioma es hoy directamente
proporcional a la cantidad de internautas hablantes de ese idioma. El resultado del inglés es
sorprendente: se hubiera podido esperar un valor mucho mayor por influencia del
plurilingüismo12. Lo que podría significar que la productividad de los anglófonos es inferior a
la de los hablantes de las otras lenguas citadas. ¿ Prueba esto una producción incrementada de
los hablantes de otras lenguas occidentales, conscientes de los desafíos lingüísticos de
Internet? Sería interesante conocer los valores respectivos en las lenguas más recientes en
Internet…
10
Resultados aumentados en 30% (véase nota 6).
Las desviaciones son inferiores al 25% en valor absoluto y difícilmente se pueden sacar conclusiones a
propósito de estas pequeñas variaciones, que están probablemente dentro de los intervalos de confianza de las
cifras anunciadas por Global Reach, establecidas sin metodología estándar para todos los idiomas.
12
La proporción de hablantes de lenguas distintas del inglés que producen páginas en inglés (o también, que
traducen sus páginas al inglés) es, como se sabe, muy elevada.
11
12
4- DETALLE DE LOS RESULTADOS
4.1 METODOLOGÍA INTERNET
La evolución acelerada después de la última edición de nuestro estudio en los motores que
indexan el contenido de la Red hizo necesario un cambio al respecto y un cuestionamiento
profundo de la metodología Internet utilizada. Este trabajo se llevó a cabo en tres etapas:
•
Identificación de los principales motores de búsqueda disponibles y preselección.
•
Verificación de su comportamiento en los conteos13.
•
Selección de los motores que ofrecen las mejores garantías para la aplicación de nuestra
metodología.
4.1.1 Identificación de los principales motores de búsqueda disponibles en el web y
preselección.
En esta primera etapa se identificaron los motores siguientes: AltaVista, Excite, Fastsearch14,
Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo y Webtop.
Webtop, motor reciente, no nos pareció suficientemente experimentado para incorporarlo.
Hotbot, Lycos et Yahoo fueron eliminados porque trabajan en colaboración directa con otros
motores y dan los mismos resultados: Lycos utiliza el índice de Fastsearch y Yahoo el de
Google. Hotbot e iWon comparten el mismo índice, proporcionado por Inktomi. A Hotbot,
que habíamos elegido en la edición anterior, debimos dejarlo de lado porque ya no indica los
resultados de los conteos. Inktomi no ofrece directamente los servicios de su índice a los
usuarios. Quedó así seleccionado iWon, pero no Excite, porque, como Hotbot, no daba
resultados de conteo en el momento de las mediciones15.
Quedaron así seis motores: AltaVista, Fastsearch, Google, iWon y Northern Light.
13
Valga recordar que los resultados de los conteos dependen de la función principal de los motores, que es
identificar las páginas con las palabras buscadas en un orden de relevancia máxima. Algunos motores dan
valores del total del número de páginas que responden al criterio de búsqueda y otros, no. En todo caso, conviene
verificar con cuidado la fiabilidad de los datos de los conteos.
14
Conocido también con el nombre de Alltheweb.
13
4.1.2 Validación de los motores seleccionados en función de la metodología
utilizada.
La automatización del proceso de medición cuyos detalles se describen en el anexo 5 dio
resultados en los seis motores de búsqueda preseleccionados. Cada uno trató las
aproximadamente 1600 variantes de los 57 términos por lengua. Los resultados obtenidos
mostraron fuertes divergencias entre los motores ¡con consecuentes inquietudes en cuanto a
la solidez de nuestra metodología hasta aquí! Se hizo claro que había que estudiar mejor los
motores utilizados para explicar las divergencias y poder determinar cuáles ofrecían los
resultados más fiables.
Pudimos establecer varios criterios de validación del uso de un motor de búsqueda en este
trabajo. Un motor debe:
•
tener un índice suficientemente amplio en relación con el tamaño de la Red,
•
tomar en cuenta, de manera coherente, acentos y demás diacríticos,
•
proporcionar resultados coherentes en el conteo de las páginas encontradas,
•
tener un índice homogéneo con respecto a los idiomas.
Los resultados obtenidos por motor, los detalles de la selección y otras informaciones
generales sobre los motores de búsqueda pueden leerse en el anexo 4.
15
Este defecto ha sido corregido después, de modo que sus resultados serán tomados en cuenta en la próxima
edición, en caso de que mantenga esta función.
14
4.1.3 Selección final de los motores de búsqueda para la aplicación de la
metodología
Del conjunto de motores preseleccionados, solo dos, Google y Fastsearch, se mostraron
capaces de servir de soporte para un estudio sobre la presencia de las lenguas en la Red, en
agosto del 2000. En esa fecha usamos sus resultados respectivos conjuntamente17 para obtener
los resultados finales y la semejanza de los resultados de uno y otro motor, que trabajan con
índices y técnicas de búsqueda diferentes, nos pareció un buen signo de la validez de nuestra
metodología:
Inglés18
Castellano Francés Italiano Portugués Rumano
Alemán19
Google
210
7,86%
7,33%
4,65%
2,82%
0,27%
7,89%
Fast
147
8,41%
7,33%
4,60%
3,95%
0,37%
8,47%
Sin embargo, en el conteo en junio de 2001, Google ya no procesaba de manera satisfactoria
los diacríticos y debimos dejarlo de lado.
4.2 METODOLOGÍA LINGÜÍSTICA
Esta edición introduce, en un primer paso exploratorio, equivalencias en alemán y corrige
unos pocos errores detectados en la escritura de las variantes20; pero no se cambió la
metodología lingüística de base de la edición anterior.
A la selección de 57 términos por lengua de 1998 se agregaron equivalentes alemanes. Cada
término con sus variantes (ortográficas, según la presencia o no de signos diacríticos,
sinonímicas, dialectales, morfosintácticas…) se considera una vez más equivalente de los de
su mismo número en todas las lenguas estudiadas y distintivo, es decir, sin (o casi sin)
17
Para los cálculos estadísticos, concatenamos los resultados de los dos motores con la idea de obtener una serie
más larga de valores de nuestra variable aleatoria.
18
Millones de páginas en inglés.
19
Se trata aquí de resultados brutos, sin la corrección del 30%.
20
Se trata de errores menores que no provocaron una desviación notable con respecto a los resultados publicados
con ocasión del estudio precedente. Los detalles en el anexo 3.
15
homografías interlingüísticas21 de sus variantes u otros obstáculos a la equivalencia. La
muestra de 57 términos y respectivas variantes se encuentra en el anexo 3.
4.2.1 Nuevos problemas planteados por el alemán
La formación de las palabras en alemán es muy diferente de la de demás lenguas estudiadas
hasta ahora: los idiomas como el alemán reúnen en una sola palabra "compuesta" raíces que,
en las formas equivalentes de las otras lenguas estudiadas (excepto, parcialmente, el inglés,
pero mucho menos que el alemán), se encuentran separadas en palabras diferentes,
constituyendo un sintagma.
Pero como las equivalencias se hicieron entre palabras no compuestas y para buscar en los
motores por palabra aislada (sin contexto antes o después), el alemán resulta muy
desaventajado, ya que formas muy frecuentes, como Ziegenkäse, equivalente de queso de
cabra, son sistemáticamente descartadas.
Para corregir esta desventaja manifiesta, se aumentaron como señalábamos los resultados
obtenidos para el alemán en un 30%. Pero para lograr resultados tan fiables como los
obtenidos para las otras lenguas, será necesario en un segundo momento, establecer una nueva
metodología que permita buscar "por palabra no aislada" (con y sin contexto antes y después
de la palabra), ayudándose también de un factor cifrado que exprese la diferencia de cantidad
de palabras entre las otras lenguas del estudio y el alemán. Este factor de corrección podría
encontrarse probablemente en las investigaciones sobre corpus paralelos interlingüísticos.
4.2.2 Otras problemáticas
Referencias al trabajo lingüístico concreto pueden leerse en el anexo 3 y el anexo 7; otros
detalles de la metodología lingüística se pueden consultar en la edición anterior, L4, 4.2.
Recordemos aquí la decisión de incluir siempre, junto con las formas que tienen diacríticos
(acentos, etc.), variantes sin diacríticos, muy frecuentes en la Red. En el caso del alemán, no
21
Hablamos de las formas que tendrían la misma escritura en más de una lengua; los homógrafos dentro de una
misma lengua son considerados como una misma palabra.
16
se tomó en cuenta la distinción morfosintáctica mayúscula/minúscula, que es neutralizada por
los motores de búsqueda y así no pertinente.
Por otra parte, habíamos decidido no incluir formas de menos de 4 letras para evitar posibles
homografías (sobre todo con las siglas, pero no únicamente). Las homografías entre al menos
dos de las lenguas estudiadas fueron sumamente frecuentes, principalmente entre el castellano
y el portugués y, desde luego, había que evitar coincidencias por préstamo. A veces, una
homografía casual, como por ejemplo la de las variantes alemanas Montage / Montages, de la
palabra lunes, con las formas francesas se duplicó con una homografía por préstamo, puesto
que la expresión francesa suele ser así tomada por casi todas las demás lenguas en el ámbito
del cine.
4.3 METODOLOGÍA ESTADÍSTICA
Los intervalos de confianza de 90% y 99% en los resultados se establecieron según la
distribución T de Student, adoptando la hipótesis de una distribución de tipo "normal".
4.3.1 Resultados de las mediciones con los motores de búsqueda preseleccionados
El cuadro 16 del anexo 4 indica los resultados de las búsquedas a partir de los seis motores
preseleccionados en relación con cada lengua, en agosto de 2000.
4.3.2 Cálculos estadísticos de los resultados en relación con el inglés
Estos son los porcentajes promedio de presencia de las lenguas latinas (más el alemán) en
relación con el inglés.
Cuadro 7: Detalles de los resultados estadísticos
Promedio
Desviación
típica
22
Castellano Francés
10,95%
8,86%
9,46%
5,09%
Italiano
5,88%
5,55%
Resultados aumentados en 30% (véase nota 6).
17
Portugués
5,40%
5,49%
Rumano
0,32%
0,33%
Alemán22
13,4%
8,97%
Coeficiente 0,86
de
variación
Intervalo de
confianza
8,89-13,01
de 90%
0,57
0,94
1,01
1,02
0,66
7,75-9,97
4,67-7,09
4,20-6,60
0,25-0,39
11,45-15,37
El coeficiente de variación es la raíz cuadrada de la desviación típica al cuadrado dividida por
el promedio al cuadrado. Un valor superior a 1 indica una fuerte dispersión, luego un
promedio poco fiable. Un valor inferior a 1 indica una dispersión baja, luego un resultado que
es tanto más fiable cuanto más bajo es el valor. El intervalo de confianza será a su vez más
estrecho cuanto menor sea el valor del coeficiente.
18
4.3.3 Cálculos de los resultados absolutos
Según las conclusiones establecidas en 3.2.1, se llega a una presencia absoluta de las lenguas
estudiadas de:
Inglés
52%
Castellano
5,69%
Francés
4,61%
Italiano
3,06%
Portugués
2,81%
Rumano
0,17%
Alemán
6,97%23
Resto
24,96%
Tal como lo habíamos previsto en la edición anterior del estudio, el castellano supera ahora al
francés. Y el alemán está delante de todas las lenguas latinas.
La obtención de estos resultados se basa en el cálculo de los resultados relativos (capítulo
anterior) así como en una aproximación realista de la presencia de las lenguas no estudiadas
descrito en la línea "resto".
La aproximación a la presencia de las lenguas no estudiadas se realizó a partir de una
medición del tamaño del campo de cada lengua en el motor Fastsearch. En el momento en que
se tomaron las medidas, Fastsearch presentaba un índice de 360 millones de páginas
repartidas entre 31 lenguas. Para saber cuántas páginas de cada lengua contiene el índice
según el algoritmo de detección de Fast, hay que utilizar la sección "advanced search" y hacer
buscar por lengua, a partir de la técnica que habíamos llamado en la edición anterior
"complemento del conjunto vacío" (búsqueda del número de páginas que no incluyen una
palabra inexistente)24. Se obtiene el cuadro 17 en el anexo 6. Este cuadro da una
aproximación a la presencia de cada lengua, deducida del algoritmo de reconocimiento de las
lenguas del motor de búsqueda, el cual, como se puede suponer, no es perfecto. Por ejemplo,
23
24
Resultados aumentados en 30% (véase nota 6).
El argumento de la búsqueda es, por ejemplo, <- "hgavdhjgduhgedujhgsdfyuhg">.
19
una búsqueda sobre la letra "è" en los sitios en inglés da como resultado (para Google ou
Fastsearch) un millón de sitios, pero sobre todo en tailandés, coreano, japonés, ruso…
Otra manera de averiguar la presencia de las lenguas no estudiadas es constatar su evolución
dinámica entre L4 y L5. A partir del cuadro de las hipótesis de valores absolutos descritos
aquí en 3.2.1 y de los valores absolutos de los idiomas establecidos en 1998, se obtiene el
cuadro siguiente:
Cuadro 8: Hipótesis de la progresión de la presencia de las lenguas estudiadas
Lenguas
estudiadas
INGLÉS
CASTELLANO
FRANCÉS
ITALIANO
PORTUGUES
RUMANO
Resto(otras
lenguas)
Hipótesis de presencia absoluta
para L5
55%
6,02%
50%
5,48%
45%
4,93%
4,87%
3,23%
2,97%
4,43%
2,94%
2,70%
3,99%
2,65%
2,43%
0,18% 0,16% 0,14%
20,35% 27,59% 34,83%
L4
Sept
1998
Progresiones
L4/L5
75% -26,67% -33,33%
2,53% 137,94% 116,60
%
2,81% 73,31% 57,65%
1,50% 115,33% 96%
0,82% 262,20% 229,27
%
0,15%
20%
6,67%
17,19% 18,38% 60,50%
-40%
94,86%
41,99%
76,67%
196,34
%
-6,67%
102,62
%
Una vez más, la hipótesis de una presencia absoluta del inglés próxima al 50% es lo más
realista. Ya que se puede observar que una progresión de menos de 18,38% de las otras
lenguas25 sería insuficiente: representaría una progresión dos veces menos rápida que la del
rumano y de 4 a 15 veces menos rápida que la de las otras lenguas latinas estudiadas. Por el
contrario, un aumento del 102% para las lenguas no estudiadas parece exagerado, ya que
implicaría una evolución mundial más rápida que la de la gran mayoría de las lenguas latinas,
salvo el portugués. Una progresión de un 60%, término medio, para los idiomas no estudiados
los colocaría al nivel de la progresión del francés, lo que resulta mucho más verosímil. Toda
esta comparación refuerza nuestra hipótesis de un resultado final de un 30% como valor
absoluto del inglés.
25
Las "otras lenguas" abarcan realidades diferentes, de lenguas escandinavas y asiáticas, con fuerte progresión, a
lenguas menos difundidas, con progresión probablemente más lenta.
20
4.4 COMPARACIÓN CON OTROS ESTUDIOS
4.4.1 Comparación con las ediciones anteriores de este estudio
Las relaciones inglés/francés y francés/castellano evolucionaron de la manera siguiente entre
el primer estudio y el actual26:
Cuadro 9: Evolución de las relaciones entre la presencia del francés, del inglés y del
castellano
Marzo 1996 (L1)
Inglés/Francés
21,91
Francés/Castellano
2,40
Inglés/Castellano
52,58
Marzo 1997 (L2)
19,99
1,92
38,38
Marzo 1998 (L3)
17,60
1,33
23,32
Sept. 1998 (L4)
35,59
1,11
39,53
Agosto 2000 (L5)
13,66
0,91
12,38
Junio 2001 (L5)
11,28
0,81
9,14
Recordamos que las cifras en itálica (de L1 a L3) son solo aproximadas; la observación seria
comenzó a partir de L4.
4.4.2 Comparación con estudios similares (Alis y Inktomi)
El estudio de Alis no se volvió a realizar desde 1998, de modo que podemos mantener
mantenemos pues el análisis hecho en L4. Por el contrario, Inktomi publicó resultados que
encontraron importante repercusión en Internet y que son utilizados ahora como fuente oficial
para muchos informes.
Cuadro 10: Resultados del estudio de Inktomi (febrero 2000)
IDIOMA
Inglés
PROPORCIÓN (%)
86,54
26
Hay que tomar esta progresión con muchas reservas, puesto que las cifras de L1 a L3 no presentaban las
características de rigor lingüístico obtenidas a partir de L4.
21
Alemán
Francés
Italiano
Castellano
Portugués
Holandés
Finlandés
Sueco
Japonés
5,83
2,36
1,55
1,23
0,75
0,54
0,50
0,36
0,34
Estas cifras contribuyen a perpetuar la visión errónea según la cual el inglés sigue siendo la
lengua de más del 80% de las páginas web. Sin embargo, es fácil descubrir una aberración en
estos resultados, en su presentación o en su interpretación: el porcentaje anunciado para el
inglés (86%) no lo es en relación con todas las lenguas sino solo con respecto a las 10 lenguas
citadas en el cuadro, ya que el total de los porcentajes para las 10 lenguas… ¡llega al 100%!
Si suponemos, como es plausible, un 30% de las páginas web para las lenguas no citadas, el
total real inglés sería entonces de: 86,54% x (100-30) = ¡¡¡60,58%!!!
Aparte de este error evidente que quita sentido a los resultados absolutos (lo que no ha
impedido que la mayoría de las oficinas de marketing de Internet retomen tales cifras
absurdas), sigue siendo interesante comparar nuestros resultados, basados en criterios de
selección lingüística explícitos, con los algoritmos de reconocimiento de las lenguas utilizadas
por los distintos motores cuyo mecanismo no es, en cambio, explícito. Véase por ejemplo, el
cuadro 17 del anexo 6que muestra las cifras derivadas de Fastsearch y las compara con las de
nuestro estudio.
Hasta prueba de lo contrario, debemos considerar nuestro método como más riguroso desde el
punto de vista metodológico y concluir que los algoritmos de reconocimiento de las lenguas
en Internet tienen todos la enojosa tendencia a sobreevaluar las cifras del inglés.
22
5- TENDENCIA DE LA EVOLUCIÓN DE LAS LENGUAS ESTUDIADAS
Tal como lo hemos señalado, en agosto 2000 y en enero de 2001 pudimos usar los motores
Fastsearch y Google, pero en junio de 2001 debimos dejar de lado a este último porque ya no
procesaba de manera satisfactoria los diacríticos. En las comparaciones del cuadro siguiente
solo se tienen en cuenta los resultados de Fastsearch en las tres fechas citadas.
Cuadro 11: Resultados de Fastsearch en agosto de 2000, enero de 2001y junio de 2001
Agosto 2000
Enero 2001
Junio 2001
Castellano Francés Italiano Portugués Rumano
8,41%
7,33%
4,60%
3,95%
0,37%
9,46%
7,89%
4,93%
4,44%
0,33%
10,95%
8,86%
5,88%
5,40%
0,32%
El cuadro 12 muestra una imagen de las tendencias evolutivas actuales de los idiomas
estudiados, según las cifras precedentes.
Cuadro 12: Tendencias de la evolución
23
Alemán
11,0%
11,4%
13,4%
Tendencias actuales de la evolución de los idiomas en el espacio WWW
16%
12%
Español
10%
Francés
8%
Italiano
Portugués
6%
Rumano
4%
Allemand
2%
0
En 0
e
01
Fe
b
01
M
ar
01
Ab
r
M 01
ay
o
01
Ju
n
01
Ju
l0
1
Ag
o
0
Se 1
p
01
O
ct
01
00
D
ic
ov
00
N
ct
00
O
Se
p
00
0%
Ag
o
% con relación al inglés
14%
24
6- PERSPECTIVAS PARA LA CONTINUIDAD DE LA OBSERVACIÓN
Las condiciones logísticas están ahora dadas para un seguimiento continuo y frecuente del
estudio. La automatización de la captura de los resultados hace más fácil el ingreso y la
interpretación de los datos. Podemos mantener un observatorio de la evolución de la presencia
de las lenguas estudiadas, con mediciones cada 3 ó 6 meses.
Poner en marcha este observatorio exige una vigilancia permanente de lo que ocurre en el
mundo de los motores de búsqueda para poder determinar si los cambios de procedimiento de
un motor lo descalifica para nuestros fines o si, por el contrario, se puede introducir un nuevo
motor. Cada modificación de la interfaz de un motor de búsqueda implica también un trabajo
de programación de la aplicación informática que automatiza las mediciones.
Se puede así pensar en una extensión del estudio a otras lenguas, comenzando por el conjunto
de las lenguas habladas en la Unión Europea. Esta extensión debería requerir un trabajo
agregado no solamente en cuanto a la traducción de los 57 términos sino también un muy
probable ajuste de la metodología de búsqueda de ocurrencias, tal como es sugerido en 4.2.1.
Sería deseable asimismo iniciar mediciones de lenguas no europeas, como por ejemplo el
quechua, en América Latina, o el wolof, en Africa. Nuevas colaboraciones lingüísticas serán
sin duda necesarias y con gusto estudiaríamos propuestas en este sentido.
Nos queda también volver al trabajo de medición, más subjetiva, de la presencia de las
culturas en la Red. La experiencia de automatización adquirida será sin duda útil.
Por último, este abordaje puede permitir iniciar estudios transversales para diferenciar
segmentos de penetración lingüísticos en la Red (como, por ejemplo, turismo, comercio
electrónico o educación).
Las pistas están abiertas. Y abiertas las puertas para nuevos socios y nuevos apoyos
financieros…
25
7- REFERENCIAS, EN INTERNET, SOBRE TRABAJOS CONEXOS
La edición anterior del estudio menciona algunas referencias. Las siguientes permiten ir
completando la lista:
Referencias sobre motores de búsqueda:
http://www.searchenginewatch.com
http://www.searchengineshowdown.com
Resultados parciales del estudio de Inktomi:
http://www.inktomi.com/webmap/
Número de internautas por lengua:
http://www.glreach.com/globstats/index.php3
Estudio de supervisión sobre el tamaño del web:
http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf
Estudio realizado para el Internet Council:
http://usic.wslogic.com/intro.html
26
ANEXO 1: RECAPITULACIÓN Y REFERENCIAS DE LOS DIVERSOS ESTUDIOS
REALIZADOS POR LOS AUTORES
Cuadro 13: Recapitulación y referencias de los diversos estudios realizados por los autores
Fecha y
nombre
3/96
L1
3/96
C1
3/97
L2
3/98
L3
9/98
27
Derechos
de autor
Funredes
Localización
Descripción
Internet
http://funredes.org/LC/ Primer estudio sobre lenguas. Centrado en el francés,
L1
toma en cuenta el castellano. Mediciones
comparativas, con AltaVista, de la presencia de
palabras en el WWW, en inglés, francés y castellano,
a partir de una muestra de 50 términos determinados
sin rigor lingüístico. Resultado aproximado que
muestra una relación inglés/francés del orden de 22 y
francés/castellano del orden de 2,4.
Funredes
http://funredes.org/LC/ Primer estudio sobre culturas. Centrado en la
L1
francofonía, toma en cuenta la hispanidad.
Mediciones comparativas, con AltaVista, del número
de menciones del nombre de personalidades
culturalmente representativas, en las páginas web:
unas 500 personalidades repartidas en 13 categorías.
El resultado, subjetivo, muestra una presencia
bastante importante de los representantes de la cultura
francófona, en relación con los norteamericanos, en
los ámbitos en que la cultura y el comercio no se
confunden.
Funredes
http://funredes.org/LC/ Simple actualización del estudio de lengua que
L2
muestra una débil progresión del francés en relación
con el inglés y una fuerte progresión del castellano.
Funredes 27 http://funredes.org/LC/ Importante actualización, presentada en la
L3
conferencia "Visionarios" en Caracas.
• Análisis de las limitaciones de los motores de
búsqueda y de la presencia relativa de los
diacríticos. Recomendación para el abandono
de AltaVista y la utilización de HotBot.
• El "método del complemento del conjunto
vacío" aplicado a AltaVista da una idea de la
importancia de la presencia de las lenguas
derivada del algoritmo de reconocimiento de
las lenguas de AltaVista.
• Evaluación crítica de los resultados del
estudio de Alis Technologies.
El francés continúa su progresión lenta y el castellano
está ahora muy cerca del francés.
Agence de http://www.unilat.org/ Importantes cambios en el método y obtención de
Con el apoyo metodológico de la Unión Latina.
27
L4
la
francophonie
Funredes
Unión
Latina
dtil/lenguainternet/es/l
_latinas_es.htm
resultados más rigurosos.
• Se toman en cuenta las lenguas latinas:
castellano, francés, italiano, portugués, rumano.
• Definición de una muestra de 57 términos según
criterios lingüísticos rigurosos.
• Medición con HotBot en el espacio WWW.
• Medición en el espacio Usenet con DejaNews.
• Establecimiento de intervalos de confianza de
90% y 99%.
• Ponderación de los resultados en función del
tamaño de los espacios lingüísticos.
9/98
C2
Agence de
la
francophonie
Funredes
Unión
Latina
http://www.unilat.org/
dtil/lenguainternet/es/c
ultura/indice_culturas.
htm
Segundo estudio cultural, 3 años después.
No hay diferencias notables en el estudio de la
presencia cultural francófona.
• Utilización de la misma metodología, pero
mejorada en cuanto a las categorías, a la
elección y al número de personalidades y
extensión a personalidades de cinco lenguas
latinas.
• Análisis de ciertos resultados por lengua y en
la lengua de referencia.
Página de portada del conjunto de los estudios
lenguas y culturas.
• Primera extensión del estudio al alemán
• Selección primero, tras un estudio
pormenorizado, de los motores de búsqueda
Google y Fastsearch y luego solamente de
Fastsearch. Medición en el espacio WWW.
• Automatización de los cálculos con un
programa de interfaz entre los términos a
medir, organizados en bases de datos, y los
motores de búsqueda.
• Corrección de errores de ortografía u
omisiones en los 57 términos de la muestra.
• Comienzo de una automatización de las
mediciones y de una construcción de curvas
de extrapolación.
9/98
LC
2000-2001
L5
http://funredes.org/LC
Funredes
Unión
Latina
http://www.unilat.org/
dtil/LI/index.htm
28
ANEXO 2: VISUALIZACIÓN DE INTERVALOS DE CONFIANZA EN LOS
RESULTADOS POR LENGUA
Cuadro 14: Visualización de los intervalos de confianza
Español
Francés
Italiano
Portugués
Rumano
Alemán
En % 0
1
2
3
4
Intervalo a 90%
5
6
7
8
Intervalo a 99%
29
9
10
11
ANEXO 3: LISTA DE LOS TÉRMINOS DE LA MUESTRA DE REFERENCIA
En itálica: forma que puede ocurrir en la Red, aunque "incorrecta". El caso más frecuente
corresponde a términos escritos sin signos diacríticos
En MAYÚSCULAS: forma con homografía interlingüística percibida, variante de menos de
cuatro caracteres (riesgo importante de homografía con una sigla) o variante (y término) de
alcance sintáctico o semántico mayor que el de los equivalentes en los demás idiomas.
Cuadro 15: Lista de los términos de referencia
INGLÉS
(EN)
1 ambiguity
ambiguities
ambiguousne
ss
ambiguousne
sses
CASTELLAN
O (ES)
ambigüedad
ambiguedad
ambigüedad
es
ambiguedad
es
FRANCÉS
(FR)
ambiguïté
ambiguite
ambiguïtés
ambiguites
ITALIAN
O (IT)
ambiguit
à
ambiguit
a
2 causality
causalities
causalidad
CAUSALIDA
DES
causalité
causalite
causalités
causalites
causalità
causalita
PORTUGUÉS
(PT)
ambigüidade
ambiguidade
ambigüidades
ambiguidades
RUMANO
(RO)
ambiguitate
ambiguitatea
ambiguităţii
ambiguitatii
ambiguităţi
ambiguitati
ambiguităţile
ambiguitatile
ambiguităţilor
ambiguitatilor
causalidade
cauzalitate
CAUSALIDADES cauzalitatea
cauzalităţii
cauzalitatii
cauzalităţi
cauzalitati
cauzalităţile
cauzalitatile
cauzalităţilor
cauzalitatilor
30
ALEMÁN
(DE)
ambiguität
ambiguitat
ambiguitaet
ambiguitäten
ambiguitaten
ambiguitaeten
doppeldeutigkeit
doppeldeutigkeiten
zweideutigkeit
zweideutigkeiten
kausalität
kausalitat
kausalitaet
kausalitäten
kausalitaten
kausalitaeten
3 cheese
cheeses
brânză
branza
brânze
branze
brânza
brânzele
branzele
brânzei
branzei
brânzelor
branzelor
brânzeturi
branzeturi
brânzeturile
branzeturile
brânzeturilor
branzeturilor
4 compatibility compatibilid compatibilit compatibi compatibilidade compatibilitate
compatibilitie ad
é
lità
COMPATIBILID compatibilitate
s
COMPATIBIL compatibilit compatibi ADES
a
IDADES
e
lita
compatibilităţii
compatibilit
compatibilitatii
és
compatibilităţi
compatibilit
compatibilitati
es
compatibilităţil
e
compatibilitatil
e
compatibilităţil
or
compatibilitatil
or
5 contiguity
contigüidad contiguïté
contiguità contigüidade
contiguitate
contiguities
contiguidad contiguite
contiguita contiguidade
contiguitatea
CONTIGÜID contiguïtés
CONTIGÜIDADE contiguităţii
ADES
contiguites
S
contiguitatii
CONTIGUID
CONTIGUIDADE contiguităţi
ADES
S
contiguitati
contiguităţile
contiguitatile
contiguităţilor
contiguitatilor
6 dangerous
peligroso
dangereux pericolos perigoso
primejdios
peligrosa
dangereuse o
perigosa
primejdioasă
peligrosos
dangereuse pericolos perigosos
primejdioasa
peligrosas
s
a
perigosas
primejdioase
pericolosi
primejdioşi
pericolos
primejdiosi
e
7 december
queso
quesos
diciembre
fromage
fromages
décembre
decembre
formaggi
o
formaggi
queijo
queijos
dicembre dezembro
31
decembrie
käse
kase
kaese
käsen
kasen
kaesen
kompatibilität
kompatibilitat
kompatibilitaet
kompatibilitäten
kompatibilitaten
kompatibilitaeten
vereinbarkeit
vereinbarkeiten
kontiguität
kontiguitat
kontiguitaet
kontiguitäten
kontiguitaten
kontiguitaeten
GEFÄHRLICH
GEFAHRLICH
GEFAEHRLICH
gefährliche
gefahrliche
gefaehrliche
gefährlicher
gefahrlicher
gefaehrlicher
gefährliches
gefahrliches
gefaehrliches
gefährlichen
gefahrlichen
gefaehrlichen
gefährlichem
gefahrlichem
gefaehrlichem
dezembers
dezembern
8 DENSITY
DENSITIES
densidad
densité
DENSIDADE densite
S
densités
densites
9 disparity
disparities
disparidad
disparité
DISPARIDAD disparite
ES
disparités
disparites
1 divisibility
0 divisibilities
divisibilidad divisibilité
DIVISIBILID divisibilite
ADES
divisibilités
divisibilites
1 elasticity
1 elasticities
elasticidad
élasticité
ELASTICIDA elasticite
DES
élasticités
elasticites
1 electricity
2 electricities
electricidad électricité
ELECTRICID electricite
ADES
électricités
electricites
1 february
3
febrero
février
fevrier
densità
densita
densidade
DENSIDADES
densitate
densitatea
densităţii
densitatii
densităţi
densitati
densităţile
densitatile
densităţilor
densitatilor
disparità disparidade
disparitate
disparita DISPARIDADES disparitatea
disparităţii
disparitatii
disparităţi
disparitati
disparităţile
disparitatile
disparităţilor
disparitatilor
divisibilit divisibilidade
divizibilitate
à
DIVISIBILIDAD divizibilitatea
divisibilit ES
divizibilităţii
a
divizibilitatii
divizibilităţi
divizibilitati
divizibilităţile
divizibilitatile
divizibilităţilor
divizibilitatilor
elasticità elasticidade
elasticitate
elasticita ELASTICIDADE elasticitatea
S
elasticităţii
elasticitatii
elasticităţi
elasticitati
elasticităţile
elasticitatile
elasticitităţilor
elasticitatilor
elettricità electricidade
electricitate
elettricita eletricidade
electricitatea
ELECTRICIDAD electricităţii
ES
electricitatii
eletricidades
electricităţi
electricitati
electricităţile
electricitatile
electricităţilor
electricitatilor
febbraio fevereiro
februarie
32
dichte
DICHTEN
dichtheit
dichtheiten
dichtigkeit
dichtigkeiten
disparität
disparitat
disparitaet
disparitäten
disparitaten
disparitaeten
divisibilität
divisibilitat
divisibilitaet
divisibilitäten
divisibilitaten
divisibilitaeten
teilbarkeit
teilbarkeiten
dehnbarkeit
dehnbarkeiten
elastizität
elastizitat
elastizitaet
elastizitäten
elastizitaten
elastizitaeten
elektrizität
elektrizitat
elektrizitaet
elektrizitäten
elektrizitaten
elektrizitaeten
STROM
februar
februars
februare
februaren
1 femininity
4 femininities
feminidad
femineidad
FEMINIDADE
S
femineidade
s
féminité
feminite
féminités
feminites
1 fertility
5 fertilities
fertilidad
fertilité
FERTILIDAD fertilite
ES
fertilités
fertilites
1 fidelity
fidelidad
6 fidelities
FIDELIDADE
faithfulness
S
faithfulnesses
fidélité
fidelite
fidélités
fidelites
1 fraternity
fraternidad
7 fraternities
FRATERNIDA
brotherhood DES
brotherhoods
fraternité
fraternite
fraternités
fraternites
1 friday
8 fridays
vendredi
vendredis
viernes
femminili
tà
femminili
ta
feminitate
feminitatea
feminităţii
feminitatii
feminităţi
feminitati
feminităţile
feminitatile
feminităţilor
feminitatilor
fertilità
fertilidade
fertilitate
fertilita
FERTILIDADES fertilitatea
fertilităţii
fertilitatii
fertilităţi
fertilitati
fertilităţile
fertilitatile
fertilităţilor
fertilitatilor
fedeltà
fidelidade
fidelitate
fedelta
FIDELIDADES
fidelitatea
fidelităţii
fidelitatii
fidelităţi
fidelitati
fidelităţile
fidelitatile
fidelităţilor
fidelitatilor
fraternità fraternidade
fraternitate
fraternita FRATERNIDADE fraternitatea
fratellanz S
fraternităţii
a
fraternitatii
fratellanz
fraternităţi
e
fraternitati
fraternităţile
fraternitatile
fraternităţilor
fraternitatilor
venerdì
venerdi
feminidade
feminilidade
FEMINIDADES
feminilidades
sexta-feira
sextas-feiras
33
vineri
vinerea
femininität
femininitat
femininitaet
femininitäten
femininitaten
femininitaeten
weiblichkeit
weiblichkeiten
fertilität
fertilitat
fertilitaet
fertilitäten
fertilitaten
fertilitaeten
fruchtbarkeit
fruchtbarkeiten
TREUE
TREUEN
brüderlichkeit
bruderlichkeit
bruederlichkeit
brüderlichkeiten
bruderlichkeiten
bruederlichkeiten
fraternität
fraternitat
fraternitaet
fraternitäten
fraternitaten
fraternitaeten
freitag
freitags
freitages
freitage
freitagen
1 heterosexuali heterosexual
9 ty
idad
heterosexuali heterosexual
ties
idades
hétérosexua
lité
heterosexua
lite
hétérosexua
lités
heterosexua
lites
eterosess
ualità
eterosess
ualita
2 homosexualit homosexuali
0 y
dad
homosexualiti homosexuali
es
dades
homosexual
ité
homosexual
ite
homosexual
ités
homosexual
ites
omosess
ualità
omosess
ualita
2 horse
1 horses
caballo
caballos
cheval
chevaux
cavallo
cavalli
2 humidity
2 humidities
humedad
humedades
humidité
humidite
humidités
humidites
umidità
umidita
heterossexualid
ade
heterossexualid
ades
heterosexualita
te
heterosexualita
tea
heterosexualită
ţii
heterosexualita
tii
heterosexualită
ţi
heterosexualita
ti
heterosexualită
ţile
heterosexualita
tile
heterosexualită
ţilor
heterosexualita
tilor
homossexualida homosexualitat
de
e
homossexualida homosexualitat
des
ea
homosexualităţ
ii
homosexualitat
ii
homosexualităţ
i
homosexualitat
i
homosexualităţ
ile
homosexualitat
ile
homosexualităţ
ilor
homosexualitat
ilor
cavalo
CAL
cavalos
CAI
calul
CAII
calului
cailor
calule
humidade
umiditate
umidade
umiditatea
humidades
umidităţii
umidades
umiditatii
umidităţi
umiditati
umidităţile
umiditatile
umidităţilor
umiditatilor
34
heterosexualität
heterosexualitat
heterosexualitaet
heterosexualitäten
heterosexualitaten
heterosexualitaeten
homosexualität
homosexualitat
homosexualitaet
homosexualitäten
homosexualitaten
homosexualitaeten
pferd
pferdes
pferds
pferde
pferden
feuchtigkeit
feuchtigkeiten
humidität
humiditat
humiditaet
humiditäten
humiditaten
humiditaeten
2 illness
3 illnesses
sickness
sicknesses
disease
diseases
2 immortality
4 immortalities
enfermedad
enfermedad
es
2 immunity
5 immunities
inmunidad
inmunidades
inmortalidad
inmortalidad
es
2 incompatibilit incompatibili
6 y
dad
incompatibiliti INCOMPATIB
es
ILIDADES
2 infallibility
7 infallibilities
infalibilidad
INFALIBILID
ADES
MALADIE
maladies
malattia
malattie
infermità
infermita
doença
doenca
doenças
doencas
enfermidade
enfermidades
immortali imortalidade
tà
imortalidades
immortali
ta
boală
BOLI
boala
bolile
bolii
bolilor
immortalité
imortalitate
immortalite
imortalitatea
immortalité
imortalităţii
s
imortalitatii
immortalite
imortalităţi
s
imortalitati
imortalităţile
imortalitatile
imortalităţilor
imortalitatilor
immunité
immunità imunidade
imunitate
immunite
immunita imunidades
imunitatea
immunités
imunităţii
immunites
imunitatii
imunităţi
imunitati
imunităţile
imunitatile
imunităţilor
imunitatilor
incompatibil incompati incompatibilida incompatibilitat
ité
bilità
de
e
incompatibil incompati INCOMPATIBILI incompatibilitat
ite
bilita
DADES
ea
incompatibil
incompatibilităţ
ités
ii
incompatibil
incompatibilitat
ites
ii
incompatibilităţ
i
incompatibilitat
i
incompatibilităţ
ile
incompatibilitat
ile
incompatibilităţ
ilor
incompatibilitat
ilor
infaillibilité infallibilit infalibilidade
infaibilitate
infaillibilite à
INFALIBILIDAD infaibilitatea
infaillibilités infallibilit ES
infaibilităţii
infaillibilites a
infaibilitatii
infaibilităţi
infaibilitati
infaibilităţile
infaibilitatile
infaibilităţilor
infaibilitatilor
35
krankheit
krankheiten
seuche
seuchen
immortalität
immortalitat
immortalitaet
immortalitäten
immortalitaten
immortalitaeten
unsterblichkeit
unsterblichkeiten
immunität
immunitat
immunitaet
immunitäten
immunitaten
immunitaeten
inkompatibilität
inkompatibilitat
inkompatibilitaet
inkompatibilitäten
inkompatibilitaten
inkompatibilitaeten
unvereinbarkeit
unvereinbarkeiten
infallibilität
infallibilitat
infallibilitaet
infallibilitäten
infallibilitaten
infallibilitaeten
unfehlbarkeit
unfehlbarkeiten
2 inferiority
8 inferiorities
inferioridad infériorité
INFERIORID inferiorite
ADES
infériorités
inferiorites
2 infidelity
infidelidad
9 infidelities
INFIDELIDA
unfaithfulness DES
unfaithfulness
es
infidélité
infidelite
infidélités
infidelites
3 instability
0 instabilities
inestabilidad instabilité
inestabilidad instabilite
es
instabilités
instabilites
3 inviolability
1 inviolabilities
inviolabilida
d
INVIOLABILI
DADES
inviolabilité
inviolabilite
inviolabilités
inviolabilites
inferiorità inferioridade
inferiorita INFERIORIDAD
ES
inferioritate
inferioritatea
inferiorităţii
inferioritatii
inferiorităţi
inferioritati
inferiorităţile
inferioritatile
inferiorităţilor
inferioritatilor
infedeltà infidelidade
infidelitate
infedelta INFIDELIDADES infidelitatea
infidelităţii
infidelitatii
infidelităţi
infidelitati
infidelităţile
infidelitatile
infidelităţilor
infidelitatilor
instabilità instabilidade
instabilitate
instabilita instabilidades
instabilitatea
instabilităţii
instabilitatii
instabilităţi
instabilitati
instabilităţile
instabilitatile
instabilităţilor
instabilitatilor
inviolabili inviolabilidade
t
INVIOLABILIDA
inviolabili DES
ta
inviolabilitate
inviolabilitatea
inviolabilităţii
inviolabilitatii
inviolabilităţi
inviolabilitati
inviolabilităţile
inviolabilitatile
inviolabilităţilor
inviolabilitatilor
3 irregularity
irregularidad irrégularité irregolarit irregularidade
iregularitate
2 irregularities IRREGULARI irregularite à
IRREGULARIDA iregularitatea
unevenness
DADES
irrégularités irregolarit DES
iregularităţii
unevennesses
irregularites a
iregularitatii
iregularităţi
iregularitati
iregularităţile
iregularitatile
iregularităţilor
iregularitatilor
36
inferiorität
inferioritat
inferioritaet
inferioritäten
inferioritaten
inferioritaeten
minderwertigkeit
minderwertigkeiten
UNTREUE
UNTREUEN
treulosigkeit
treulosigkeiten
instabilität
instabilitat
instabilitaet
instabilitäten
instabilitaten
instabilitaeten
unbeständigkeit
unbestandigkeit
unbestaendigkeit
unbeständigkeiten
unbestandigkeiten
unbestaendigkeiten
unverletzlichkeit
unverletzlichkeiten
unverletzbarkeit
unverletzbarkeiten
irregularität
irregularitat
irregularitaet
irregularitäten
irregularitaten
irregularitaeten
unregelmäßigkeit
unregelmässigkeit
unregelmassigkeit
unregelmaessigkeit
unregelmäßigkeiten
unregelmässigkeite
n
unregelmassigkeite
n
unregelmaessigkeit
en
3 irresponsibilit irresponsabil
3 y
idad
irresponsibiliti IRRESPONS
es
ABILIDADES
irresponsabi
lité
irresponsabi
lite
irresponsabi
lités
irresponsabi
lites
irrespons
abilità
irrespons
abilita
irresponsabililid
ade
IRRESPONSABI
LIDADES
3 june
4
junio
juin
giugno
junho
3 knee
5 knees
rodilla
rodillas
genou
genoux
ginocchio joelho
ginocchia joelhos
ginocchi
3 KNIFE
6 KNIVES
cuchillo
cuchillos
couteau
couteaux
coltello
coltelli
FACA
FACAS
3 LUNG
7 lungs
pulmón
pulmon
pulmones
poumon
poumons
polmone
polmoni
pulmão
pulmao
pulmões
pulmoes
37
iresponsabilitat
e
iresponsabilitat
ea
iresponsabilităţ
ii
iresponsabilitat
ii
iresponsabilităţ
i
iresponsabilitat
i
iresponsabilităţ
ile
iresponsabilitat
ile
iresponsabilităţ
ilor
iresponsabilitat
ilor
iunie
genunchi
genunchiul
genunchii
genunchiului
genunchilor
cuţit
cutit
cuţite
cutite
cuţitul
cutitul
cuţitele
cutitele
cuţitului
cutitului
cuţitelor
cutitelor
plămân
plaman
plămâni
plamani
plămânul
plamanul
plămânii
plamanii
plămânului
plamanului
plămânilor
plamanilor
irresponsabilität
irresponsabilitat
irresponsabilitaet
irresponsabilitäten
irresponsabilitaten
irresponsabilitaeten
unverantwortbarkei
t
unverantwortbarkei
ten
unverantwortlichkei
t
unverantwortlichkei
ten
verantwortungslosi
gkeit
verantwortungslosi
gkeiten
juni
junis
JUNO
knie
knies
knie
KNIEN
MESSER
MESSERS
MESSERN
lunge
lungen
3 masculinity
8 masculinities
masculinida
d
MASCULINI
DADES
masculinité
masculinite
masculinités
masculinites
mascolini masculinidade
tà
MASCULINIDAD
mascolini ES
ta
3 monday
9 mondays
lunes
lundi
lundis
lunedì
lunedi
segunda-feira
luni
segundas-feiras lunea
4 october
0
octubre
octobre
ottobre
outubro
4 parity
1 parities
equality
equalities
igualdad
IGUALDADE
S
paridad
PARIDADES
égalité
egalite
égalités
egalites
parité
parite
parités
parites
eguaglian
za
eguaglian
ze
uguglianz
a
uguglianz
e
parità
parita
igualdade
IGUALDADES
paridade
PARIDADES
4
2
4
3
masculinitate
masculinitatea
masculinităţii
masculinitatii
masculinităţi
masculinitati
masculinităţile
masculinitatile
masculinităţilor
masculinitatilor
octombrie
egalitate
egalitatea
egalităţii
egalitatii
egalităţi
egalitati
egalităţile
egalitatile
egalităţilor
egalitatilor
paritate
paritatea
parităţii
paritatii
parităţi
paritati
parităţile
paritatile
parităţilor
paritatilor
probability
probabilidad probabilité probabilit probabilidade
probabilitate
probabilities
PROBABILID probabilite à
PROBABILIDAD probabilitatea
likelihood
ADES
probabilités probabilit ES
probabilităţii
likelihoods
probabilites a
probabilitatii
probabilităţi
probabilitati
probabilităţile
probabilitatile
probabilităţilor
probabilitatilor
productivity
productivida productivité produttivi produtividade
productivitate
productivities d
productivite tà
produtividades productivitatea
productivenes productivida productivité produttivi
productivităţii
s
des
s
ta
productivitatii
productivenes
productivite
productivităţi
ses
s
productivitati
productivităţile
productivitatile
productivităţilo
r
productivitatilo
r
38
männlichkeit
mannlichkeit
maennlichkeit
männlichkeiten
mannlichkeiten
maennlichkeiten
maskulinität
maskulinitat
maskulinitaet
maskulinitäten
maskulinitaten
maskulinitaeten
montag
MONTAGES
montags
MONTAGE
MONTAGEN
oktober
oktobers
oktobern
egalität
egalitat
egalitaet
egalitäten
egalitaten
egalitaeten
gleichheit
gleichheiten
gleichstellung
gleichstellungen
gleichberechtigung
gleichberechtigung
en
parität
paritat
paritaet
paritäten
paritaten
paritaeten
probabilität
probabilitat
probabilitaet
probabilitäten
probabilitaten
probabilitaeten
wahrscheinlichkeit
wahrscheinlichkeite
n
produktivität
produktivitat
produktivitaet
produktivitäten
produktivitaten
produktivitaeten
4 puberty
4 puberties
pubertad
pubertades
puberté
puberte
pubertés
pubertes
pubertà
puberta
puberdade
puberdades
4 responsibility responsabili
5 responsibilitie dad
s
RESPONSAB
liability
ILIDADES
liabilities
responsabili
té
responsabili
te
responsabili
tés
responsabili
tes
responsa
bilità
responsa
bilita
responsabilidad
e
RESPONSABILI
DADES
4 sexuality
6 sexualities
sexualidad
SEXUALIDA
DES
sexualité
sexualite
sexualités
sexualites
sessualità sexualidade
sessualita SEXUALIDADES
4 singularity
7 singularities
singularidad singularité
SINGULARID singularite
ADES
singularités
singularites
singolarit singularidade
à
SINGULARIDAD
singolarit ES
a
4 superiority
8 superiorities
superioridad supériorité
SUPERIORID superiorite
ADES
supériorités
superiorites
superiorit superioridade
à
SUPERIORIDAD
superiorit ES
a
39
pubertate
pubertatea
pubertăţii
pubertatii
pubertăţi
pubertati
pubertăţile
pubertatile
pubertăţilor
pubertatilor
responsabilitat
e
responsabilitat
ea
responsabilităţi
i
responsabilitati
i
responsabilităţi
responsabilitati
responsabilităţi
le
responsabilitati
le
responsabilităţi
lor
responsabilitati
lor
sexualitate
sexualitatea
sexualităţii
sexualitatii
sexualităţi
sexualitati
sexualităţile
sexualitatile
sexualităţilor
sexualitatilor
singularitate
singularitatea
singularităţii
singularitatii
singularităţi
singularitati
singularităţile
singularitatile
singularităţilor
singularitatilor
superioritate
superioritatea
superiorităţii
superioritatii
superiorităţi
superioritati
superiorităţile
superioritatile
superiorităţilor
superioritatilor
pubertät
pubertat
pubertaet
pubertäten
pubertaten
pubertaeten
responsabilität
responsabilitat
responsabilitaet
responsabilitäten
responsabilitaten
responsabilitaeten
verantwortung
verantwortungen
sexualität
sexualitat
sexualitaet
sexualitäten
sexualitaten
sexualitaeten
einzigartigkeit
einzigartigkeiten
singularität
singularitat
singularitaet
singularitäten
singularitaten
singularitaeten
superiorität
superioritat
superioritaet
superioritäten
superioritaten
superioritaeten
überlegenheit
uberlegenheit
ueberlegenheit
überlegenheiten
uberlegenheiten
ueberlegenheiten
4 thursday
9 thursdays
jueves
jeudi
jeudis
giovedì
giovedi
quinta-feira
quintas-feiras
JOI
JOIA
5 today
0
HOY
aujourde
hui
oggi
hoje
5 truth
1 truths
verdad
VERDADES
vérité
verite
vérités
verites
verità
verita
verdade
VERDADES
5 tuesday
2 tuesdays
martes
MARDI
mardis
martedì
martedi
terça-feira
terca-feira
terças-feiras
tercas-feiras
AZI
astăzi
astazi
adevăr
adevar
adevărul
adevarul
adevărului
adevarului
adevăruri
adevaruri
adevărurile
adevarurile
adevărurilor
adevarurilor
marţi
MARTI
marţea
martea
5 uniformity
3 uniformities
uniformidad
UNIFORMID
ADES
uniformité
uniformite
uniformités
uniformites
uniformit uniformidade
à
UNIFORMIDADE
uniformit S
a
5 universality
4 universalities
5 university
5 universities
5 wednesday
6 wednesdays
uniformitate
uniformitatea
uniformităţii
uniformitatii
uniformităţi
uniformitati
uniformităţile
uniformitatile
uniformităţilor
uniformitatilor
universalida universalité universali universalidade universalitate
d
universalite tà
UNIVERSALIDA universalitatea
UNIVERSALI universalité universali DES
universalităţii
DADES
s
ta
universalitatii
universalite
universalităţi
s
universalitati
universalităţile
universalitatile
universalităţilor
universalitatilor
universidad université
università universidade
universitate
UNIVERSIDA universite
universita UNIVERSIDADE universitatea
DES
universités
S
universităţii
universites
universitatii
universităţi
universitati
universităţile
universitatile
universităţilor
universitatilor
miércoles
mercredi
mercoledì quarta-feira
miercuri
miercoles
mercredis
mercoledi quartas-feiras
miercurea
40
donnerstag
donnerstages
donnerstags
donnerstage
donnerstagen
heute
wahrheit
wahrheiten
dienstag
dienstages
dienstags
dienstage
dienstagen
uniformität
uniformitat
uniformitaet
uniformitäten
uniformitaten
uniformitaeten
universalität
universalitat
universalitaet
universalitäten
universalitaten
universalitaeten
universität
universitat
universitaet
universitäten
universitaten
universitaeten
mittwoch
mittwoches
mittwochs
mittwoche
mittwochen
5 yellow
7
amarillo
amarilla
amarillos
amarillas
jaune
jaunes
giallo
gialla
gialli
gialle
amarelo
amarela
amarelos
amarelas
41
galben
galbenă
galbena
galbeni
galbene
gelb
gelbe
gelber
gelbes
gelben
gelbem
ANEXO 4: SELECCIÓN DE LOS MOTORES DE BÚSQUEDA DE L5
INTRODUCCIÓN
Los motores de búsqueda utilizados en la anterior edición del estudio evolucionaron y otros
nuevos surgieron en los dos últimos años. Nos pareció necesario realizar un trabajo
sistemático de análisis de los motores disponibles en relación con nuestra metodología
utilizada. Unas primeras incompatibilidades percibidas nos llevaron a descartar motores de
entrada. Resultaron preseleccionados AltaVista, Fastsearch (Allthweb), Google, Innfoseek,
iWon y Northernligth(detalles en 4.1.1): seis motores, independientes entre sí e incluso en
competencia en el mercado de la búsqueda por palabras clave en Internet.
Hemos visto que los resultados de las mediciones de presencia en las páginas de la Red de los
términos de nuestra muestra varían fuertemente según el motor de búsqueda utilizado. Para
tratar de comprender este fenómeno que podría descalificar nuestra metodología, realizamos
un estudio desde agosto de 2000 teniendo en cuenta los siguientes elementos:
-
cantidad de páginas indexadas,
-
manera en que son seleccionadas las páginas indexadas,
-
coherencia de los resultados de las mediciones presentadas.
LOS RESULTADOS POR MOTOR Y POR LENGUA
Los resultados presentados en el siguiente cuadro 16 muestran el total de la cantidad de
páginas Internet de cada una de las 1600 variantes del estudio, en agosto de 2000. La columna
del inglés da el total de las páginas contadas (en millones) por motor de búsqueda con
respecto al conjunto de los términos en inglés. Las cifras de las otras columnas representan,
para cada lengua, el porcentaje, en relación con inglés, del número total de páginas contadas.
Por ejemplo, iWon contó 212 millones de páginas para el inglés y 2,14 millones para el
portugués (1,01% de 212).
42
Cuadro 16: Resultados del estudio según los 6 motores de búsqueda preseleccionados
Inglés Castellan Francés Italiano Portugués Rumano
o
AltaVista 188 M
9,28%
9,56%
4,50%
3,98%
0,19%
Fast
147 M
8,41%
7,33%
4,60%
3,95%
0,37%
Google 210 M
7,86%
7,33%
4,65%
2,82%
0,27%
Infoseek 37 M
2,49%
3,97%
2,98%
0,96%
0,03%
iWon
212 M
4,13%
2,64%
0,69%
1,01%
0,35%
Northern 145 M
6,32%
5,26%
3,66%
3,50%
0,26%
Light
Alemán
16,06%
8,47%
7,89%
5,39%
5,44%
5,23%
Como se puede ver, los resultados muestran diferencias entre los motores, salvo los de Fast y
Google, que cuestionan la validez de nuestro método. Resultó así necesario estudiar las
especificidades de cada motor para comprender la razón de estas diferencias y poder
determinar qué motores podrían ajustarse a nuestros criterios.
El análisis de los motores de búsqueda exige conocer previamente las características
cuantitativas de Internet.
Datos relativos a Internet y a los motores de búsqueda
¿Cuál es el volumen de la Red?
Disponemos de algunos datos al respecto:
En enero de 2000, Inktomi afirma que el web superó los mil millones de páginas (que habrían
sido preindexadas por este motor). Y anuncia también Inktomi las cifras de 86,55% de
páginas en inglés y 2,36% de páginas en francés. Es sorprendente constatar que el resultado
del francés está muy cerca de los valores que nosotros encontramos para el motor de
búsqueda iWon (que utiliza el índice de Inktomi). No obstante, la cifra del inglés parece ser
víctima de un error de referencial (véase 4.4.2).
43
Nueva cifra de Inktomi en mayo de 2000: 1500 millones de páginas. Inktomi subraya que la
proporción de páginas replicadas en los sitios espejo es superior al 20% (en los 6,5 millones
de servidores indexados, habría 1,5 millones de sitios espejo).
Estudio de cyveillance search: 2100 millones de páginas en julio de 2000, con un crecimiento
exponencial de 7 millones de nuevas páginas por día. Este estudio asegura que hay 84,7% de
páginas en inglés en el web.
Los motores de búsqueda con los índices más amplios
La competencia hace furor en el mercado de los motores de búsqueda, lo que provoca una
fuerte motivación para el crecimiento del tamaño de los índices respectivos. Actualmente, los
líderes en el terreno de la indexación del web son:
Google: mil millones de páginas indexadas28.
Webtop: 500 millones de páginas indexadas, pero es un motor todavía no
suficientemente experimentado.
Inktomi: el nuevo índice de Inktomi, GEN3, aún no utilizado oficialmente por sus
asociados (Hotbot, Snap, iWon), debería contener 500 millones de páginas (contra 110 e la
versión
anterior).
Algunas
pruebas
de
Searchengine
Watch
(http://www.searchenginewatch.com ) indican que iWon ya utiliza este índice ampliado. De
hecho, iWon da resultados cercanos a los de Google en cuanto al número total de páginas
contadas en inglés.
AltaVista: 350 millones de páginas.
Fastsearch: 340 millones de páginas. Su objetivo es llegar a mil millones a fin de este
año.
Northern Light: 265 millones de páginas.
28
Parece que la mitad de ellas no están indexadas directamente sino que son objeto de un algoritmo original que
trabaja a partir del texto de los enlaces hacia estas páginas. No disponemos de precisiones suficientes sobre la
naturaleza de este algoritmo para poder sacar conclusiones, pero parece que esto no tiene impacto sobre nuestras
medidas.
44
Es importante señalar que los motores indexan una proporción notable del universo que nos
interesa (entre el 25% y el 50%), lo que permite aplicar nuestra metodología sin demasiados
escollos en el plano estadístico29.
¿Cómo son indexadas las páginas?
Conviene recordar que no todas las páginas detectadas por los motores están incluidas en el
índice. El cuadro siguiente indica la cantidad de páginas realmente incluidas en el índice de
algunos motores en comparación con el volumen anunciado del universo indexado30.
PAGINAS
PAGINAS
ANALIZADAS
INDEXADAS
(en millones)
(en millones)
AltaVista
400
250
Fast
700
400
Excite
920
250
Inktomi
1000
110
Es interesante entender cómo se hace la reducción y en qué puede afectar la validez de los
nuestros resultados. Se identificaron dos enfoques diferentes:
1. Inktomi: Un índice de base de 110 millones de páginas seleccionadas y clasificadas a partir
de una fuente de mil millones de páginas. El criterio de selección del índice de base es
considerar solamente las páginas cuya URL se cita con más frecuencia, es decir, las
páginas que tienen la mayor cantidad de enlaces externos. Esta técnica permite
seleccionar las páginas más reconocidas clasificándolas fácilmente por orden de
"celebridad", reduciendo el tiempo de respuesta al tamaño reducirse el índice de
trabajo. Este enfoque, totalmente respetable desde el punto de vista del objetivo
prioritario de los motores, descalifica la aplicación de nuestra metodología, ya que la
29
No obstante, nada impide pensar que, para una muestra de entre 25% y 50% del universo, pueda existir algo en
la selección del índice que favorezca las lenguas más utilizadas, el inglés en primer lugar. Es muy probable, por
ejemplo, que los sitios más recientes no se indexen de manera suficientemente rápida, con perjuicio estadístico
para las lenguas también más recientes en Internet.
45
distribución estadística de las páginas es falseada por un algoritmo que favorece
algunas de ellas de manera no neutra a nivel lingüístico (las páginas más populares,
que en la mayoría de los casos están en inglés, tendrán mayor posibilidad de formar
parte de los 110 millones de elegidas). Este mecanismo muestra claramente sus
consecuencias en el caso del rumano (los términos rumanos tienen resultados
anormalmente bajos e, incluso, demasiado a menudo nulos).
2. AltaVista, Excite, Fast y Google: Un índice mayor, con una selección menos fuerte y,
sobre todo, independiente del contenido (solo se suprimen los sitios espejo y los que dan
errores de 40131 o 40432). Con esta técnica, los índices son más amplios; si bien no dan
necesariamente los resultados más coherentes en términos de pertinencia, son compatibles
con nuestra metodología puesto que no deberían favorecer una lengua en detrimento de
otra. Conviene recordar que Google conserva una imagen de las páginas en el momento
en que estas son colocadas en su índice, lo que permite encontrar la información incluso
cuando la página indexada fue eliminada de la Red.
Validación de los motores de búsqueda en función de nuestra metodología
AltaVista
Desde hace varios años, AltaVista es uno de los motores más utilizados en el web. Su índice
sigue siendo uno de los más amplios; no obstante, una vez más33 la utilización de este motor
en nuestro estudio es imposible:
•
AltaVista "trunca los resultados"34,.decisión que toma para reducir el tiempo de respuesta
si su servidor esté sobrecargado (el motor puede rechazar el procesamiento de una
solicitud y dar solo un resultado parcial).
•
Como en la edición anterior, no nos fue posible establecer cómo trata los signos
diacríticos; si hay una lógica, no hemos podido percibirla.
30
Las cifras presentadas en el párrafo precedente son de marzo de 2000 y éstas son de julio de 2000; de allí sus
diferencias.
31
Es decir una página de acceso limitado, no disponible para el gran público.
32
Es decir una página inexistente en un sitio referenciado correctamente.
33
AltaVista fue descartado la edición anterior por las mismas razones.
34
Es decir que no toma en cuenta una parte de las páginas que corresponden al criterio de búsqueda, lo que
produce una reducción del valor del conteo, el cual deja de corresponder a la realidad.
46
•
Los valores de los conteos cambian de manera aleatoria. Por ejemplo, la misma solicitud
puede obtener un número de páginas diferente según se miren los resultados del 1 a 10 o
del 11 a 20…
Infoseek
Infoseek tiene un tamaño de índice demasiado reducido (se ve en las cifras de las páginas en
inglés: 36 millones contra más de 150 en la mayor parte de los otros motores). Esta pobreza
de indexación aventaja al inglés en relación con los demás idiomas.
iWon
iWon utiliza el mismo índice que Hotbot (Inktomi), el motor que habíamos usado en la
edición anterior; pero la técnica de selección de páginas de Inktomi no es compatible con
nuestra metodología, como vimos.
Northern Light
Este motor no pudo ser utilizado porque no trata los signos diacríticos (en particular, no
interpreta correctamente los signos usados en el rumano). Además, busca sistemáticamente
los plurales de los términos cuando se hace búsquedas en inglés, pero no así en las otras
lenguas.
Google
Es el motor que pretende tener, en este momento, el índice más amplio; además, su interfaz es
de una rapidez espectacular. Google "truncaba los resultados" como AltaVista, lo que nos
había llevado a descartarlo; pero este inconveniente fue corregido: Google fue seleccionado
para la obtención de los resultados finales.
Fastsearch
Fastsearch, que tiene uno de los índices más amplios, da resultados rápidos, no trunca los
resultados y no restringe su índice a los sitios más populares. Es el segundo motor
seleccionado.
CONCLUSIÓN
47
Los motores de búsqueda Google y Fastsearch son los únicos que, en el momento de llevar a
cabo esta edición, permitían aplicar correctamente nuestra metodología. Que las cifras
producidas por Fastsearch y Google estén muy próximas estadísticamente (los intervalos de
confianza coinciden ampliamente) es un elemento esencial para mantener la confianza en la
validez de nuestra metodología.
El cuadro siguiente muestra que las desviaciones más importantes (aunque inferiores al 30%)
corresponden a las dos lenguas para las cuales el coeficiente de variación es superior a 1 y que
los valores continúan dentro del intervalo de confianza.
Castellano Francés Italiano Portugués Rumano
Fast
8,41%
7,33%
4,60%
3,95%
0,37%
Google
7,86%
7,33%
4,65%
2,82%
0,27%
DESVIACIO.
-6,5%
0,0%
1,1%
-28,6%
-27,0%
COEFIC.
0,84
0,55
0,90
1,06
1,13
VARIACIÓN
CONFIANZA 6,58-9,57 6,44-8,19 3,70-5,52 2,72-4,41 0,19-0,43
90%
48
Alemán
8,47%
7,89%
-6,8%
0,65
6,96-9,19
ANEXO 5: INTERFAZ DE AUTOMATIZACIÓN DE L5
INTRODUCCIÓN
El estudio sobre la presencia de las lenguas latinas en Internet requiere un trabajo minucioso,
largo y repetitivo de medición de los resultados que dan los motores de búsqueda. Cada
resultado final (por motor de búsqueda) exige un conteo del número de páginas que contienen
cada una de las 1200 variantes, aproximadamente, de los 57 términos elegidos (unos 1600 con
el alemán). Esto debe ser seguido de correcciones manuales para las variantes con problemas
de homografía o afines (en mayúsculas en el anexo 3). Los resultados obtenidos para cada
variante son después agrupados por ocurrencias y se obtienen 57 resultados, clasificados por
lengua. Luego se hace el promedio de los resultados y se calcula el coeficiente de variación y
el intervalo de confianza por lengua, para obtener el resultado final. Sin olvidar una etapa de
verificación minuciosa de los resultados, que pueden haber sido falseados en las diversas
etapas de escritura o por disminución de la atención provocada por la sucesión de tareas
repetitivas…
Todos estos resultados por variante o por término y finales no son de fácil utilización. Un
error detectado a posteriori en el copiado de un resultado exige volver a calcular
sistemáticamente su término asociado y las estadísticas finales.
Resulta así sumamente deseable una automatización de estas tareas. Decidimos invertir en la
programación de un algoritmo que, a partir de las 1600 formas, sea capaz de facilitar la
búsqueda con los motores, retomando los conteos y organizándolos de manera que, tras la
gestión de las correcciones de las homografías, sea posible efectuar el conjunto de los
cálculos estadísticos. Esta automatización permite además utilizar varios motores sin mayor
sobrecarga de trabajo.
TECNOLOGÍA UTILIZADA
Para optimizar la gestión del conjunto, decidimos utilizar una estructura de base de datos
como elemento central que articule las distintas aplicaciones.
49
El programa de base de datos adoptado es PosgreSQL, muy difundido en el mundo de
Internet; para la interfaz entre la base de datos y los servicios de la Red, elegimos el lenguaje
de programación PHP.
DETALLES DEL FUNCIONAMIENTO DEL SISTEMA
Base de datos
La base de datos incluye tres tablas mayores como armazón del sistema automatizado:
•
Tabla de las 1600 variantes de los términos. En ella están registradas las diferentes
variantes, clasificadas según el término y la lengua a que pertenecen y haciendo constar
parámetros asociados: homografías, etc. El anexo 3 representa el contenido de esta tabla.
•
Tabla de resultados por variante: Incluye todos los resultados (conteo de páginas)
obtenidos de los servicios de los motores de búsqueda, vía la interfaz PHP, clasificados en
función de las variantes a las cuales se refieren y del motor con el que se obtuvieron.
•
Tabla de resultados por término: Una vez ingresadas las 1600 variantes en la base y
obtenidos los resultados de cada una, se calculan los resultados de cada término,
adicionando los resultados de las variantes que pertenecen a un mismo término de una
misma lengua. Los resultados obtenidos (clasificados por palabra, por motor y por lengua)
serán utilizados para obtener los resultados finales y servirán de entrada para los cálculos
estadísticos.
El diseño se organiza según la lista de las lenguas y los motores utilizados. Esta disposición
permite una gran flexibilidad, que permite añadir sin problemas nuevos términos, nuevos
motores y nuevas lenguas.
Las interfaces PHP
El sistema PHP tiene tres tipos de interfaces:
Las interfaces de ingreso de datos
Estas interfaces sirven para llenar los campos variantes y resultados de la base de datos.
50
Una interfaz usuario sirve a la administración para introducir variantes con las propiedades
asociadas35. Una interfaz máquina permite, en cada motor considerado, almacenar los
resultados obtenidos en el momento de una ejecución del sistema. Los datos registrados en la
primera se conservan entre una y otra ejecución; los de la segunda interfaz son en cambio
efímeros y se reemplazan en cada ejecución. Los datos que se reemplazan en este proceso son,
evidentemente, archivados previamente.
Las interfaces del procesamiento de datos
Son de dos tipos: las que permiten modificar la tabla de resultados de las variantes y las que
permiten calcular los valores asociados. Las primeras se utilizan para corregir problemas de
homografía como los siguientes:
Algunos plurales en -idades comunes al castellano y al portugués, caso en que la
distribución del conteo entre uno y otro de estos idiomas se hizo de manera automática
a prorrata de los resultados parciales: a partir de los resultados parciales se sacaron
coeficientes por motor de la presencia del castellano en relación con la del portugués,
coeficientes que se aplicaron para repartir los resultados en -idades entre el castellano
y el portugués.
Cal y cai variantes homógrafas del rumano correspondientes a caballo (por tener tres
letras pero también homógrafas ya, de idiomas del estudio) no fueron contadas, ni
tampoco la variante caii, homógrafa de siglas frecuentes en Internet.
Faca y facas, variantes correspondientes a cuchillo en portugués, son también dos
formas del verbo hacer en este idioma (faça, faças, sin diacríticos): los resultados se
calcularon después del conteo con el mismo método que para las formas en -idades,
tomando como base los coeficientes del portugués en relación con inglés.
35
Lengua, términos asociados, problemas de homografía, variante diacrítica.
51
Otras formas rumanas: boli, una de las variantes de enfermedad, que coincide con la
frecuente abreviación de bolígrafo en castellano, fue eliminada del conteo. Joi
(jueves), de tres letras, y joia, homógrafo percibido de la variante en portugués sin
diacríticos joia (joya), fueron calculadas con el mismo método de las palabras en –
idades. Marti (martes), variante homógrafa del apellido sin diacríticos de José Martí,
no fue contabilizado.
Del resultado de mardi (martes) en francés se descontó el correspondiente al sintagma
mardi gras (martes de Carnaval) para no contabilizar esta forma frecuente asen
inglés.
Las interfaces del segundo tipo actualizan la parte "resultados por términos" de la base de
datos.
Las interfaces de exhibición de los resultados
La base de datos utilizada para almacenar los resultados contiene:
(a) 1600 variantes clasificadas por término (57) y por lengua (7),.
(b) los resultados de estas 1600 variantes medidas por 6 motores de búsqueda (9600
resultados),
(c) los resultados de los 57 términos, calculados a partir de los 9600 resultados para 6 motores
y 7 lenguas (2394 resultados). Estos resultados son visibles en forma de cifras absolutas o
en proporciones del resultado del inglés.
El acceso a estas informaciones exigió crear interfaces de exhibición de resultados que debían
respetar las siguientes condiciones:
•
permitir obtener resultados rápidos y precisos para el conjunto de las informaciones
disponibles,
•
disponer de resultados actualizados cada vez que se haga una modificación en la base de
datos.
52
La interfaz que permite acceder a los resultados (a) permitió generar el cuadro del anexo 3.
Los resultados de (b) están disponibles en el anexo 8 y los del (c) en el anexo 9. La interfaz
del anexo 9 calcula también el promedio, la desviación tipo y el coeficiente de variación de
los resultados cuando los porcentajes se hacen visibles. Los resultados obtenidos por esta
interfaz permiten ilustrar las características de los motores de búsqueda (anexo 4).
CONCLUSIONES Y PLAN PARA LA PRÓXIMA VERSIÓN
Este sistema mejora claramente el método manual. Transforma una operación lenta, que
requería unos 10 días de trabajo para 1200 variantes y un solo motor de búsqueda, en un
trabajo de 2 días para 1600 ocurrencias y 6 motores de búsqueda, con resultados de utilización
más sencilla. Y permitirá además integrar fácilmente nuevos términos, nuevos idiomas,
nuevos motores de búsqueda.
Estas posibilidades nos permitirán también agregar nuevas funciones en la base de datos y las
interfaces. La conservación regular y fechada de los resultados permitirá un análisis
dinámico de la evolución de la presencia de las lenguas latinas en Internet para transformar el
trabajo en un verdadero observatorio permanente de esas evoluciones. Y sería también
posible evaluar la manera en que cada motor trata el plurilingüismo de Internet.
53
ANEXO 6: RESULTADOS DE LAS MEDIDAS DE LA CLASIFICACIÓN POR
LENGUA DE FASTSEARCH Y COMPARACIÓN
Cuadro 17: Resultados de la clasificación por lengua de Fastsearch y comparación36
Fastsearch
2000
Fastsearch
2001
% total
relativo 2000
% total
% total
relativo
absoluto
2001
0,01%
0,01%
% inglés
Afrikaans
0,06
0%
Albanés
0,03
0%
0,01%
0,01%
0,01%
22,24
42,15
6,81%
7,57%
7,33%
12,58%
0,16
0,57
0,05%
0,10%
0,10%
0,17%
0,03
0, %
0,01%
0,01%
0,01%
Alemán
Arabe
Bielorruso
0,06
0,16
0,02%
0,03%
0,03%
0,05%
Castellano
8,92
15,98
2,73%
2,87%
2,78%
4,77%
Catalán
0,52
0,75
0,16%
0,13%
0,13%
0,22%
Checo
1,21
3,50
0,37%
0,63%
0,61%
1,04%
4,9
20,57
1,50%
3,70%
3,58%
6,14%
6,30
0%
1,13%
1,10%
1,88%
9,81
1,49%
1,76%
1,71%
2,93%
0,45
0%
0,08%
0,08%
0,13%
2,89
0,50%
0,52%
0,50%
0,86%
0,69
0%
0,12%
0,12%
0,21%
4,87
Croata
Danés
1,63
Eslovaco
Esloveno
0,14
0,40
0,04%
0,07%
0,07%
0,12%
Estonio
0,20
0,48
0,06%
0,09%
0,08%
0,14%
0,02
0, %
0%
0%
0,01%
1,33
2,64
0,41%
0,47%
0,46%
0,79%
10,66
19,15
3,27%
3,44%
3,33%
5,72%
0
0%
0%
0%
0%
0,39
0,00%
0,07%
0,07%
0,12%
Faroés
Finlandés
Francés
Frisón
Galés
Gallego
0,01
0%
0%
0%
0%
Griego
0,31
0,66
0,09%
0,12%
0,11%
0,20%
Hebreo
0,21
0,30
0,06%
0,05%
0,05%
0,09%
Holandés
3,77
6,83
1,15%
1,23%
1,19%
2,04%
Húngaro
0,57
1,36
0,17%
0,24%
0,24%
0,41%
0,76
0%
0,14%
0,13%
0,23%
220,78
335,04
67,63%
60,20%
58,27%
100 %
0,15
0,25
0,05%
0,04%
0,04%
0,07%
Italiano
5,67
10,77
1,74%
1,93%
1,87%
3,21%
Japonés
19,33
37,40
5,92%
6,72%
6,50%
11,16%
0,03
0%
0,01%
0,01%
0,01%
Indonesio
Inglés
Islandés
Latín
Letón
0,07
0,10
0,02%
0,02%
0,02%
0,03%
Lituano
0,11
0,16
0,03%
0,03%
0,03%
0,05%
0,17
0%
0,03%
0,03%
0,05%
0,78%
Malayo
Noruego
1,44
2,62
0,44%
0,47%
0,46%
Polaco
1,08
3,36
0,33%
0,60%
0,58%
1%
Portugués
5,03
9,04
1,54%
1,62%
1,57%
2,70%
36
Este cuadro no tiene en cuenta las páginas plurilingües.
54
L5 (2001)
total
L4 (1998)
total
0,02%
Búlgaro
Chino
simplificado
Chino
tradicional
Coreano
L5 (2001) %
inglés
13,4%
6,97%
10,95%
5,69%
2,53%
8,86%
4,61%
2,81%
52%
75%
5,88%
3,06%
1,50%
5,40%
2,81%
0,82%
Rumano
0,14
0,22
0,04%
0,04%
0,04%
0,07%
Ruso
7,04
12,76
2,16%
2,29%
2,22%
3,81%
Sueco
3,33
5,11
1,02%
0,92%
0,89%
1,53%
0,95
0%
0,17%
0,17%
0,28%
1,15
0,16%
0,21%
0,20%
0,34%
0,30
0%
0,05%
0,05%
0,09%
0,05
0,01%
0,01%
0,01%
0,01%
0,17
0%
0,03%
0,03%
0,05%
Tailandés
Turco
0,52
Ucraniano
Vasco
0,04
Vietnamita
Total
relativo
Total
estimado
326,43
556,59
340
575
(Cifras según Fastsearch)
55
0,32%
0,17%
0,15%
ANEXO 7: CRITERIOS DE SELECCIÓN DE LOS TÉRMINOS
El siguiente cuadro precisa los criterios de selección de los términos. Para llegar a los 57
términos, se descartaron centenares de otros.
Cuadro 18: Criterios de selección lingüística de la muestra
CRITERIO
Neutralidad
cultural
DEFINICIÓN
Propiedad de una
palabra en relación
con su frecuencia
de uso en la
lengua en función
de la cultura
respectiva.
EJEMPLOS
Las palabras
francesas vin,
parfum,
gastronomie y
las palabras del
lenguaje
diplomático no
son neutras
culturalmente, en
relación con el
francés.
Homografía
interlingüística
La grafía de una
palabra en un
idioma es idéntica
a la de otra
palabra en otro
idioma, incluido el
caso de faux amis
(significación
diferente). Puede
haber homografías
con o sin
diacríticos.
Ejemplo de grafía
idéntica (con el
mismo sentido):
casa en
castellano y
portugués.
Ejemplos de faux
amis: red en
castellano y red
en inglés (rojo);
hieren francés
(ayer) y hier en
allemán (aquí).
Homografía
interlingüística
por préstamo
Cuando una
palabra de un
idioma es
aceptada tal cual
en otro.
Anglicismos
Excluir
comme business, sistemática
sandwich o
mente
software. El
galicismo, deja
vu en inglés,
castellano, etc.
(homógrafo de la
expresión
francesa sin
diacríticos).
56
MÉTODO
Para
obtener
una
muestra
con el
coeficiente
de
variación
menor
posible, se
dejaron de
lado las
palabras no
neutras
culturalmen
te.
Rechazar
las
palabras
homógrafas
(con o sin
diacríticos).
COMENTARIOS
Se han tenido en
cuenta, para
rechazarlas, las
homografías entre
los idiomas del
estudio o con un
idioma muy
presente en
Internet, como el
alemán. Para
evitar el riesgo
estadístico de
homografías con
otros idiomas, se
descartan por
principio las
palabras de menos
de cuatros letras.
Homografía con
una abreviación
Sept, siete en
francés,
homógrafo de las
abreviaciones de
septiembre en
varios idiomas,
sobre todo en
inglés.
Homografía con
Windows es
un nombre
ventana en
propio
inglés.... pero es
frecuente
asimismo el
nombre de un
programa muy
citado en Internet.
Pseudohomogra La escritura de una Ambasador en
fía
rumano puede
palabra con une
interlingüística error de ortografía confundirse con
ambas(s)ador
frecuente en un
en inglés.
idioma
corresponde a otra
en otro idioma.
Significados no
equivalentes
Morfosintaxis
no equivalente:
sustantivo,
verbo
Morfosintaxis
no equivalente:
adjetivos y
sustantivos
Evitar estas Estamos
relativamente
palabras.
protegidos por la
consigna de evitar
palabras de menos
de cuatros letras.
Evitar estas
palabras.
Se
rechazan
estas
palabras
solamente
si la lengua
con que se
confunde
es el inglés.
Prix en francés
Evitar estas
equivale en su
palabras,
significado a
salvo si
premio y a
fuera
precio.
posible
incluir
todos los
significante
s que
completaría
n el sentido
en las
lenguas
que lo
necesiten.
El inglés, muy
Love en inglés es Evitar estas Esta característica
del inglés nos lleva
diferente
el sustantivo que palabras.
morfosintácticame significa amor y
a excluir los
nte de los demás
el verbo amar: en
verbos.
idiomas
el infinitivo
estudiados, suele
(cuando sigue a
tener una misma
to), en el
forma como
presente del
sustantivo y
indicativo (amo,
variante verbal,
amas, ama,
ésta última
amamos, amáis,
equivalente a su
aman), etc.
vez de muchas
formas conjugadas
en los demás
idiomas.
Los adjetivos,
El adjetivo inglés Incluir las
invariables en
yellow
variantes
inglés, varían en
corresponde a
de género,
género y en
amarillo /
número y
número en los
amarilla /
caso en los
demás idiomas
amarillos /
idiomas en
estudiados. Los
amarillas. El
la
57
sustantivos, que
en general solo
varían en número
en los demás
idiomas, varían en
rumano también
según el caso
(nominativo,
genitivo, etc.) y la
diferencia
determinado / no
determinado.
Pluricentrismo
léxico y
semántico
Cuando un idioma
tiene más de un
centro normativo
léxico-semántico.
Pluricentrismo
ortográfico
Cuando un idioma
tiene más de un
centro normativo
ortográfico.
sustantivo inglés
instability /
instabilities a las
variantes rumanas
siguientes:
instabilitate /
instabilitatea /
instabilităţii /
instabilităţi /
instabilităţile /
instabilităţilor.
(no incluimos aquí
las variantes sin
diacríticos).
Según el país
hispanohablante,
se dice nafta o
gasolina.
Americano, en
muchos países de
América Latina,
no tiene el mismo
sentido que en
otros o en
España.
Casos del inglés y
del portugués:
ortografía
diferente en EE.
UU. y en el Reino
Unido (theater y
theatre), en
Portugal y en
Brasil
(electricidade y
eletricidade).
58
necesidad
de
equivalenci
a lo exige.
Incluir las
variantes
sinonímicas
nacionales
o
regionales
cuando
correspond
a.
Incluir las
variantes
ortográficas
nacionales
o
regionales
cuando
correspond
a.
REFERENCIAS DE LOS CUADROS
Cuadro 1: Promedios de las lenguas latinas (más el alemán) en relación con el inglés............. 8
Cuadro 2: Presencia absoluta de las lenguas estudiadas en la Red ............................................ 9
Cuadro 3: Presencia de las lenguas estudiadas (cifras redondeadas en millones) ................... 10
Cuadro 4: Presencia ponderada de las lenguas estudiadas en el espacio WWW..................... 10
Cuadro 5: Número de internautas clasificados por lenguas (en millones)............................... 11
Cuadro 6: Productividad de los hablantes ................................................................................ 12
Cuadro 7: Detalles de los resultados estadísticos..................................................................... 17
Cuadro 8: Hipótesis de la progresión de la presencia de las lenguas estudiadas ..................... 20
Cuadro 9: Evolución de las relaciones entre la presencia del francés, del inglés y del
castellano .......................................................................................................................... 21
Cuadro 10: Resultados del estudio de Inktomi (febrero 2000) ................................................ 21
Cuadro 11: Resultados de Fastsearch en agosto de 2000, enero de 2001y junio de 2001 ....... 23
Cuadro 12: Tendencias de la evolución
23
Cuadro 13: Recapitulación y referencias de los diversos estudios realizados por los autores. 27
Cuadro 14: Visualización de los intervalos de confianza ........................................................ 29
Cuadro 15: Lista de los términos de referencia........................................................................ 30
Cuadro 16: Resultados del estudio según los 6 motores de búsqueda preseleccionados ......... 43
Cuadro 17: Resultados de la clasificación por lengua de Fastsearch y comparación .............. 54
Cuadro 18: Criterios de selección lingüística de la muestra .................................................... 56
59
IL POSTO
DELLE LINGUE LATINE
SU INTERNET
EDIZIONE 2001
Studio proposto da :
Funredes (Associazione Réseaux & Développement) http://funredes.org
L'Unione Latina http://www.unilat.org
Studio realizzato tra agosto 2000 e giugno 2001
Diritti d’autore e di gestione ©, 2000-2001, Funredes, Unione Latina.
TAVOLA DELLE MATERIE
1- PROLOGO E PREMESSE ....................................................................................................................................4
2. AUTORI ...................................................................................................................................................................5
3. PRESENTAZIONE GENERALE DELLO STUDIO E DEI RISULTATI ........................................................6
3.1 METODOLOGIA .....................................................................................................................................................6
3.2. SINTESI COMMENTATA DEI RISULTATI ............................................................................................................6
3.2.1.
Risultati relativi rispetto all’inglese ......................................................................................................6
3.2.2 Risultati assoluti ...........................................................................................................................................6
3.3. RELAZIONE TRA IL NUMERO DI LOCUTORI E LA LORO PRESENZA SULLA RETE .....................................................7
3.4. VITALITA DELLA PRODUZIONE D’INFORMAZIONE DEGLI INTERNAUTI SECONDO LE LINGUE.................................7
4 DETTAGLIO DEI RISULTATI .............................................................................................................................9
4.1 METODOLOGIA INTERNET.....................................................................................................................................9
4.1.1.
Identificazione dei principali motori di ricerca disponibili sul Web e preselezione..............................9
4.1.2 Convalida dei motori selezionati in funzione della metodologia impiegata. ................................................9
4.1.3 Selezione finale dei motori di ricerca per l’applicazione della metodologia ...............................................9
4.2. METODOLOGIA LINGUISTICA ........................................................................................................................10
4.2.1 I nuovi problemi posti dal tedesco ..............................................................................................................10
4.2.2 Altre problematiche ....................................................................................................................................10
4.3. METODOLOGIA STATISTICA ..........................................................................................................................10
4.3.1.
Risultati delle misurazioni con i motori di ricerca preselezionati .......................................................10
4.3.2.
Calcoli statistici dei risultati relativi all'inglese..................................................................................10
4.3.3.
Calcoli dei risultati assoluti.................................................................................................................11
4.4. CONFRONTO CON ALTRI STUDI .....................................................................................................................12
4.4.1.
Confronto con gli studi precedenti ......................................................................................................12
4.4.2.
Confronto con gli studi similari (Alis e Inktomi) .................................................................................12
5.
TENDENZA DELL'EVOLUZIONE DELLE LINGUE STUDIATE...........................................................14
6.
PROSPETTIVE PER UN PROSIEGUO DELL'OSSERVAZIONE ............................................................14
7.
RIFERIMENTI, SU INTERNET, DEI LAVORI CORRELATI ..................................................................15
ALLEGATO 1 : SINOSSI E RIFERIMENTI DEI DIVERSI STUDI REALIZZATI DAGLI AUTORI .........16
ALLEGATO 2 : VISUALIZZAZIONE DEGLI INTERVALLI DI CONFIDENZA DEI RISULTATI PER
LINGUA .....................................................................................................................................................................18
ALLEGATO 3 : LISTA DEI TERMINI DEL CAMPIONE DI RIFERIMENTO ..............................................19
ALLEGATO 4 : SELEZIONE DEI MOTORI DI RICERCA PER LO STUDIO L5........................................28
INTRODUZIONE .........................................................................................................................................................28
I RISULTATI PER MOTORE E PER LINGUA ...................................................................................................................28
Dati relativi a Internet e ai motori di ricerca ......................................................................................................28
Convalida dei motori di ricerca in funzione della nostra metodologia ...............................................................30
CONCLUSIONI ............................................................................................................ ERREUR ! SIGNET NON DEFINI.
ALLEGATO 5 : INTERFACCIA DI AUTOMATIZZAZIONE DELLO STUDIO L5......................................31
INTRODUZIONE .........................................................................................................................................................31
TECNOLOGIA UTILIZZATA.........................................................................................................................................31
DETTAGLI DEL FUNZIONAMENTO DEL SISTEMA ........................................................................................................31
Base dei dati ........................................................................................................................................................31
Le interfacce PHP...............................................................................................................................................31
CONCLUSIONE E PIANO PER LA PROSSIMA VERSIONE ................................................................................................32
ALLEGATO 6 : RISULTATI DELLE MISURAZIONI DELLA GRADUATORIA PER LINGUA DI
FASTSEARCH E COMPARAZIONE ....................................................................................................................33
ALLEGATO 7 : CRITERI DI SELEZIONE DEI TERMINI ...............................................................................34
ALLEGATO 8 : RISULTATO DEL CONTEGGIO DI OGNI VARIANTE PER TERMINE E PER
MOTORE si veda (pagine in preparazione, in francese)
ALLEGATO 9 : RISULTATO DEL CONTEGGIO DEI TERMINI PER MOTORE si veda (pagine in
preparazione, in francese)
Riferimenti delle tabelle
Tabella 1 : Medie delle lingue latine (e del tedesco) rispetto all'inglese .......................................................................6
Tabella 2: Presenza assoluta delle lingue studiate sulla rete..........................................................................................6
Tabella 3 : Peso delle lingue studiate (cifre arrotondate in milioni) ..............................................................................7
Tabella 4: Presenza ponderata delle lingue studiate nello spazio WWW ......................................................................7
Tabella 5: Numero di internauti classificati per lingua (in milioni)...............................................................................8
Tabella 6: Produttività dei locutori ................................................................................................................................8
Tabella 7 : Dettagli dei risultati statistici .....................................................................................................................11
Tabella 8 : Ipotesi di progressione del peso delle lingue studiate ...............................................................................11
Tabella 9 : Sviluppi dei rapporti tra il peso del francese, dell'inglese e dello spagnolo...............................................12
Tabella 10 : Risultati dello studio di Inktomi (febbraio 2000).....................................................................................12
Tabella 11: Risultati di Fastsearch nell'agosto 2000, gennaio 2001, giugno 2001 ......................................................14
Tabella 12: Tendenze dell'evoluzione .........................................................................................................................14
Tabella 13 : Riassunto e riferimenti dei diversi studi realizzati dagli autori................................................................16
Tabella 14 : Visualizzazione degli intervalli di confidenza ........................................................................................18
Tabella 15 : Lista dei termini del campione di riferimento..........................................................................................19
Tabella 16 : Risultati dello studio per i 6 motori di ricerca preselezionati ..................................................................28
Tabella 17 : Risultati della classificazione per lingua di Fastsearch e comparazione..................................................33
Tabella 18 : Criteri di selezione linguistica dei termini del campione.........................................................................34
1- Prologo e premesse
Questo studio fa seguito ai lavori svolti da Funredes tra il 1995 e il 19981 sul posto delle lingue e delle culture latine
sulla Rete. Questa edizione si concentra sulle lingue. Il principio di base che ha mostrato la sua solidità in occasione
della precedente edizione è stato mantenuto. Si tratta di procedere alla misurazione, in certi spazi di Internet2, della
quantità di menzioni od occorrenze di 57 parole o termimi avente un significato e una portata equivalente nelle
lingue studiate (francese, italiano, inglese, portoghese, romeno, spagnolo) poi di analizzare e comparare i risultati
per dedurne, con il metodo statistico, delle percentuali di presenza di ciascuna di esse. Una prima estensione dello
studio al tedesco (come l’intenzione di ampliarlo, in seguito, verso altre lingue) peraltro ha cominciato ad essere
considerata.
L'ambiente dei motori di ricerca si è sensibilmente evoluto dopo lo studio precedente, il che ha portato a una analisi
delle implicazioni dei cambiamenti sulla nostra metodologia e sono stati apportati dei miglioramenti rispetto ai
lavori precedenti.
•
•
•
Applicazione di parecchi motori di ricerca di cui è stata fatta una selezione attenta, allo scopo di ottenere
i risultati più rigorosi possibili.
Automatizzazione dei conteggi e dei calcoli con l’aiuto di un programma che facesse da interfaccia tra i
termini da misurare, organizzati su basi di dati, e i motori di ricerca. Questo investimento permetterà in
avvenire di pubblicare dei risultati ad intervalli regolari e di costituire così un vero e proprio osservatorio.
Sistematizzazione del trattamento delle omografie interlinguistiche con una gestione automatizzata, più
solida sul piano metodologico.
Peraltro, alcuni errori che si erano intrufolati in alcune occorrenze del campione, sono stati corretti3. Inoltre, un
primo passo è stato fatto per estendere lo studio al tedesco, senza cambiare per il momento il metodo di ricerca
di queste occorrenze e stabilendo dei risultati nettamente meno precisi di quelli delle altre lingue4.
Verranno fatti dei riferimenti alle tappe anteriori a questo studio. Per aiutare il lettore, una sintesi delle pratiche e dei
risultati precedenti, con i nessi Internet associati, permette l’accesso ai documenti corrispondenti nell’allegato 1.
1
Con il sostegno della Agence de la francophonie per la quarta edizione e in collaborazione con l’Unione Latina a
partire dalla terza edizione.
2
In questa edizione, è stato considerato solo lo spazio web (pagine della rete), lo spazio Usenet non è stato preso in
considerazione.
3
Si tratta di errori minori che non hanno causato uno scarto notevole rispetto ai risultati pubblicati in occasione dello
studio precedente.
4
La forma di composizione delle parole in tedesco fa sì che la ricerca così come è concepita per le altre lingue, dia
dei valori al di sotto della realtà linguistica. I risultati qui presentati, con le correzioni in aumento introdotte, sono
ancora approssimativi. I problemi che pone l’adattamento della nostra metodologia al tedesco sono spiegati nel
capitolo 4.2.1.
2. Autori
Il gruppo di lavoro dello studio è stato costituito nel seguente modo:
Coordinamento generale :
Condotta dello studio :
Supervisione linguistica :
Responsabile linguistico :
Gruppo linguistico :
Automatizzazione delle
misure e dei calcoli statistici5 :
5
Daniel Pimienta ([email protected])
Benoit Lamey ([email protected]), sous la direction de Daniel Pimienta
Daniel Prado (<[email protected])
Marcelo Sztrum ([email protected])
Direzione Terminologia e Industrie della Lingua dell’Unione Latina
Benoit Lamey ([email protected])
Con un caloroso ringraziamento a Roger Price per il suo aiuto a distanza.
3. Presentazione generale dello studio e dei risultati
3.1 Metodologia
I risultati sono ottenuti conservando la metodologia seguita a partire dal 1998. Per prima cosa, una selezione di 57
termini per lingua, ognuno che comporta delle varianti ortografiche, secondo la presenza o meno di segni diacritici,
sinonimici, dialettali o morfosintattici e con un significato e una portata equivalente nelle lingue studiate (dettagli
dei criteri linguistici : par. 4.2 e allegato 7). In seguito, si tratta di analizzare e di comparare i risultati per dedurne,
con il metodo statistico, delle percentuali di presenza in ognuna delle lingue. Per ogni termine, il rapporto delle
lingue latine nei confronti dell’inglese viene utilizzato come una variabile aleatoria e le tecniche della statistica
vengono applicate prendendo come ipotesi una distribuzione matematica corrente di questa variabile aleatoria (la
corva di Gauss detta anche distribuzione « normale »).
I risultati presentati qui di seguito sono stati ottenuti facendo la sintesi dei punteggi rilevati sui due motori di ricerca
che hanno soddisfatto i criteri di selezione descritti nell’allegato 4. Tutte le misure prese in considerazione in questo
studio sono state fatte tra agosto 2000 e giugno 2001.
.
3.2. Sintesi commentata dei risultati
3.2.1.
Risultati relativi rispetto all’inglese
La seguente tabella presenta il rapporto medio tra ogni lingua latina (e il tedesco) e l’inglese, ottenuto con la misura
dell’occorrenza dei termini nello spazio Web, eseguito nel giugno 2001.
Tabella 1 : Medie delle lingue latine (e del tedesco) rispetto all’inglese
SPAGNOLO
10,95%
FRANCESE
8,86%
ITALIANO
5,88%
PORTOGHESE
5,40%
ROMENO
0,32%
TEDESCO
> 13,42% stimato6
3.2.2 Risultati assoluti
I risultati appena citati permettono di valutare la presenza delle lingue latine e, approssimativamente del tedesco,
rispetto all’inglese ; per calcolare la presenza assoluta di queste lingue nello spazio della Rete, è prima di tutto
necessario fare una ipotesi sulla presenza assoluta dell’inglese. La tabella qui sotto mostra i valori di presenza
assoluta, stabiliti a partire dalle medie per diverse ipotesi di presenza dell’inglese.
Tabella 2: Presenza assoluta delle lingue studiate sulla rete
Se INGLESE =
60%
6,57%
55%
52%
50%
Allora SPAGNOLO =
65%
7,12%
6,02%
5,69%
Allora FRANCESE =
5,76%
5,32%
4,87%
4,61%
Allora ITALIANO =
3,82%
3,53%
3,23%
Allora PORTOGHESE =
3,51%
3,24%
2,97%
Allora ROMENO =
0,21%
0,19%
0,18%
8,71 %
8,04%
5,83%
13,10%
Allora TEDESCO
7
Rimarrà dunque uno spazio per le
altre lingue
6
5,48%
45%
4,93%
40%
4,38%
4,43%
3,99%
3,54%
3,06%
2,94%
2,65%
2,35%
2,81%
2,70%
2,43%
2,16%
0,17%
0,16%
0,14%
0,13%
7,37%
6,97%
6,70%
6.03%
5,37%
20,35%
24,96%
27,59%
34,83%
42,07%
C’è, in questa versione, una differenza di qualità tra i risultati ottenuti per il tedesco e per le altre lingue studiate
fino a oggi, la si "penalizzerebbe" molto se si tenesse conto dei risultati stabiliti chiedendo ai motori di fare una
ricerca "per parola isolata" o separata, cioè senza alcun contesto primo o dopo. Per arrivare ad avere dei risultati
tanto deboli quanto quelli stabiliti per le altre lingue, bisognerebbe in un secondo tempo considerare delle ricerche
"per parola non isolata" (con contesto prima e dopo) e aiutarsi peraltro, nella misura del possibile, di un fattore
cifrato che esprima la differenza di qualità delle parole separate tra le lingue dello studio o tra certe lingue dello
studio e il tedesco. La nostra soluzione in questo caso è stata di mantenere il campione tale e quale, considerarlo con
la stessa metodologia linguistica riguardo ai 57 termini tedeschi equivalenti e cercare ancora per parola isolata. Una
correzione del 30 % almeno in aumento, rispetto ai risultati così ottenuti, ci è parsa necessaria per iniziare ad
avvicinarci a questa realtà linguistica. La cifra di 13,42% viene ottenuta applicando un aumento del 30% al primo
risultato lordo del 10,32 %.
7
Risultati maggiorati al 30% (si veda la nota 6).
Questa tabella ci dà una idea più precisa del peso assoluto delle lingue studiate rispetto all’insieme delle pagine
presenti sulla rete. Uno degli indicatori più significativi è quello dello spazio disponibile per le lingue rimanenti che
ci permette di selezionare l’ipotesi di una presenza assoluta dell’inglese più probabile che si avvicina al 52%.
Basta per questo considerare il cinese e il giapponese, che verosimilmente hanno un peso dello stesso ordine di
quello del tedesco o dello spagnolo (tra il 5 e l’8%), come pure quello delle lingue che rappresentano tra lo 0,5% e il
2% (coreano, olandese, russo e le quattro lingue scandinave per un totale tra il 8 e il 10%), quello delle lingue la cui
presenza è molto debole, come il romeno (cioè una dozzina di lingue dallo 0,1% per un totale dell’1%) e, infine, le
numerosissime lingue la cui presenza resta marginale. Questa ultima proporzione è la più difficile da stimare ;
considerando l’ipotesi di 200 lingue allo 0,01%, si raggiunge un totale del 2%... Una delle grandi incognite, le cui
conseguenze saranno da valutare in futuro, è la possibile moltiplicazione delle lingue su Internet, dato che il totale
delle lingue esistenti è calcolato tra 3000 e 6000 …
Queste stime ci fanno arrivare a un peso totale del 25% per le lingue non studiate e dunque ci spinge a sostenere
l’ipotesi di una presenza assoluta del 52% per l’inglese.
Questa stima della cifra del 25% per il peso delle lingue non prese in considerazione direttamente nello studio è
rafforzata dall’evoluzione dinamica del peso di queste descritto in dettaglio nel capitolo 4.3.3.
3.3. Relazione tra il numero di locutori e la loro presenza sulla Rete
È evidente che i valori di presenza assoluta non sono un perfetto indicatore della forza di una lingua sulle reti. Per
ottenere un risultato significativo, conviene proporzionare i valori che esprimono la presenza delle lingue su Internet
con il metro della loro presenza nel mondo reale. La presenza relativa di queste lingue è calcolata senza tenere
pienamente conto del fattore « plurilinguismo ». Questo metodo comporta degli scogli metodologici che sono stati
descritti in occasione dello studio L4.
Tabella 3 : Peso delle lingue studiate (cifre arrotondate in milioni)
Inglese
Presenza
assoluta
(numero di locutori)
Presenza
relativa
(percentuale mondiale)
Francese
Italiano
Portoghese Romeno
Spagnolo
Tedesco
630
130
60
190
30
375
120
10,50%
2,17%
1%
3,17%
0,50%
6,25%
2%
Tabella 4: Presenza ponderata delle lingue studiate nello spazio WWW
INGLESE
Presenza assoluta
2001
52%
Presenza
ponderata 1998
7,14
Presenza
ponderata 2000
5,71
Presenza
ponderata 2001
4,95
FRANCESE
4,61%
1,30
2,02
2,12
ITALIANO
3,06%
1,50
PORTOGHESE
2,81%
0,26
2,77
0,68
3,06
0,88
ROMENO
0,17%
0,30
0,38
0,34
SPAGNOLO
5,69%
0,40
0,78
0,91
8
3,499
TEDESCO
6,97%
Non disponibile
3,15
Un quoziente uguale a 1 è dunque considerato come un risultato "normale" ; se è inferiore a 1, come debole e se è
superiore a 1, come un risultato rispettabile.
Forte progressione dello spagnolo e soprattutto del portoghese, ma i due restano comunque al di sotto della soglia di
una rappresentazione "normale". Eccellente punteggio del tedesco e dell’italiano e buon risultato del francese.
3.4. Vitalità della produzione d’informazione degli internauti secondo le lingue
Uno studio Global Reach di cui gli ultimi risultati datano del 31 marzo 2001 (http//:www.glreach.com) propone un
valore per il numero di utilizzatori di Internet per lingua :
8
9
Risultati maggiorati al 30% (si veda la nota 6).
Risultati maggiorati al 30% (si veda la nota 6).
Tabella 5: Numero di internauti classificati per lingua (in milioni)
Spagnolo
Inglese
Francese
Italiano
Portoghe
se
Romeno
215,6
16,6
14,2
11,5
0,6
Ripartizione in
47,6%
%
3,7%
3,1%
2,5%
0,13%
Internauti (in
milioni)
Tedesco
Resto
27,5
146,2
6,1%
32,2%
20,4
4,5%
Mettendo questi risultati in relazione con quelli ottenuti nel nostro studio (si veda tabella 6), dovrebbe essere
possibile dedurre quali sono i segmenti linguistici che producono la maggiore informazione sulla Rete.
Tabella 6: Produttività dei locutori
Pagine
INGLESE
52%
Internauti
47,6%
P/I
1,09
FRANCESE
4,61%%
3,7%
1,25
ITALIANO
3,06%%
3,1%
0,98
PORTOGHESE
2,81%%
2,5%
1,12
ROMENO
0,17%%
0,13%
1,31
SPAGNOLO
5,69%
4,5%
1,26
TEDESCO
6,97%%10
6,1%
1,14
Otteniamo un risultato abbastanza importante : le proporzioni per lingua delle pagine disponibili sulla rete e quella
degli Internauti presenti sono dello stesso ordine di grandezza ! Il rapporto percentuale di pagine su percentuale di
utilizzatori si situa attorno a 1 per tutte le lingue studiate11, il che dimostrerebbe che oggi la quantità delle pagine
della rete prodotte in una lingua è direttamente proporzionale al numero di internauti che praticano quella lingua. Il
risultato dell’inglese sorprende : ci si poteva aspettare un valore molto più alto sotto l’influenza del plurilinguismo12.
Questo potrebbe dunque significare che la produttività dei locutori anglofoni è inferiore a quella dei locutori nelle
altre lingue menzionate, ed è prova di un premio di produzione delle popolazioni di locutori di altre lingue
occidentali, coscienti delle poste linguistiche di Internet ? Sarebbe molto interessante conoscere questi stessi valori
per le lingue più recenti in Internet...
10
Risultati maggiorati al 30% (si veda la nota 6).
Gli scarti sono inferiori al 25% nel valore assoluto e difficilmente si può trarre delle conclusioni a proposito di
queste deboli variazioni che sono probabilmente all’interno degli intervalli di confidenza delle cifre annunciati da
Global Reach, i quali non beneficiano di una metodologia standard per tutte le lingue.
12
La proporzione dei locutori di lingue diverse dall’inglese che producono delle pagine in inglese (o traducono
anche le loro pagine in inglese) sappiamo bene che è molto elevata.
11
4 Dettaglio dei risultati
4.1 Metodologia Internet
L'evoluzione accelerata, partendo dal nostro ultimo studio, dei motori di ricerca che indicizzano il contenuto della
Rete ha reso necessario un lavoro supplementare e un riesame accurato della metodologia Internet utilizzata per
ottenere i nostri risultati. Questo lavoro passa per tre fasi :
L'identificazione dei principali motori di ricerca disponibili e la realizzazione di una preselazione.
La verifica del loro comportamento per quanto riguarda i conteggi13.
La selezione dei motori che offrono le migliori garanzie per l’applicazione della nostra metodologia.
4.1.1. Identificazione dei principali motori di ricerca disponibili sul Web e preselezione.
Nella prima tappa sono stati identificati i seguenti motori : AltaVista, Excite, Fastsearch14, Google,
Infoseek, iWon, Lycos, Northernlight, Yahoo e Webtop.
Hotbot,
Webtop, il nuovissimo motore, non è ancora stato sufficientemente testato per decidere di assumerci il rischio di
incorporarlo. Hotbot, Lycos e Yahoo sono stati scartati perché in diretto partenariato con altri motori di ricerca e
forniscono gli stessi risultati : Lycos utilizza l'indice di Fastsearch, e Yahoo quello di Google. Hotbot e iWon
condividono lo stesso indice, che fornisce loro Inktomi. Hotbot che era stato la nostra scelta in occasione dello
studio precedente purtroppo non è stato possibile riutilizzarlo perché non indica più i risultati dei conteggi. Inktomi
non offre i servizi del suo indice direttamente agli internauti : dunque rimane iWon. Quanto a Excite, non è stato
possibile utilizzarlo perché, come Hotbot, non fornisce risultati di conteggio al momento delle misurazioni15.
Restavano dunque in lizza i seguenti sei motori : AltaVista, Fastsearch, Google, Infoseek, iWon e Northern
Light.
4.1.2 Convalida dei motori selezionati in funzione della metodologia impiegata.
Una automatizzazione del processo delle misure i cui dettagli sono descritti nell’allegato 5 ha permesso di produrre
dei risultati per i sei motori di ricerca preselezionati, trattando ognuno circa 1600 varianti dei 57 termini per lingua. I
risultati ottenuti hanno dimostrato le forti divergenze tra i motori e hanno prodotto non minori forti inquietudini
quanto alla solidità della nostra metodologia ! È chiaro che si doveva fare uno sforzo d’analisi dei motori di ricerca
utilizzati per spiegare queste divergenze e sapere quali motori offrivano i risultati più credibili.
Sono stati definiti parecchi criteri per convalidare l’utilizzo di un motore di ricerca per questo studio. Un motore di
ricerca, per poter essere un mezzo per l’applicazione della nostra metodologia, deve avere le seguenti caratteristiche:
Avere un indice sufficentemente ampio in base all’ampiezza della Rete,
Tener conto in modo coerente dei segni diacritici,
Dare dei risultati coerenti per quanto riguarda il conteggio delle pagine trovate,
Disporre di un indice che sia omogeneo rispetto alle lingue.
I risultati ottenuti per ogni motore, i dettagli della loro selezione come pure altre informazioni generali riguardanti i
motori di ricerca sono disponibili nell'allegato 4.
4.1.3 Selezione finale dei motori di ricerca per l’applicazione della metodologia
Dell’insieme dei motori preselezionati, soltanto due Google e Fastsearch, sono stati considerati quale supporto a uno
studio della presenza delle diverse lingue sulla Rete al momento delle prime misurazioni, nell’agosto 2000. In
questo primo momento, i loro risultati sono stati utilizzati congiuntamente 16 per ottenere i risultati finali. La
prossiminità di ognuno dei risultati, ottenuti partendo da un indice e da tecniche di ricerca diverse, ci è sembrata, per
di più, un buon segno per la validità del nostro metodo:
Google
Fast
13
Inglese
210
147
17
Spagnolo
7,86%
8,41%
Francese
7,33%
7,33%
Italiano Portoghese
4,65%
2,82%
4,60%
3,95%
Romeno
0,27%
0,37%
Tedesco
7,89%
8,47%
18
Bisogna capire che i risultati dei conteggi sono assolutamente legati alla funzione principale dei motori che è
quella di identificare le pagine che comportano i termini della ricerca, in un ordine di rilevanza massimale. Certi
motori forniscono i valori del totale del numero delle pagine che rispondono al criterio di ricerca, altri invece no. In
ogni caso bisogna prendere molte precauzioni per verificare bene l’affidabilità dei dati di conteggio forniti.
14
Noto anche con il nome di Alltheweb.
15
Questo difetto è stato corretto in seguito, i risultati di Excite verranno dunque presi in considerazione in occasione
della prossima versione di questo studio, se però manterrà questa funzione.
16
Per i calcoli statistici abbiamo concatenato i risultati dei due motori per ottenere una serie più lunga dei valori
della nostra variabile aleatoria.
17
Milioni di pagine in inglese.
18
Si tratta dei risultati lordi, senza la correzione al 30%.
Ora, in occasione dell’ultimo calcolo, fatto in giugno 2001, è risultato che Google non trattava più i segni diacritici
in modo soddisfacente, e abbiamo dovuto accantonare i suoi risultati.
4.2.
Metodologia linguistica
A parte l’introduzione, a titolo di primo passo esplorativo, delle equivalenze del tedesco e la correzione di alcuni
errori che erano sfuggiti nella scrittura delle varianti19, la metodologia linguistica resta invariata rispetto alla
versione precedente dello studio.
La selezione di 57 termini per lingua fatta nel 1998 è stata estesa ai equivalenti tedeschi. Ogni termine, includendo
sempre una certa quantità di varianti (ortografiche, secondo la presenza o meno di segni diacritici, sinonimici,
dialettali, morfosintattici…) ha continuato ad essere scelto per essere considerato sia equivalente a quelli del suo
stesso numero in tutte le lingue studiate che distintivo, cioè senza (o quasi senza) omografie interlinguistiche20 di
alcune delle sue varianti o altri ostacoli all’equivalenza. Il campione dei 57 termini si trova nell'allegato 3.
4.2.1 I nuovi problemi posti dal tedesco
La formazione delle parole in tedesco è molto diversa da quella delle altre lingue studiate fino ad ora : le lingue
come i tedesco riuniscono in una sola parola "composta" delle radici che, nelle forme equivalenti delle altre lingue
studiate (e salvo parzialmente, molto meno del tedesco, l’inglese), si trovano separate in parole diverse, costituendo
un sintagma.
Ora dato che le equivalenze erano fatte tra parole non composte e supponendo che si stavano cercando le parole
separate, senza contesto indeterminato prima o dopo, il tedesco è fortemente "penalizzato" poiché forme molto
frequenti quali Ziegenkäse, equivalente di "formaggio di capra", vengono sistematicamente scartate.
Un primo passo è stato fatto qui aggiungendo ai risultati ottenuti secondo la vecchia metodologia un 30% di
maggiorazione, come limite probabile minimo. Ma per arrivare ad avere dei risultati sicuri quanto quelli che sono
stati stabiliti per le altre lingue, bisognerà senza dubbio, in un secondo tempo, prevedere delle ricerche "per parola
non isolata " (con e senza contesto indeterminato prima e dopo la parola), peraltro aiutandosi, nella misura del
possibile, con un fattore cifrato che esprima la differenza di quantità delle parole tra le altre lingue dello studio e il
tedesco. Questo fattore di correzione è da trovarsi probabilmente nelle ricerche fatte nei lavori su corpus paralleli
interlinguistici.
4.2.2 Altre problematiche
Si dovrebbe poter capire il lavoro linguistico guardando l'allegato 3 e l'allegato 7. Per quanto riguarda altri dettagli
della metodologia linguistica, si può consultare la versione precedente, L4, capitolo 2.2.
Ricordiamo la decisione di includere sempre, con le forme che hanno segni diacritici (accenti, ecc.), delle varianti
senza diacritici, molto frequenti sulla Rete. Nel caso del tedesco, non si è tenuto conto della distinzione
morfosintattica maiuscolo / minuscolo, che è neutralizzata, dai nostri motori di ricerca e così non pertinente.
Inoltre, è stata presa la decisione di non includere delle forme di meno di 4 lettere per evitare delle possibili
omografie (specialmente con delle sigle, ma non unicamente). Le omografie tra almeno due delle lingue studiate si
sono dimostrate estremamente frequenti, specie tra lo spagnolo e il portoghese, ma non solo e, ben inteso, bisognava
evitare delle coincidenze accidentali. A volte una omografia casuale quale quella delle varianti tedesche Montage /
Montages (lunedì) si è raddoppiata con una omografia accidentale, poiché l’espressione francese è presa a prestito
da quasi tutte le altre lingue nel campo cinematografico.
4.3. Metodologia statistica
Gli intervalli di confidenza al 90% e 99% dei risultati sono stati stabiliti impiegando la distribuzione T di Student,
considerando l'ipotesi di una distribuzione di tipo Normale.
4.3.1.
Risultati delle misurazioni con i motori di ricerca preselezionati
Nella tabella 16 nell'allegato 4 vengono indicate le ricerche ottenute in agosto 2000 per ogni lingua, secondo i sei
motori preselezionati.
4.3.2. Calcoli statistici dei risultati relativi all'inglese
Ecco le percentuali medie che rappresentano la presenza delle lingue latine (e il tedesco) rispetto all'inglese.
19
Si tratta di errori minori che non hanno provocato uno scarto importante rispetto ai risultati pubblicati in occasione
dello studio precedente. In dettaglio nell’allegato 3.
20
Parliamo delle forme che avrebbero una stessa scrittura in più di una lingua; le omografie all’interno di una stessa
lingua sono considerate come una stessa parola (grafica).
Tabella 7 : Dettagli dei risultati statistici
Francese
Italiano
Portoghese
Romeno
Spagnolo
Tedesco21
Media
8,86%
5,88%
5,40%
0,32%
10,95%
13,4%
Scarto-Tipo
5,09%
5,55%
5,49%
0,33%
9,46%
8,97%
Coefficiente di
varianza
Intervallo
di confidenza
al 90%
0,57
0,94
1,01
1,02
0,86
0,66
7,75-9,97
4,67-7,09
4,20-6,60
0,25-0,39
8,89-13,01
11,45-15,37
Il coefficiente di varianza è la radice quadrata dello scarto-tipo al quadrato diviso per la media al quadrato. Un
valore superiore a 1 indica una debole dispersione e dunque un risultato sempre più debole se il valore è debole.
L'intervallo di confidenza sarà dunque tanto più stretto quanto il valore del coefficiente di varianza è debole.
4.3.3.
Calcoli dei risultati assoluti
Secondo le conclusioni stabilite nel capitolo 3.2.1, si arriva a una presenza assoluta delle lingue studiate del :
Inglese
Spagnolo
Francese
Italiano
Portoghese
Romeno
Tedesco
Resto
52%
5,69%
4,61%
3,06%
2,81%
0,17%
6,97%22
24,96%
Così lo spagnolo, come avevamo previsto in occasione dello studio precedente, ora oltrepassa il francese. E il
tedesco si piazza davanti a tutte le lingue latine.
L'ottenimento di questi risultati è basato sul calcolo dei risultati relativi (capitolo precedente) come pure su una
approsimazione realistica del peso delle lingue non studiate descritte nella riga "resto".
L'approssimazione del peso delle lingue non studiate è stata realizzata partendo da ua misurazione dell'entità del
dominio di ogni lingua sul motore di ricerca Fastsearch. Nel momento in cui queste misurazioni sono state fatte,
Fastsearch presentava un indice di 360 milioni di pagine suddivise in 31 lingue. Per sapere quante pagine contenga
l'indice in ogni lingua (secondo l'algoritmo di individuazione di Fast), bisogna utilizzare la sezione "advanced
search" (ricerca avanzata) e fare una ricerca, per ogni lingua, partendo dalla tecnica che avevamo chiamato nello
studio precedente "complemento dell'insieme vuoto " (ricerca del numero delle pagine che non contengono una
parola inesistente)23. Si ottiene la tabella 17 nell'allegato 6. Questa tabella dà una approssimazione del peso di ogni
lingua, dedotto dall'algoritmo di riconoscimento delle lingue del motore di ricerca, il quale, certamente, non è
perfetto. Per esempio fare una ricerca sulla lettera "è" per i siti in inglese dà (per Google o Fastsearch) un risultato di
un milione di siti ma soprattutto in tailandese, coreano, giapponese, russo...
Un modo diverso di ottenere il peso delle lingue non studiate è di constatare la sua evoluzione dinamica tra L4 e L5.
A partire dalla tabella delle ipotesi dei valori assoluti descritti del capitolo 3.2.1, e dei valori assoluti delle lingue
considerate nello studio realizzato in settembre 1998, si ottiene la tabella seguente :
Table 8 : Ipotesi di progressione del peso delle lingue studiate
Lingue studiate
21
Ipotesi del peso assoluto per L5
INGLESE
55%
50%
45%
L4
Sett 1998
75%
SPAGNOLO
6,02%
5,48%
4,93%
2,53%
137,94%
116,60%
94,86%
FRANCESE
4,87%
4,43%
3,99%
2,81%
73,31%
57,65%
41,99%
Progressioni L4/L5
-26,67%
-33,33%
-40%
ITALIANO
3,23%
2,94%
2,65%
1,50%
115,33%
96%
76,67%
PORTOGHESE
2,97%
2,70%
2,43%
0,82%
262,20%
229,27%
196,34%
ROMENO
0,18%
0,16%
0,14%
0,15%
20%
6,67%
-6,67%
Resto
20,35%
27,59%
34,83%
17,19%
18,38%
60,50%
102,62%
Risultati maggiorati al 30% (si veda la nota 6)
Risultati maggiorati al 30% (si veda la nota 6)
23
L'argomento della ricerca è, per esempio, < - "hgavdhjgduhgedujhgsdfyuhg">.
22
per le altre lingue
Una volta ancora, l'ipotesi più realistica del peso assoluto dell'inglese è quella che si avvicina al 50%.
In effetti, una progressione di meno del 18,38% delle altre lingue24 sembra molto insufficiente : questo
rappresenterebbe una progressione due volte meno rapida di quella del romeno e da 4 a 15 volte meno rapida di
quella delle altre lingue latine studiate. Un aumento del 102% per le lingue non studiate sembra invece esagerato
questo significherebbe una evoluzione mondiale più rapida dell'evoluzione della grande maggioranza delle lingue
latine (eccetto il portoghese). Una progressione dell'ordine del 60% nella media per le lingue non studiate le
metterebbe al livello di progressione del francese e questo sembra molto più credibile. Questo confronto ci rafforza
nella nostra ipotesi di un risultato finale dell'ordine del 50% come valore assoluto dell'inglese.
4.4. Confronto con altri studi
4.4.1. Confronto con gli studi precedenti
I rapporti inglese/francese e francese/spagnolo hanno avuto la seguente evoluzione tra il primo e il secondo studio25 :
Tabella 9 : Evoluzioni dei rapporti tra il peso del francese, dell’inglese e dello spagnolo
Marzo 1996 (L1)
Inglese/Francese
21,91
Francese/Spagnolo
2,40
Inglese/Spagnolo
52,58
Marzo 1997 (L2)
19,99
1,92
38,38
Marzo 1998 (L3)
17,60
1,33
23,32
Sett. 1998 (L4)
35,59
1,11
39,53
Agosto 2000 (L5)
13,66
0,91
12,38
Giugno 2001 (L5)
11,28
0,81
9,14
Le cifre in corsivo (da L1 a L3), lo ricordiamo, sono troppo approssimative per essere considerate seriamente.
L'osservazione reale è iniziata a partire da L4.
4.4.2.
Confronto con gli studi similari (Alis e Inktomi)
Lo studio di Alis non è mai stato ripetuto, dal 1998 : manteniamo dunque l'analisi fatta in occasione di L4. Invece,
Inktomi ha pubblicato dei risultati che hanno avuto una grande ripercussione in Internet e sono ora utilizzati come
fonte ufficiale da numerosi rapporti.
Tabella 10 : Risultati dello studio di Inktomi (febbraio 2000)
LINGUE
Inglese
Tedesco
Francese
Italiano
Spagnolo
Portoghese
Olandese
Finlandese
Svedese
Giapponese
PROPORZIONE (%)
86,54
5,83
2,36
1,55
1,23
0,75
0,54
0,50
0,36
0,34
Queste cifre contribuiscono a perpetrare la visione sbagliata che l'inglese continua a essere la lingua di più dell' 80%
delle pagine web. Comunque, è facile scoprire una aberrazione in questi risultati, nella loro presentazione o nella
loro interpretazione...
In effetti, la percentuale annunciata per l'inglese (86%) non è rispetto a tutte le lingue ma soltanto rispetto alle 10
lingue citate nella tabella, visto che il totale delle percentuali per le 10 lingue arriva al 100%! Se prendiamo l'ipotesi
che rimane il 30% di pagine web per le lingue non citate, il totale reale dell'inglese sarebbe allora di : 86,54% x
(100-30) = 60,58%!!!
Al di là di questo evidente lapsus che fa perdere il significato dei risultati assoluti (ma non impedisce la maggior
parte degli uffici di marketing di Internet di riprendere queste cifre assurde...) resta interessante confrontare i nostri
risultati, basati su un campione di termini i cui criteri di selezione linguistica sono stati presentati nel nostro
24
Le "altre lingue" ricoprono delle realtà diverse, dalle lingue scandinave o asiatiche a forte progressione alle lingue
meno diffuse, a progressione probabilmente più lenta.
25
Bisogna prendere questa progressione con grande cautea poiché le cifre da L1 a L3 non presenterebbero le
caratteristiche di rigore linguistico ottenute a partire da L4.
rapporto, con gli algoritmi di riconoscimento delle lingue utilizzate dai diversi motori, il cui meccanismo rimane
poco chiaro. Si veda per esempio, la tabella 17 nell'allegato 6 che mostra le cifre derivate dal motore Fastsearch e le
confronta con quelle del nostro studio.
Fino a prova contraria, dobbiamo considerare il nostro metodo più rigoroso sul piano metodologico e concludere che
gli algoritmi di riconoscimento delle lingue su Internet hanno tutti l'irritante tendenza a sopravvalutare le cifre
dell'inglese.
5. Tendenza dell'evoluzione delle lingue studiate
Come abbiamo già segnalato, se fossero state prese delle misure nell’agosto 2000 e in gennaio 2001 con i motori
Fastsearch e Google, in giugno 2001 avremmo dovuto utilizzare soltanto Fastsearch, visto che Google non trattava
più in modo utile i segni diacritici. Per i paragoni della tabella qui sotto abbiamo tenuto conto solo dei risultati di
Fastsearch, nell’agosto 200, nel gennaio 2001 e nel giugno 2001.
Tabella 11: Risultati di Fastsearch nell’agosto 2000, gennaio 2001, giugno 2001
Spagnolo
8,41%
9,46%
10,95%
Agosto 2000
Gennaio 2001
Giugno 2001
Francese
7,33%
7,89%
8,86%
Italiano
4,60%
4,93%
5,88%
Portoghese
3,95%
4,44%
5,40%
Romeno
0,37%
0,33%
0,32%
Tedesco
11,0%
11,4%
13,4%
La tabella seguente dà un’immagine delle attuali tendenze dell’evoluzione delle lingue studiate sulla Rete, partendo
dalle cifre precedenti.
Tabella 12: Tendenze dell'evoluzione
Tendenza attuale dell'evoluzione delle lingue nella rete
16%
14%
Spagnolo
% in relazione all'inglese
12%
Francese
10%
Italiano
8%
Portoghese
6%
Rumano
4%
Tedesco
2%
0
Fe 1
b
01
M
ar
01
Ap
r0
M 1
ag
01
G
iu
01
Lu
g
0
Ag 1
o
01
Se
t0
1
O
tt
01
G
en
00
00
ic
D
00
ov
N
0
O
tt
t0
Se
Ag
o
00
0%
6. Prospettive per un prosieguo dell'osservazione
Le condizioni logistiche sono adesso riunite per un reale e frequente prosieguo di questo studio. L’automatizzazione
della cattura dei risultati rende più facile la raccolta e l'interpretazione dei dati. Possiamo mantenere un osservatorio
dell'evoluzione della presenza delle lingue studiate, con misurazioni ogni 3 o 6 mesi.
La creazione di questo osservatorio esige un controllo permanente di quanto succede nel mondo dei motori di
ricerca, per poter determinare se i cambiamenti di procedura di un motore di ricerca lo squalifica per questo studio o
se al contrario un nuovo motore di ricerca può essere utilizzato ai fini dello studio. Ogni modifica dell'interfaccia di
un motore implica, anch'essa, un lavoro di programmazione dell'applicazione informatica che automatizza le
misurazioni.
Si può anche immaginare un allargamento dello studio ad altre lingue cominciando dall'insieme delle lingue parlate
nell'ambito dell'Unione Europea. Questo allargamento può richiedere del lavoro supplementare non solo a livello
della traduzione dei termini, ma probabilmente anche a livello di un aggiustamento della metodologia di ricerca
delle occorrenze, così come suggerito nel paragrafo 4.2.1.
Certamente, sarebbe auspicabile cominciare a fare delle misurazioni sulle lingue non europee, come per esempio il
quechua in America latina o il wolof in Africa. Nuovi partenariati linguistici saranno probabilmente necessari e
siamo pronti ad esaminare delle proposte in questo senso.
Resta anche da riprendere il lavoro iniziato nel primo studio su una misurazione, più soggettiva, del peso delle
culture sulla Rete. L'esperienza acquisita per l'automatizzazione sarà sicuramente utile.
Infine, l'approccio può permettere anche di iniziare degli studi trasversali per differenziare dei segmenti di
penetrazione linguistica sulla Rete (come per esempio, turismo, commercio elettronico o educazione).
Le piste sono aperte, bisogna solo trovare i partner e gli appoggi finanziari ...
7. Riferimenti, su Internet, dei lavori correlati
Lo studio precedente cita un certo numero di riferimenti. Ecco come completare la lista :
Riferimenti sui motori di ricerca :
http://www.searchenginewatch.com
http://www.searchengineshowdown.com
Risultati parziali dello studio di Inktomi :
http://www.inktomi.com/webmap/
Numero di internauti per lingua :
http://www.glreach.com/globstats/index.php3
Studio di cyveillance sull'ampiezza del Web :
http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf
Studio realizzato per l'Internet Council :
http://usic.wslogic.com/intro.html
Allegato 1 : Sinossi e riferimenti dei diversi studi realizzati dagli autori
Tabella 13 : Sinossi e riferimenti dei diversi studi realizzati dagli autori
Data
e nome
3/96
L1
Diritti
d'autore
Funredes
Localizzazione
Internet
3/96
C1
Funredes
http://funredes.org/LC/C1
3/97
L2
Funredes
http://funredes.org/LC/L2
3/98
L3
Funredes 26
http://funredes.org/LC/L3
9/98
L4
Agence de la
francophonie
http://www.unilat.org/dtil/le
nguainternet/it/lingua/indic
e_lingua.htm
Funredes
http://funredes.org/LC/L1
Unione
Latina
9/98
C2
9/98
LC
2000-2001
L5
26
Agence de la
francophonie
Funredes
Unione
Latina
http://www.unilat.org/dtil/le
nguainternet/it/cultura/cultu
ra_indice.htm
http://funredes.org/LC
Funredes
Unione
Latina
http://www.unilat.org/dti
l/LI/index.htm
Con l’appoggio metodologico dell’Unione Latina
Descrizione
Primo studio lingua, basato sul francese, che prende in
considerazione lo spagnolo. Misurazioni comparative, con
AltaVista, della presenza di parole nel WWW, in inglese,
in francese e in spagnolo, partendo da un campione di 50
concetti determinati senza rigore metodologico sul piano
linguistico. Risultato molto approssimativo, che mostra un
rapporto
inglese/francese
dell'ordine
di
22
e
francese/spagnolo dell'ordine di 2.4.
Primo studio culturale, basato sulla francofonia, tiene
conto dell'ispanità. Misurazioni comparative, con
AltaVista, del numero di personalità culturalmente
rappresentative, nelle pagine web : circa 500 personalità
divise su 13 categorie. Il risultato, soggettivo, dimostra una
presenza abbastanza importante dei rappresentanti della
cultura francofona, rispetto ai nordamericani nei campi in
cui la cultura e il commercio non sono confusi.
Semplice aggiornamento dello studio lingua, che mostra
una debole progressione del francese rispetto all'inglese e
una forte progressione dello spagnolo.
Importante aggiornamento, presentato alla conferenza
"Visionarios" a Caracas.
• Analisi dei limiti dei motori di ricerca e della
presenza relativa dei diacritici. Raccomandazione
per l'abbandono di AltaVista e l'utilizzo di
HotBot.
• Il "metodo del complemento dell'insieme vuoto "
applicato ad AltaVista dà un ordine di grandezza
delle lingue derivato dall'algoritmo di
riconoscimento delle lingue di AltaVista.
• Valutazione critica dei risultati dello studio di Alis
Technologies.
Il francese continua la sua lenta progressione e lo spagnolo
è ora molto vicino al francese.
Importanti cambiamenti nel metodo e nell'ottenimento di
risultati rigorosi.
• Considerazione di tutte le lingue latine: spagnolo,
francese, italiano, portoghese, romeno.
• Definizione di un campione che risponda a dei
criteri linguistici rigorosi.
• Valutazione dell'aiuto di HotBot nello spazio
WWW.
• Valutazione dello spazio Usenet all'aiuto di
DejaNews.
• Instaurazione degli intervalli di confidenza a 90%
e 99%.
• Ponderazione dei risultati in funzione
dell'ampiezza degli spazi linguistici.
Secondo studio culturale, 3 anni dopo.
Nessuna differenza importante per lo studio sulla presenza
culturale francofona.
• Utilizzo della stessa metodologia, miglioramento
comunque riguardo alle categorie, alla scelta e al
numero dei personaggi, estensione a dei
personaggi che parlano tutte le lingue latine.
• Analisi di certi risultati per lingua e nella lingua di
riferimento.
Pagina di guardia dell'insieme degli studi lingue e culture.
•
•
Estensione dello studio al tedesco.
Selezione, dopo uno studio approfondito, dei
motori di ricerca Google e Fastsearch, poi soltanto
•
•
•
di Fastsearch. Misurazione solo nello spazio
WWW.
Automatizzazione dei calcoli con l'aiuto di un
programma che abbia il ruolo di fare da
interfaccia tra i termini da misurare e i motori di
ricerca.
Correzione degli errori relativi all'ortografia di
certi termini del campione come pure l'omissione
di certi altri.
Inizio della sistematizzazione delle misurazioni e
dell'offerta di curve d'estrapolazione.
Allegato 2 : Visualizzazione degli intervalli di confidenza dei risultati
per lingua
Tabella 14 : Visualizzazione degli intervalli di confidenza
Spagnolo
Francese
Italiano
Portuguese
Rumeno
Tedesco
En %
0
1
2
3
4
Scarto a 90%
5
6
7
Scarto a 99%
8
9
10
11
Allegato 3 : Lista dei termini del campione di riferimento
In corsivo: forma suscettibile di essere presente ma "incorretta". Il caso più frequente corrisponde a dei termini
scritti senza segni diacritici.
In MAIUSCOLO : variante che presenta una omografia interlinguistica percepita, variante composta da meno di
quattro caratteri (forte rischio di omografia con una sigla) o variante di portata sintattica o semantica maggiore di
quelle degli equivalenti nelle altre lingue.
Tabella 15 : Lista dei termini del campione di riferimento
INGLESE
(EN)
1 ambiguity
ambiguities
ambiguousne
ss
ambiguousne
sses
SPAGNOLO
(ES)
ambigüedad
ambiguedad
ambigüedad
es
ambiguedad
es
FRANCESE
(FR)
ambiguïté
ambiguite
ambiguïtés
ambiguites
ITALIAN
O (IT)
ambiguit
à
ambiguit
a
PORTOGHESE
(PT)
ambigüidade
ambiguidade
ambigüidades
ambiguidades
ROMENO
(RO)
ambiguitate
ambiguitatea
ambiguităţii
ambiguitatii
ambiguităţi
ambiguitati
ambiguităţile
ambiguitatile
ambiguităţilor
ambiguitatilor
2 causality
causalidad
causalité
causalità causalidade
cauzalitate
causalities
CAUSALIDA causalite
causalita CAUSALIDADES cauzalitatea
DES
causalités
cauzalităţii
causalites
cauzalitatii
cauzalităţi
cauzalitati
cauzalităţile
cauzalitatile
cauzalităţilor
cauzalitatilor
3 cheese
queso
fromage
formaggi queijo
brânză
cheeses
quesos
fromages
o
queijos
branza
formaggi
brânze
branze
brânza
brânzele
branzele
brânzei
branzei
brânzelor
branzelor
brânzeturi
branzeturi
brânzeturile
branzeturile
brânzeturilor
branzeturilor
4 compatibility compatibilid compatibilit compatibi compatibilidade compatibilitate
compatibilitie ad
é
lità
COMPATIBILID compatibilitate
s
COMPATIBIL compatibilit compatibi ADES
a
IDADES
e
lita
compatibilităţii
compatibilit
compatibilitatii
és
compatibilităţi
compatibilit
compatibilitati
es
compatibilităţil
e
compatibilitatil
e
compatibilităţil
or
compatibilitatil
or
TEDESCO
(DE)
ambiguität
ambiguitat
ambiguitaet
ambiguitäten
ambiguitaten
ambiguitaeten
doppeldeutigkeit
doppeldeutigkeiten
zweideutigkeit
zweideutigkeiten
kausalität
kausalitat
kausalitaet
kausalitäten
kausalitaten
kausalitaeten
käse
kase
kaese
käsen
kasen
kaesen
kompatibilität
kompatibilitat
kompatibilitaet
kompatibilitäten
kompatibilitaten
kompatibilitaeten
vereinbarkeit
vereinbarkeiten
5 contiguity
contiguities
contigüidad
contiguidad
CONTIGÜID
ADES
CONTIGUID
ADES
contiguïté
contiguite
contiguïtés
contiguites
contiguità contigüidade
contiguita contiguidade
CONTIGÜIDADE
S
CONTIGUIDADE
S
6 dangerous
peligroso
peligrosa
peligrosos
peligrosas
dangereux
dangereuse
dangereuse
s
pericolos
o
pericolos
a
pericolosi
pericolos
e
7 december
diciembre
perigoso
perigosa
perigosos
perigosas
décembre
decembre
densidad
densité
DENSIDADE densite
S
densités
densites
dicembre dezembro
9 disparity
disparities
disparidad
disparité
DISPARIDAD disparite
ES
disparités
disparites
disparità
disparita
1 divisibility
0 divisibilities
divisibilidad divisibilité
DIVISIBILID divisibilite
ADES
divisibilités
divisibilites
divisibilit
à
divisibilit
a
1 elasticity
1 elasticities
elasticidad
élasticité
ELASTICIDA elasticite
DES
élasticités
elasticites
elasticità
elasticita
8 DENSITY
DENSITIES
densità
densita
densidade
DENSIDADES
contiguitate
contiguitatea
contiguităţii
contiguitatii
contiguităţi
contiguitati
contiguităţile
contiguitatile
contiguităţilor
contiguitatilor
primejdios
primejdioasă
primejdioasa
primejdioase
primejdioşi
primejdiosi
decembrie
densitate
densitatea
densităţii
densitatii
densităţi
densitati
densităţile
densitatile
densităţilor
densitatilor
disparidade
disparitate
DISPARIDADES disparitatea
disparităţii
disparitatii
disparităţi
disparitati
disparităţile
disparitatile
disparităţilor
disparitatilor
divisibilidade
divizibilitate
DIVISIBILIDAD divizibilitatea
ES
divizibilităţii
divizibilitatii
divizibilităţi
divizibilitati
divizibilităţile
divizibilitatile
divizibilităţilor
divizibilitatilor
elasticidade
elasticitate
ELASTICIDADE elasticitatea
S
elasticităţii
elasticitatii
elasticităţi
elasticitati
elasticităţile
elasticitatile
elasticitităţilor
elasticitatilor
kontiguität
kontiguitat
kontiguitaet
kontiguitäten
kontiguitaten
kontiguitaeten
GEFÄHRLICH
GEFAHRLICH
GEFAEHRLICH
gefährliche
gefahrliche
gefaehrliche
gefährlicher
gefahrlicher
gefaehrlicher
gefährliches
gefahrliches
gefaehrliches
gefährlichen
gefahrlichen
gefaehrlichen
gefährlichem
gefahrlichem
gefaehrlichem
dezembers
dezembern
dichte
DICHTEN
dichtheit
dichtheiten
dichtigkeit
dichtigkeiten
disparität
disparitat
disparitaet
disparitäten
disparitaten
disparitaeten
divisibilität
divisibilitat
divisibilitaet
divisibilitäten
divisibilitaten
divisibilitaeten
teilbarkeit
teilbarkeiten
dehnbarkeit
dehnbarkeiten
elastizität
elastizitat
elastizitaet
elastizitäten
elastizitaten
elastizitaeten
1 electricity
2 electricities
electricidad électricité
ELECTRICID electricite
ADES
électricités
electricites
elettricità electricidade
elettricita eletricidade
ELECTRICIDAD
ES
eletricidades
1 february
3
febrero
février
fevrier
febbraio
fevereiro
1 femininity
4 femininities
feminidad
femineidad
FEMINIDADE
S
femineidade
s
féminité
feminite
féminités
feminites
femminili
tà
femminili
ta
feminidade
feminilidade
FEMINIDADES
feminilidades
1 fertility
5 fertilities
fertilidad
fertilité
FERTILIDAD fertilite
ES
fertilités
fertilites
1 fidelity
fidelidad
6 fidelities
FIDELIDADE
faithfulness
S
faithfulnesses
fidélité
fidelite
fidélités
fidelites
1 fraternity
fraternidad
7 fraternities
FRATERNIDA
brotherhood DES
brotherhoods
fraternité
fraternite
fraternités
fraternites
1 friday
8 fridays
vendredi
vendredis
viernes
electricitate
electricitatea
electricităţii
electricitatii
electricităţi
electricitati
electricităţile
electricitatile
electricităţilor
electricitatilor
februarie
feminitate
feminitatea
feminităţii
feminitatii
feminităţi
feminitati
feminităţile
feminitatile
feminităţilor
feminitatilor
fertilità
fertilidade
fertilitate
fertilita
FERTILIDADES fertilitatea
fertilităţii
fertilitatii
fertilităţi
fertilitati
fertilităţile
fertilitatile
fertilităţilor
fertilitatilor
fedeltà
fidelidade
fidelitate
fedelta
FIDELIDADES
fidelitatea
fidelităţii
fidelitatii
fidelităţi
fidelitati
fidelităţile
fidelitatile
fidelităţilor
fidelitatilor
fraternità fraternidade
fraternitate
fraternita FRATERNIDADE fraternitatea
fratellanz S
fraternităţii
a
fraternitatii
fratellanz
fraternităţi
e
fraternitati
fraternităţile
fraternitatile
fraternităţilor
fraternitatilor
venerdì
venerdi
sexta-feira
sextas-feiras
vineri
vinerea
elektrizität
elektrizitat
elektrizitaet
elektrizitäten
elektrizitaten
elektrizitaeten
STROM
februar
februars
februare
februaren
femininität
femininitat
femininitaet
femininitäten
femininitaten
femininitaeten
weiblichkeit
weiblichkeiten
fertilität
fertilitat
fertilitaet
fertilitäten
fertilitaten
fertilitaeten
fruchtbarkeit
fruchtbarkeiten
TREUE
TREUEN
brüderlichkeit
bruderlichkeit
bruederlichkeit
brüderlichkeiten
bruderlichkeiten
bruederlichkeiten
fraternität
fraternitat
fraternitaet
fraternitäten
fraternitaten
fraternitaeten
freitag
freitags
freitages
freitage
freitagen
1 heterosexuali heterosexual
9 ty
idad
heterosexuali heterosexual
ties
idades
hétérosexua
lité
heterosexua
lite
hétérosexua
lités
heterosexua
lites
2 homosexualit homosexuali
0 y
dad
homosexualiti homosexuali
es
dades
homosexual
ité
homosexual
ite
homosexual
ités
homosexual
ites
2 horse
1 horses
caballo
caballos
cheval
chevaux
2 humidity
2 humidities
humedad
humedades
humidité
humidite
humidités
humidites
2 illness
3 illnesses
sickness
sicknesses
disease
diseases
2 immortality
4 immortalities
enfermedad
enfermedad
es
MALADIE
maladies
inmortalidad immortalité
inmortalidad immortalite
es
immortalité
s
immortalite
s
eterosess
ualità
eterosess
ualita
heterossexualid
ade
heterossexualid
ades
heterosexualita
te
heterosexualita
tea
heterosexualită
ţii
heterosexualita
tii
heterosexualită
ţi
heterosexualita
ti
heterosexualită
ţile
heterosexualita
tile
heterosexualită
ţilor
heterosexualita
tilor
omosess homossexualida homosexualitat
ualità
de
e
omosess homossexualida homosexualitat
ualita
des
ea
homosexualităţ
ii
homosexualitat
ii
homosexualităţ
i
homosexualitat
i
homosexualităţ
ile
homosexualitat
ile
homosexualităţ
ilor
homosexualitat
ilor
cavallo
cavalo
CAL
cavalli
cavalos
CAI
calul
CAII
calului
cailor
calule
umidità
humidade
umiditate
umidita
umidade
umiditatea
humidades
umidităţii
umidades
umiditatii
umidităţi
umiditati
umidităţile
umiditatile
umidităţilor
umiditatilor
malattia doença
boală
malattie doenca
BOLI
infermità doenças
boala
infermita doencas
bolile
enfermidade
bolii
enfermidades
bolilor
immortali imortalidade
imortalitate
tà
imortalidades
imortalitatea
immortali
imortalităţii
ta
imortalitatii
imortalităţi
imortalitati
imortalităţile
imortalitatile
imortalităţilor
imortalitatilor
heterosexualität
heterosexualitat
heterosexualitaet
heterosexualitäten
heterosexualitaten
heterosexualitaeten
homosexualität
homosexualitat
homosexualitaet
homosexualitäten
homosexualitaten
homosexualitaeten
pferd
pferdes
pferds
pferde
pferden
feuchtigkeit
feuchtigkeiten
humidität
humiditat
humiditaet
humiditäten
humiditaten
humiditaeten
krankheit
krankheiten
seuche
seuchen
immortalität
immortalitat
immortalitaet
immortalitäten
immortalitaten
immortalitaeten
unsterblichkeit
unsterblichkeiten
2 immunity
5 immunities
inmunidad
immunité
inmunidades immunite
immunités
immunites
immunità imunidade
immunita imunidades
imunitate
imunitatea
imunităţii
imunitatii
imunităţi
imunitati
imunităţile
imunitatile
imunităţilor
imunitatilor
2 incompatibilit incompatibili incompatibil incompati incompatibilida incompatibilitat
6 y
dad
ité
bilità
de
e
incompatibiliti INCOMPATIB incompatibil incompati INCOMPATIBILI incompatibilitat
es
ILIDADES
ite
bilita
DADES
ea
incompatibil
incompatibilităţ
ités
ii
incompatibil
incompatibilitat
ites
ii
incompatibilităţ
i
incompatibilitat
i
incompatibilităţ
ile
incompatibilitat
ile
incompatibilităţ
ilor
incompatibilitat
ilor
2 infallibility
infalibilidad infaillibilité infallibilit infalibilidade
infaibilitate
7 infallibilities
INFALIBILID infaillibilite à
INFALIBILIDAD infaibilitatea
ADES
infaillibilités infallibilit ES
infaibilităţii
infaillibilites a
infaibilitatii
infaibilităţi
infaibilitati
infaibilităţile
infaibilitatile
infaibilităţilor
infaibilitatilor
2 inferiority
inferioridad infériorité
inferiorità inferioridade
inferioritate
8 inferiorities
INFERIORID inferiorite
inferiorita INFERIORIDAD inferioritatea
ADES
infériorités
ES
inferiorităţii
inferiorites
inferioritatii
inferiorităţi
inferioritati
inferiorităţile
inferioritatile
inferiorităţilor
inferioritatilor
2 infidelity
infidelidad
infidélité
infedeltà infidelidade
infidelitate
9 infidelities
INFIDELIDA infidelite
infedelta INFIDELIDADES infidelitatea
unfaithfulnes DES
infidélités
infidelităţii
s
infidelites
infidelitatii
unfaithfulnes
infidelităţi
ses
infidelitati
infidelităţile
infidelitatile
infidelităţilor
infidelitatilor
3 instability
inestabilidad instabilité
instabilità instabilidade
instabilitate
0 instabilities
inestabilidad instabilite
instabilita instabilidades
instabilitatea
es
instabilités
instabilităţii
instabilites
instabilitatii
instabilităţi
instabilitati
instabilităţile
instabilitatile
instabilităţilor
instabilitatilor
immunität
immunitat
immunitaet
immunitäten
immunitaten
immunitaeten
inkompatibilität
inkompatibilitat
inkompatibilitaet
inkompatibilitäten
inkompatibilitaten
inkompatibilitaeten
unvereinbarkeit
unvereinbarkeiten
infallibilität
infallibilitat
infallibilitaet
infallibilitäten
infallibilitaten
infallibilitaeten
unfehlbarkeit
unfehlbarkeiten
inferiorität
inferioritat
inferioritaet
inferioritäten
inferioritaten
inferioritaeten
minderwertigkeit
minderwertigkeiten
UNTREUE
UNTREUEN
treulosigkeit
treulosigkeiten
instabilität
instabilitat
instabilitaet
instabilitäten
instabilitaten
instabilitaeten
unbeständigkeit
unbestandigkeit
unbestaendigkeit
unbeständigkeiten
unbestandigkeiten
unbestaendigkeiten
3 inviolability
1 inviolabilities
3 irregularity
2 irregularities
unevenness
unevennesse
s
inviolabilida
d
INVIOLABILI
DADES
inviolabilité
inviolabilite
inviolabilités
inviolabilites
inviolabili inviolabilidade
t
INVIOLABILIDA
inviolabili DES
ta
inviolabilitate
inviolabilitatea
inviolabilităţii
inviolabilitatii
inviolabilităţi
inviolabilitati
inviolabilităţile
inviolabilitatile
inviolabilităţilor
inviolabilitatilor
irregularidad irrégularité irregolarit irregularidade
iregularitate
IRREGULARI irregularite à
IRREGULARIDA iregularitatea
DADES
irrégularités irregolarit DES
iregularităţii
irregularites a
iregularitatii
iregularităţi
iregularitati
iregularităţile
iregularitatile
iregularităţilor
iregularitatilor
3 irresponsibilit irresponsabil
3 y
idad
irresponsibilit IRRESPONS
ies
ABILIDADES
irresponsabi
lité
irresponsabi
lite
irresponsabi
lités
irresponsabi
lites
irrespons
abilità
irrespons
abilita
irresponsabililid
ade
IRRESPONSABI
LIDADES
3 june
4
junio
juin
giugno
junho
3 knee
5 knees
rodilla
rodillas
genou
genoux
ginocchio joelho
ginocchia joelhos
ginocchi
3 KNIFE
6 KNIVES
cuchillo
cuchillos
couteau
couteaux
coltello
coltelli
FACA
FACAS
unverletzlichkeit
unverletzlichkeiten
unverletzbarkeit
unverletzbarkeiten
irregularität
irregularitat
irregularitaet
irregularitäten
irregularitaten
irregularitaeten
unregelmäßigkeit
unregelmässigkeit
unregelmassigkeit
unregelmaessigkeit
unregelmäßigkeiten
unregelmässigkeite
n
unregelmassigkeite
n
unregelmaessigkeit
en
irresponsabilität
irresponsabilitat
irresponsabilitaet
irresponsabilitäten
irresponsabilitaten
irresponsabilitaeten
unverantwortbarkei
t
unverantwortbarkei
ten
unverantwortlichkei
t
unverantwortlichkei
ten
verantwortungslosi
gkeit
verantwortungslosi
gkeiten
iresponsabilitat
e
iresponsabilitat
ea
iresponsabilităţ
ii
iresponsabilitat
ii
iresponsabilităţ
i
iresponsabilitat
i
iresponsabilităţ
ile
iresponsabilitat
ile
iresponsabilităţ
ilor
iresponsabilitat
ilor
iunie
juni
junis
JUNO
genunchi
knie
genunchiul
knies
genunchii
knie
genunchiului
KNIEN
genunchilor
cuţit
cutit
MESSER
cuţite
MESSERS
cutite
MESSERN
cuţitul
cutitul
cuţitele
cutitele
cuţitului
cutitului
cuţitelor
cutitelor
3 LUNG
7 lungs
pulmón
pulmon
pulmones
3 masculinity
8 masculinities
masculinida
d
MASCULINI
DADES
3 monday
9 mondays
lunes
lundi
lundis
lunedì
lunedi
segunda-feira
luni
segundas-feiras lunea
4 october
0
octubre
octobre
ottobre
outubro
4 parity
1 parities
equality
equalities
igualdad
IGUALDADE
S
paridad
PARIDADES
égalité
egalite
égalités
egalites
parité
parite
parités
parites
eguaglian
za
eguaglian
ze
uguglianz
a
uguglianz
e
parità
parita
igualdade
IGUALDADES
paridade
PARIDADES
4
2
4
3
poumon
poumons
polmone
polmoni
pulmão
pulmao
pulmões
pulmoes
plămân
plaman
plămâni
plamani
plămânul
plamanul
plămânii
plamanii
plămânului
plamanului
plămânilor
plamanilor
masculinité mascolini masculinidade
masculinitate
masculinite tà
MASCULINIDAD masculinitatea
masculinités mascolini ES
masculinităţii
masculinites ta
masculinitatii
masculinităţi
masculinitati
masculinităţile
masculinitatile
masculinităţilor
masculinitatilor
octombrie
egalitate
egalitatea
egalităţii
egalitatii
egalităţi
egalitati
egalităţile
egalitatile
egalităţilor
egalitatilor
paritate
paritatea
parităţii
paritatii
parităţi
paritati
parităţile
paritatile
parităţilor
paritatilor
probability
probabilidad probabilité probabilit probabilidade
probabilitate
probabilities PROBABILID probabilite à
PROBABILIDAD probabilitatea
likelihood
ADES
probabilités probabilit ES
probabilităţii
likelihoods
probabilites a
probabilitatii
probabilităţi
probabilitati
probabilităţile
probabilitatile
probabilităţilor
probabilitatilor
productivity
productivida productivité produttivi produtividade
productivitate
productivities d
productivite tà
produtividades productivitatea
productivene productivida productivité produttivi
productivităţii
ss
des
s
ta
productivitatii
productivene
productivite
productivităţi
sses
s
productivitati
productivităţile
productivitatile
productivităţilo
r
productivitatilo
r
lunge
lungen
männlichkeit
mannlichkeit
maennlichkeit
männlichkeiten
mannlichkeiten
maennlichkeiten
maskulinität
maskulinitat
maskulinitaet
maskulinitäten
maskulinitaten
maskulinitaeten
montag
MONTAGES
montags
MONTAGE
MONTAGEN
oktober
oktobers
oktobern
egalität
egalitat
egalitaet
egalitäten
egalitaten
egalitaeten
gleichheit
gleichheiten
gleichstellung
gleichstellungen
gleichberechtigung
gleichberechtigung
en
parität
paritat
paritaet
paritäten
paritaten
paritaeten
probabilität
probabilitat
probabilitaet
probabilitäten
probabilitaten
probabilitaeten
wahrscheinlichkeit
wahrscheinlichkeite
n
produktivität
produktivitat
produktivitaet
produktivitäten
produktivitaten
produktivitaeten
4 puberty
4 puberties
pubertad
pubertades
puberté
puberte
pubertés
pubertes
pubertà
puberta
puberdade
puberdades
pubertate
pubertatea
pubertăţii
pubertatii
pubertăţi
pubertati
pubertăţile
pubertatile
pubertăţilor
pubertatilor
responsabilitat
e
responsabilitat
ea
responsabilităţi
i
responsabilitati
i
responsabilităţi
responsabilitati
responsabilităţi
le
responsabilitati
le
responsabilităţi
lor
responsabilitati
lor
sexualitate
sexualitatea
sexualităţii
sexualitatii
sexualităţi
sexualitati
sexualităţile
sexualitatile
sexualităţilor
sexualitatilor
singularitate
singularitatea
singularităţii
singularitatii
singularităţi
singularitati
singularităţile
singularitatile
singularităţilor
singularitatilor
superioritate
superioritatea
superiorităţii
superioritatii
superiorităţi
superioritati
superiorităţile
superioritatile
superiorităţilor
superioritatilor
4 responsibility responsabili
5 responsibilitie dad
s
RESPONSAB
liability
ILIDADES
liabilities
responsabili
té
responsabili
te
responsabili
tés
responsabili
tes
responsa
bilità
responsa
bilita
responsabilidad
e
RESPONSABILI
DADES
4 sexuality
6 sexualities
sexualidad
SEXUALIDA
DES
sexualité
sexualite
sexualités
sexualites
sessualità sexualidade
sessualita SEXUALIDADES
4 singularity
7 singularities
singularidad singularité
SINGULARID singularite
ADES
singularités
singularites
singolarit singularidade
à
SINGULARIDAD
singolarit ES
a
4 superiority
8 superiorities
superioridad supériorité
SUPERIORID superiorite
ADES
supériorités
superiorites
superiorit superioridade
à
SUPERIORIDAD
superiorit ES
a
4 thursday
9 thursdays
jueves
jeudi
jeudis
giovedì
giovedi
quinta-feira
quintas-feiras
JOI
JOIA
5 today
0
HOY
aujourde
hui
oggi
hoje
AZI
astăzi
astazi
pubertät
pubertat
pubertaet
pubertäten
pubertaten
pubertaeten
responsabilität
responsabilitat
responsabilitaet
responsabilitäten
responsabilitaten
responsabilitaeten
verantwortung
verantwortungen
sexualität
sexualitat
sexualitaet
sexualitäten
sexualitaten
sexualitaeten
einzigartigkeit
einzigartigkeiten
singularität
singularitat
singularitaet
singularitäten
singularitaten
singularitaeten
superiorität
superioritat
superioritaet
superioritäten
superioritaten
superioritaeten
überlegenheit
uberlegenheit
ueberlegenheit
überlegenheiten
uberlegenheiten
ueberlegenheiten
donnerstag
donnerstages
donnerstags
donnerstage
donnerstagen
heute
5 truth
1 truths
verdad
VERDADES
vérité
verite
vérités
verites
verità
verita
verdade
VERDADES
5 tuesday
2 tuesdays
martes
MARDI
mardis
martedì
martedi
terça-feira
terca-feira
terças-feiras
tercas-feiras
5 uniformity
3 uniformities
uniformidad
UNIFORMID
ADES
uniformité
uniformite
uniformités
uniformites
uniformit uniformidade
à
UNIFORMIDADE
uniformit S
a
adevăr
adevar
adevărul
adevarul
adevărului
adevarului
adevăruri
adevaruri
adevărurile
adevarurile
adevărurilor
adevarurilor
marţi
MARTI
marţea
martea
uniformitate
uniformitatea
uniformităţii
uniformitatii
uniformităţi
uniformitati
uniformităţile
uniformitatile
uniformităţilor
uniformitatilor
5 universality
universalida universalité universali universalidade universalitate
4 universalities d
universalite tà
UNIVERSALIDA universalitatea
UNIVERSALI universalité universali DES
universalităţii
DADES
s
ta
universalitatii
universalite
universalităţi
s
universalitati
universalităţile
universalitatile
universalităţilor
universalitatilor
5 university
universidad université
università universidade
universitate
5 universities
UNIVERSIDA universite
universita UNIVERSIDADE universitatea
DES
universités
S
universităţii
universites
universitatii
universităţi
universitati
universităţile
universitatile
universităţilor
universitatilor
5 wednesday
miércoles
mercredi
mercoledì quarta-feira
miercuri
6 wednesdays miercoles
mercredis
mercoledi quartas-feiras
miercurea
5 yellow
7
amarillo
amarilla
amarillos
amarillas
jaune
jaunes
giallo
gialla
gialli
gialle
amarelo
amarela
amarelos
amarelas
galben
galbenă
galbena
galbeni
galbene
wahrheit
wahrheiten
dienstag
dienstages
dienstags
dienstage
dienstagen
uniformität
uniformitat
uniformitaet
uniformitäten
uniformitaten
uniformitaeten
universalität
universalitat
universalitaet
universalitäten
universalitaten
universalitaeten
universität
universitat
universitaet
universitäten
universitaten
universitaeten
mittwoch
mittwoches
mittwochs
mittwoche
mittwochen
gelb
gelbe
gelber
gelbes
gelben
gelbem
Allegato 4 : Selezione dei motori di ricerca per lo studio L5
Introduzione
I motori di ricerca utilizzati per l'ultimo studio si sono evoluti, mentre altri sono apparsi negli ultimi due anni. Un
lavoro sistematico di analisi della compatibilità dei motori disponibili con la metodologia utilizzata per questo studio
si è reso necessario. Delle incompatibilità hanno condotto a scartare un certo numero di motori. I motori di ricerca
che furono selezionati (si veda il capitolo 4.1.1) sono : AltaVista, Fastsearch (Alltheweb), Google, Infoseek, iWon e
Northernlight. Dunque sei motori, indipendenti gli uni dagli altri, anzi anche in concorrenza sul mercato della ricerca
per parola chiave su Internet.
È apparso che i risultati delle misurazioni di presenza nelle pagine della Rete dei termini del nostro campione
variano sensibilmente secondo il motore di ricerca utilizzato. Per tentare di capire questo fenomeno che rischierebbe
di squalificare definitivamente la nostra metodologia, dal mese di agosto 2000 è stato fatto uno studio che prende in
considerazione i seguenti elementi, suscettibili di avere un'influenza sulla validità dei risultati :
- il numero di pagine indicizzate,
- il modo in cui vengono selezionate le pagine indicizzate,
- la coerenza dei risultati dei conteggi presentati.
I risultati per motore e per lingua
I risultati qui di seguito segnalati (tabella 16) presentano il totale del numero di pagine Internet che comportano
ognuno i 1600 varianti dello studio nell’agosto 2000. La colonna dell'inglese dà il totale di pagine calcolate (in
milioni) per motore di ricerca per l'insieme dei termini in inglese. Le cifre contenute nelle altre colonne
rappresentano, per ogni lingua, la percentuale, rispetto all'inglese, del numero totale di pagine calcolate. Per
esempio, per iWon : 212 milioni di pagine sono state calcolate per i termini in inglese e 2,14 milioni per il
portoghese (1,01% di 212).
Tabella 16 : Risultati dello studio per i 6 motori di ricerca preselezionati
AltaVista
Fast
Google
Infoseek
IWon
Northern
Light
Inglese
188 M
147M
210M
37M
212M
145M
Spagnolo
9,28%
8,41%
7,86%
2,49%
4,13%
6,32%
Francese
9,56%
7,33%
7,33%
3,97%
2,64%
5,26%
Italiano Portoghese
4,50%
3,98%
4,60%
3,95%
4,65%
2,82%
2,98%
0,96%
0,69%
1,01%
3,66%
3,50%
Romeno
0,19%
0,37%
0,27%
0,03%
0,35%
0,26%
Tedesco
16,06%
8,47%
7,89%
5,39%
5,44%
5,23%
Come si può constatare, i risultati, al di fuori di quelli di Fast e Google, offrono degli scarti importanti secondo il
motore di ricerca utilizzato, il che molto seriamente rimette in discussione la validità del nostro metodo. Si rende
dunque necessario analizzare le specificità di ogni motore utilizzato per capire la ragione di questo scarto e anche
per determinare quali sono i motori che forniscono dei risultati rigorosi secondo i nostri criteri.
Una analisi dei motori di ricerca esige prima di tutto una conoscenza delle caratteristiche quantitative di Internet.
Dati relativi a Internet e ai motori di ricerca
Qual è il volume della Rete?
Si dispone di alcuni dati a questo proposito :
Nel gennaio 2000, Inktomi afferma che il web ha superato il miliardo di pagine (che sarebbero state
preindicizzate da questo motore).
Accessoriamente, Inktomi annuncia la cifra di 86,55% di pagine in inglese e di 2,36% di pagine in francese.
Stupisce constatare che il risultato del francese è molto vicino ai valori che troviamo per il motore di ricerca iWon
(che utilizza l'indice di Inktomi). Tuttavia, la cifra dell'inglese sembra essere vittima di un errore di referenziale (si
veda 4.4.2).
Nuova cifra di Inktomi nel maggio 2000 : 1,5 miliardi di pagine. Inktomi sottolinea che la proporzione di
pagine replicate in alcuni siti specchio è superiore al 20% (sui 6,5 milioni di server indicizzati si trovavano 1,5
milioni di specchi).
Studio di cyveillance search : 2,1 miliardi di pagine nel luglio 2000, con una crescita esponenziale di 7
milioni di nuove pagine al giorno. Questo studio assicura che l'84,7% di pagine sul web sono in inglese.
I motori di ricerca con gli indici più ampi.
La competizione fa rabbia nel mercato dei motori di ricerca: questo provoca una forte motivazione per
l'accrescimento dell'ampiezza degli indici. I leaders nel campo dell'indicizzazione del web attualmente sono :
Google : un miliardo di pagine indicizzat227.
Webtop : 500 milioni di pagine indicizzate ma non ancora sufficientemente testate.
Inktomi : il nuovo indice di Inktomi, GEN3, che non è ancora stato ufficialmente utilizzato dai suoi partner
(Hotbot, Snap, iWon), dovrebbe contenere 500 milioni di pagine (contro 110 per il vecchio). Test effettuati da
Searchengine Watch (http:www.searchenginewatch.com ) indicano che iWon utilizza già questo indice ampliato. Di
fatto, iWon dà dei risultati simili a quelli di Google per quanto riguarda il numero totale di pagine calcolate in
inglese.
AltaVista : 350 milioni di pagine.
Fastsearch : 340 milioni di pagine, con l'obiettivo di giungere a 1 miliardo da qui alla fine dell'anno.
Northern Light : 265 milioni di pagine.
È importante constatare che i motori indicizzano una proporzione notevole dell'universo che ci interessa (tra il 25 e
il 50%) il che rende possibile l'applicazione della nostra metodologia senza troppi intoppi sul piano statistico28.
Come vengono indicizzate le pagine?
Bisogna notare che tutte le pagine individuate dai motori di ricerca non sono incluse nell'indice. La tabella seguente
indica il numero di pagine realmente presenti nell'indice di certi motori in rapporto al volume annunciato
dell'universo indicizzato29.
AltaVista
Fast
Excite
Inktomi
PAGINE
ANALIZZATE
(milioni)
400
700
920
1000
PAGINE
INDICIZZATE
(milioni)
250
400
250
110
È interessante capire come viene fatta la riduzione e come questo può colpire la validità dei risultati del nostro
studio. Sono stati identificati due diversi approcci :
1.
Inktomi : Un indice di base di 110 milioni di pagine selezionate e classificate a partire da una fonte di 1
miliardo di pagine. Il criterio di selezione per l'indice di base è di considerare soltanto le pagine il cui URL è
citato in modo più forte (cioè le pagine che sono oggetto del più ampio numero di links esterni). Questa tecnica
permette di selezionare le pagine più riconosciute classificandole facilmente per ordine di "celebrità",
mantenendo un tempo di risposta debole grazie alla ridotta ampiezza dell'indice di lavoro. Questo approccio
assolutamente rispettabile dal punto di vista dell'obiettivo primario dei motori di ricerca è purtroppo
squalificante per l'applicazione della nostra metodologia perché la ripartizione statistica delle pagine è falsata da
un algoritmo che favorisce certe pagine in modo non neutro sul piano linguistico (le pagine più popolari,
dunque più spesso in inglese, avranno una maggiore probabilità di far parte dei 110 milioni di eletti). Questo
meccanismo dimostra chiaramente le sue conseguenze per il romeno (i termini romeni hanno dei punteggi
stranamente deboli, troppo spesso nulli).
2.
AltaVista, Excite, Fast e Google : Un indice più grande con una selezione meno forte e soprattutto
indipendente dal contenuto (vengono eliminati solo i siti specchio e quelli che danno degli errori 40130 o 40431).
Con questa tecnica, gli indici sono più ampi; se non danno per forza i risultati più coerenti in termini di
pertinenza, sono compatibili con la nostra metodologia in quanto non dovrebbero favorire una lingua a discapito
di un'altra. Si noti che Google conserva una immagine delle pagine nel momento in cui vengono messe nel suo
indice, il che permette di trovare l'informazione anche quando la pagina indicizzata è stata eliminata dalla Rete.
27
Sembra che la metà di queste non siano indicizzate direttamente, ma che sono oggetto di un algoritmo originale
che lavora a partire dal testo dei nessi verso queste pagine. Non disponiamo di sufficienti precisazioni sulla natura di
questo algoritmo per poter trarre delle conclusioni, ma sembra non essere d’impatto sulle nostre misurazioni.
28
Comunque, non è illecito pensare che per un campione dell’ordine del 25 al 50% dell'universo, possa esistere un
verso nella selezione dell’indice che favorisca le lingue più utilizzate, e in primo luogo l’inglese. In particolare, è
molto probabile che i siti più nuovi non siano indicizzati tanto velocemente quanto i siti più vecchi e che questo
rappresenti un pregiudizio statistico per le lingue giovani in Internet.
29
Le cifre presentate nel paragrafo precedente sono del marzo 2000, mentre queste sono del luglio 2000, il che
spiega le differenze.
30
Cioè una pagina ad eccesso limitato, non disponibile al grande pubblico.
31
Cioè una pagina inesistente in un sito referenziato correttamente.
Convalida dei motori di ricerca in funzione della nostra metodologia
AltaVista
AltaVista è, da parecchi anni, uno dei motori di ricerca più utilizzati sul web. Il suo indice resta uno dei più ampi;
tuttavia l'utilizzo di questo motore di ricerca nell'ambito del nostro studio non è, ancora una volta32, possibile.
Infatti :
• AltaVista "mutila i risultati "33. Questa disposizione viene presa da AltaVista per arrivare a ridurre il
tempo di risposta nel caso in cui il suo server è sovraccarico (il motore di ricerca può smettere di
trattare una ricerca e ne fornisce solo una risultato parziale).
• Come in occasione dello studio precedente, non ci è stato possibile stabilire la natura precisa della
gestione dei segni diacritici; se c'è una logica non ci è parsa chiara e in queste condizioni è impossibile
fare un lavoro serio.
• I valori pubblicati per i conteggi cambiano in modo aleatorio; per esempio si può ottenere un numero di
pagine diverse per la stessa richiesta se si guardano i risultati da 1 a 10 o da 11 a 20...
Infoseek
Infoseek ha una ampiezza dell'indice troppo debole per essere utilizzato nell'ambito della nostra metodologia (lo si
constata sulle cifre delle pagine in inglese : 36 milioni contro più di 150 per la maggior parte degli altri motori di
ricerca). Questa debolezza di indicizzazione dà un vantaggio all'inglese relativamente alle altre lingue presenti su
Internet.
iWon
iWon utilizza lo stesso indice di Hotbot (Inktomi), il motore che avevamo utilizzato nello studio precedente. La
tecnica della selezione delle pagine di Inktomi non è compatibile con la nostra metodologia come abbiamo spiegato
nel paragrafo precedente.
Northern Light
Questo motore non è stato utilizzato per il nostro studio perché non tratta i segni diacritici (in particolare, non
interpreta correttamente i segni utilizzati dal romeno). Inoltre, ricerca i plurali dei termini sistematicamente quando
si fanno delle ricerche in inglese, ma non nelle altre lingue.
Google
Questo motore, che vanta di avere l’indice più ampio nel Web, dà dei risultati rapidi. In un primo momento, era stato
scartato in quanto, come Altavista, troncava i suoi risultati. Dato che questo inconveniente è stato corretto, è stato
selezionato per l’ottenimento dei risultati finali. Comunque in occasione del conteggio del giugno 2001, visto che i
segni diacritici non venivano più trattati in modo soddisfacente, lo abbiamo scartato di nuovo.
Fastsearch
Fastsearch, che ha uno degli indici più ampi, dà dei risultati rapidi, non tronca i risultati, né restringe il proprio
indice ai siti più popolari e tratta i segni diacritici in modo soddisfacente. Così è stato il motore selezionato per lo
studio, in data giugno 2001.
Conclusione
Il motore di ricerca Fastsearch resta il solo, al momento delle ultime misurazioni (giugno 2001), a permettere di
utilizzare il nostro metodo per la misurazione della ripartizione delle lingue sulla Rete e è da questo motore che
derivano i risultati finali. Ma il fatto che le cifre prodotte da Fastsearch e da Google fino al gennaio 2001 erano
statisticamente molto vicine (gli intervalli di confidenza coincidevano ampiamente) è stato un elemento essenziale
per mantenere la fiducia nella validità del nostro.
32
AltaVista era stato scartato in occasione dello studio precedente per le stesse ragioni.
Cioè non prende in considerazione una parte delle pagine che rispondono al criterio di ricerca, il che produce una
riduzione del valore del conteggio, che dunque non corrisponde più alla realtà.
33
Allegato 5 : Interfaccia di automatizzazione dello studio L5
Introduzione
L'ottenimento di risultati nello studio del posto delle lingue latine su Internet passa attraverso un minuzioso lavoro,
lungo e ripetitivo di misurazione dei risultati forniti dai motori di ricerca. Infatti, ogni risultato finale (per motore di
ricerca) esige un conteggio del numero di pagine contenente ognuno circa 1200 varianti dei 57 termini considerati
(1600 da quando è stato aggiunto il tedesco). Questo processo viene seguito attraverso correzioni manuali per le 73
varianti che comportano dei problemi di omografia (in maiuscolo sulla tabella dei termini nell'allegato 3). I risultati
ottenuti per ogni variante in seguito vengono raggruppati per termine e si otterranno i 57 punteggi, questi classificati
per lingua. Poi si farà la media dei punteggi e si calcolerà il coefficiente per lingua per ottenere il risultato finale.
Senza dimenticare certamente la tappa minuziosa della verifica dei risultati di cui alcuni saranno stati senza dubbio
falsati da diversi errori di digitazione o di disattenzione dovuti alla successione di operazioni ripetitive...
Tutti questi risultati per variante, per termine o finali non sono assolutamente facili da utilizzare, un errore trovato a
posteriori nella copiatura di un punteggio necessita il ricalcolo sistematico del suo termine associato come pure il
ricalcolo delle statistiche finali.
Una automatizzazione di queste procedure manuali era dunque auspicabile. È stato deciso di investire nella
programmazione di un algoritmo capace, partendo dalle 1600 forme, di facilitare la loro ricerca attraverso i motori di
ricerca, recuperando i conteggi e organizzandoli in modo da poter, dopo la gestione delle correzioni delle omografie,
di effettuare l'insieme dei calcoli statistici. Questa automatizzazione permette inoltre di utilizzare parecchi motori di
ricerca senza un lavoro supplementare troppo oneroso.
Tecnologia utilizzata
Per permettere una gestione ottimale del tutto, è stato deciso di utilizzare una struttura di base di dati, quale elemento
centrale che articola le differenti applicazioni.
Il gestore di base dei dati raccolti è stato PosgreSQL, di uso comune nel mondo di Internet e, per l'interfaccia tra la
base di dati e i servizi della Rete, è stato scelto il linguaggio di programmazione PHP.
Dettagli del funzionamento del sistema
Base dei dati
La base dei dati comporta tre tabelle maggiori che sono la struttura del sistema automatizzato :
• Tabelle delle 1600 varianti dei termini : in questa tabella sono registrate le diverse varianti del campione.
Sono classificate secondo il termine e la lingua alla quale appartengono e registrate con i parametri che sono a
loro associati : omografie, ecc. L’allegato 3 è una rappresentazione del contenuto di questa tabella.
•
Tabella dei punteggi : vi sono conservati tutti i risultati (conteggio delle pagine) recuperati, attraverso
l'interfaccia PHP, dei servizi dei motori di ricerca. Questi punteggi sono classificati in funzione delle varianti
alle quali si rapportano, e del motore sul quale questo punteggio è stato trovato.
•
Tabella dei risultati per termine : Una volta introdotte le 1600 varianti nella base nonché i punteggi di
ognuno di esse, vengono calcolati i risultati di ogni termine. Questo si fa sommando i punteggi che
appartengono allo stesso termine di una stessa lingua. Questi risultati ottenuti (classificati per parola, per
motore e per lingua) verranno utilizzati per ottenere i risultati finali e serviranno da ingresso per i calcoli
statistici previsti.
Il design è aperto grazie al parametraggio della lista delle lingue e dei motori utilizzati. Questa disposizione permette
una enorme flessibilità nella misura in cui si può aggiungere a volontà nuovi termini, nuovi motori e nuove lingue.
Le interfacce PHP
Il software PHP comporta tre tipi di interfacce :
Le interfacce di raccolta dei dati
Queste interfacce servono a riempire i campi «varianti» e « punteggi » della base di dati.
La prima è un'interfaccia utente che serve all'amministrazione per l'introduzione delle varianti e delle loro proprietà
associate34. La seconda è un'interfaccia macchina che permette, per ogni motore considerato, di raggruppare i
punteggi ottenuti in occasione di una esecuzione del software. I dati raccolti sulla prima intefaccia vengono
34
Lingua, termini associati, problemi di omografia, variante senza diacritici.
conservati tra una esecuzione e l’altra; quelli della seconda interfaccia sono volatili, rimpiazzati a ogni esecuzione. I
dati che si sostituiscono nel processo vengono naturalmente archiviati.
Le interfacce di trattamento dei dati
Sono di due tipi: quelle che permettono di modificare la tabella "punteggio" delle varianti e quelle che permettono di
calcolare i valori associati a ogni parola. I primi sono utilizzati per correggere i seguenti problemi di omografia :
Le distorsioni più frequenti che riguardano le varianti sono i plurali in -idades, comuni allo spagnolo e al
portoghese. La ripartizione del conteggio tra lo spagnolo e il portoghese è stata fatta in modo automatico in
proporzione ai risultati parziali dello studio. Partendo dai risultati parziali sono stati dedotto dei coefficienti
per motore del peso dello spagnolo rispetto al portoghese e questi coefficienti sono stati applicati per
ripartire i punteggi delle parole in -idades tra lo spagnolo e il portoghese.
C'è un caso di omografia partendo dal romeno (cal e cai, cavallo : omografia di altre parole in spagnolo,
italiano, portoghese ...). È per questo che le forme cal e cai non sono state calcolate, il che penalizza il
romeno. Inoltre, anche la forma caii è stata eliminata perché omografa di sigle frequenti in Internet. Faca e
facas significano rispettivamente coltello e coltelli in portoghese ma sono anche due forme di coniugazione
del verbo fare (faça e faças senza diacritici). Il risultato indica è stato calcolato a posteriori utilizzando lo
stesso metodo per le parole in -idades basandosi sui coefficienti del portoghese rispetto all’inglese. La
forma boli (variante romena de malattia) è una abbreviazione molto frequente di bolígrafo in spagnolo
(penna) ed è stato eliminato dal conteggio. Joi (giovedì in romeno) è una parola di tre lettere dunque
suscettibile di omografia con delle sigle. Joia è l’omografo del portoghese jóia senza diacritico (gioello). Il
risultato indicato è stato calcolato utilizzando lo stesso metodo per le parole in -idades. Marti è l’omografo
del nome di un personaggio celebre (José Martí), senza diacritico, e il suo punteggio non è stato
contabilizzato per il romeno martedì. Il punteggio di mardi in francese è stato diminuito dal punteggio di
mardi gras per non conteggiare questa forma frequente in inglese.
Le interfacce del secondo tipo attualizzano la parte "risultati per termini" della base dei dati.
Le interfacce di visualizzazione dei risultati
La base dei dati utilizzata per raccogliere i risultati contiene :
(a) 1600 varianti di termini classificati per termine (57) e per lingua (7)
(b) i punteggi di queste 1600 varianti, misurate per 6 motori di ricerca (9600 risultati)
(c) i punteggi dei 57 termini, calculati a partire dai 9600 risultati per 6 motori e 7 lingue (2394 risultati). Questi
punteggi sono visibili sotto forma assoluta o in proporzione del punteggio dell’inglese.
L’accesso a queste informazioni ha richiesto la creazione di interfacce di visualizzazione dei risultati che dovevano
rispettare queste due condizioni :
•
•
permettere di ottenere dei risultati rapidi e mirati per l’insieme delle informazioni disponibili
disporre di risultati attualizzati ogni volta che viene fatta una modifica nella base dei dati.
L’interfaccia che permette di accedere ai risultati (a) ha permesso di generare la tabella dell’allegato 3. I risultati di
(b) sono disponibili nell’allegato 8, e quelli di (c) nell’allegato 9. L’interfacccia dell’allegato 9 calcola anche la
media, lo scarto tipo e il coefficiente di varianza dei risultati quando le percentuali sono visualizzate. Sono anche i
risultati ottenuti da questa interfaccia che permettono di illustrare le caratteristiche dei motori di ricerca (allegato
4).
Conclusione e piano per la prossima versione
Questo sistema presenta un miglioramento vero sulla metodologia manuale. Trasforma una operazione lenta e
noiosa che richiedeva 10 giorni di lavoro per 1200 varianti e un solo motore di ricerca in un lavoro di 2 giorni per
1600 varianti e 6 motori di ricerca, con dei risultati più facili da utilizzare. Questo sistema permette inoltre
l’integrazione facilitata di altre lingue da studiare, di altri campioni linguistici o di altri motori di ricerca.
Questa facilità ci permette di prevedere l’aggiunta di nuove funzionalità in avvenire per quanto riguarda la base di
dati e le interfacce. Un controllo regolare e datato dei risultati permetterà una analisi dinamica dell'evoluzione
della presenza delle lingue latine in Internet e trasformare così questo studio in un vero osservatorio che permette
queste evoluzioni. Questi risultati possono anche permettere di valutare il modo in cui ogni motore tratta il
plurilinguismo di Internet.
Allegato 6 : Risultati delle misurazioni della graduatoria per lingua
di Fastsearch e comparazione
Tabella 17 : Risultati della graduatoria per lingua di Fastsearch e comparazione35
Fastsearch
2000
Afrikaans
Albanese
Fastsearch % total relatif
% total
2001
2000
relatif 2001
0,06
0%
0,01%
% total
absolu
0,01%
% inglese
0%
0,01%
0,01%
0,01%
22,24
42,15
6,81%
7,57%
7,33%
12,58%
Inglese
220,78
335,04
67,63%
60,20%
58,27%
100 %
Arabo
0,16
0,57
0,05%
0,10%
0,10%
0,17%
Basco
0,04
0,05
0,01%
0,01%
0,01%
0,01%
0,03
0, %
0,01%
0,01%
0,01%
Bulgaro
0,06
0,16
0,02%
0,03%
0,03%
0,05%
Catalano
0,52
0,75
0,16%
0,13%
0,13%
0,22%
4,9
20,57
1,50%
3,70%
3,58%
6,14%
6,30
0%
1,13%
1,10%
1,88%
9,81
1,49%
1,76%
1,71%
2,93%
0,45
0%
0,08%
0,08%
0,13%
Cinese
semplificato
Cinese
tradizionale
Coreano
4,87
Croato
Danese
1,63
2,89
0,50%
0,52%
0,50%
0,86%
Spagnolo
8,92
15,98
2,73%
2,87%
2,78%
4,77%
Estone
0,20
0,48
0,06%
0,09%
0,08%
0,14%
0,02
0, %
0%
0%
0,01%
1,33
2,64
0,41%
0,47%
0,46%
0,79%
10,66
19,15
3,27%
3,44%
3,33%
5,72%
Frisone
0
0%
0%
0%
0%
Gallego
0,01
0%
0%
0%
0%
Gallese
0,39
0,00%
0,07%
0,07%
0,12%
delle isole
Feroë
Finlandese
Francese
Greco
0,31
0,66
0,09%
0,12%
0,11%
0,20%
Ebraico
0,21
0,30
0,06%
0,05%
0,05%
0,09%
Ungherese
0,57
1,36
0,17%
0,24%
0,24%
0,41%
Indonesiano
0,76
0%
0,14%
0,13%
0,23%
Islandese
0,15
0,25
0,05%
0,04%
0,04%
0,07%
Italiano
5,67
10,77
1,74%
1,93%
1,87%
3,21%
19,33
37,40
5,92%
6,72%
6,50%
11,16%
0,03
0%
0,01%
0,01%
0,01%
Giapponese
Latino
Lettone
0,07
0,10
0,02%
0,02%
0,02%
0,03%
Lituano
0,11
0,16
0,03%
0,03%
0,03%
0,05%
0,17
0%
0,03%
0,03%
0,05%
Malese
L5 (2001)
total
L4 (1998)
total
0,02%
0,03
Tedesco
Bielorusso
L5 (2001) %
inglese
13,4%
6,97%
52%
75%
10,95%
5,69%
2,53%
8,86%
4,61%
2,81%
5,88%
3,06%
1,50%
Olandese
3,77
6,83
1,15%
1,23%
1,19%
2,04%
Norvegese
1,44
2,62
0,44%
0,47%
0,46%
0,78%
Polacco
1,08
3,36
0,33%
0,60%
0,58%
1%
Portoghese
5,03
9,04
1,54%
1,62%
1,57%
2,70%
5,40%
2,81%
0,82%
Rumeno
0,14
0,22
0,04%
0,04%
0,04%
0,07%
0,32%
0,17%
0,15%
Russo
7,04
12,76
2,16%
2,29%
2,22%
3,81%
0,69
0%
0,12%
0,12%
0,21%
Slovacco
Sloveno
0,14
0,40
0,04%
0,07%
0,07%
0,12%
Svedese
3,33
5,11
1,02%
0,92%
0,89%
1,53%
Ceco
1,21
3,50
0,37%
0,63%
0,61%
1,04%
0,95
0%
0,17%
0,17%
0,28%
Tai
Turco
1,15
0,16%
0,21%
0,20%
0,34%
Ucraino
0,30
0%
0,05%
0,05%
0,09%
Vietnamita
0,17
0%
0,03%
0,03%
0,05%
Totale
relativo
Totale
stimato
35
0,52
326,43
556,59
340
575
(Cifre annunciate da Fastsearch)
Questa tabella non tiene conto delle pagine plurilingue.
Allegato 7 : Criteri di selezione dei termini
La tabella sottostante precisa l'insieme dei criteri considerati per procedere alla selezione dei termini del campione.
Si tratta di criteri di filtraggio per l'accettazione di un termine. Per arrivare ai 57 termini di campione, alcuni di loro
sono stati scartati.
Tabella 18 : Criteri di selezione linguistica dei termini del campione
CRITERIO
Neutralità
culturale
DEFINIZIONE
Proprietà di una
parola in relazione
con la sua
frequenza di
comparsa nel
linguaggio in
funzione della
cultura.
L'ortografia di un
termine in una
lingua è identico a
quella di un
termine in un'altra
lingua. Questo
riguarda anche le
grafie identiche
relativamente ai
cosiddetti "falsi
amici ".
ESEMPI
METODO
COMMENTI
Per ottenere un campione
Vin, parfum,
gastronomie(vino,
con il coefficiente di
profumo,
varianza più debole,
gastronomia) e i
vengono scartati i
termini del linguaggio termini non
diplomatico non sono culturalmente neutri.
culturalmente neutri in
francese.
Esempio di grafia
Rifiutare dal campione i Vengono prese in
Omografia
identica : casa in
termini che presentano considerazione solo le
interlinguistica
spagnolo, portoghese, questa caratteristica (con omografie tra le lingue
italiano. Esempi di
o senza diacritici).
dello studio e/o con
falsi amici: red in
lingue molto presenti in
spagnolo (rete), red in
Internet (come il
inglese (rosso) ; hier
tedesco). Per evitare il
in francese (ieri) e hier
rischio statistico di
in tedesco (qui).
omografia con delle
lingue estranee allo
studio, vengono scartate
le parole con meno di
quattro lettere.
Quando una
Gli anglicismi come Rifiuto del campione dei
Omografia
business, sandwich o termini.
interlinguistica da parola di una
lingua viene
software; deja vu in
prestito
accettata così
inglese (omografo del
com'è in un'altra francese senza
lingua.
diacritici).
Sept (sette) in
Evitare questi termini.
Siamo relativamente
Omografia con una
protetti dalla nostra
francese.con le
abbreviazione
decisione di evitare le
abbreviazioni di
septembre e
parole di meno di quattro
soprattutto September
lettere.
(inglese).
Julio, luglio in
Rifiutare i termini di
Omografia con un
spagnolo, e il nome di questa categoria
nome proprio
persona spagnolo
frequente
molto frequente con lo
stesso significante.
Windows significa
finestra in inglese....
ma è anche il nome di
un software molto
citato nello spazio
Internet.
Pseudo- omografia La scrittura di un Ambasador in romeno Il caso viene rifiutato
termine con un
e amba(s)sador in
soltanto se la lingua
interlinguistica
comune errore
inglese.
bersaglio è l'inglese.
d'ortografia
corrisponde a un
termine in un'altra
lingua.
Prix in francese
Evitare questi termini o,
Significati non
signifia sia premio che se possibile, stare attenti
equivalenti
precio (spagnolo),
a confrontarli includendo
price e prime
tutti i significanti che
(inglese): premio e
completerebbero un
prezzo.
significato equivalente
nelle lingue in cui è
necessario.
Questa caratteristica
Morfosintassi non L'inglese, molto Love in inglese è sia Evitare questi termini.
diverso dal punto una termine che
dell'inglese ci fa rifiutare
equivalente :
di vista sintattico significa amore che il
a priori i verbi
nome, verbo
dalle altre lingue verbo amare :
studiate, ha spesso all'infinito, al presente
la stessa forma
dell'indicatico (amo,
come nome e
ami, amiamo, amate,
variante verbale, amano), ecc.
equivalente questa
ultima a parecchie
forme della
coniugazione nelle
altre lingue.
L'aggettivo inglese
Stare attenti a
Gli
aggettivi,
Morfosintassi non
invariabili in
yellow corrisponde
moltiplicare le varianti
equivalente :
inglese, variano in giallo / gialla / gialli nel genere, numero e
aggettivi e nomi
genere e numero / gialle. La parola
caso nelle altre lingue,
nelle altre lingue inglese instability /
quando lo esige il
studiate. I nomi, instabilities
bisogno di equivalenza.
che in generale
corrisponde alle
non variano nelle varianti romene :
altre lingue,
instabilitate /
variano anche
instabilitatea /
secondo il caso
instabilităţii /
(nominativo,
instabilităţi /
genitivo, ecc.) e instabilităţile /
instabilităţilor (non
nel caso
includiamo qui le
determinato,
indeterminato in varianti senza
diacritici).
romeno.
Fare attenzione a
Quando una
Secondo il paese
Pluricentrismo
moltiplicare le varianti
lessico e semantica lingua ha più di un ispanofono, si dice
centro normativo nafta oppure gasolina sinonimiche nazionali o
lessico-semantico. (benzina). Americano, regionali per le
equivalenze, quando è
in alcuni paesi
possibile.
ispanofoni
dell'America latina,
non ha lo stesso senso
che nelle altre lingue o
in Spagna
("appartenenti
all'insieme del
continente" o
"appartenenti agli
Stati Uniti ").
Quando una
È il caso dell'inglese e Stare attenti a
Pluricentrismo
moltiplicare le varianti
lingua ha più di un in particolare del
ortografico
centro normativo portoghese. Alcuni
ortografiche nazionali
ortografico.
termini si scrivono in per le equivalenze,
quando è possibile.
modo diverso negli
Stati Uniti e in
Inghilterra (theater e
theatre), in Portogallo
e in Brasile
(electricidade e
eletricidade).
LUGAR
DAS LÍNGUAS LATINAS
NA INTERNET
EDIÇÃO 2001
Estudo proposto por:
Funredes (Associação Redes & Desenvolvimento) http://funredes.org
União Latina http://www.unilat.org
Realizado entre agosto de 2000 e junho de 2001
Direitos autorais e editoriais ©, 2000-2001, Funredes, União Latina.
SUMÁRIO
1- PROLOGO E ANTECEDENTES .........................................................................................................................4
2. AUTORES................................................................................................................................................................5
3. APRESENTAÇÃO GERAL DO ESTUDO E DE SEUS RESULTADOS..........................................................6
3.1 METODOLOGIA .....................................................................................................................................................6
3.2. SINTESE COMENTADA DOS RESULTADOS ........................................................................................................6
3.2.1.
Resultados relativos com relação ao inglês...........................................................................................6
3.2.2 Resultados absolutos ....................................................................................................................................6
3.3. RELAÇÃO ENTRE O NUMERO DE LOCUTORES E SUA PRESENÇA NA WEB ...............................................................7
3.4. VITALIDADE DA PRODUÇÃO DE INFORMAÇÃO PELOS INTERNAUTAS CONFORME AS LINGUAS ..............................8
4. DETALHE DOS RESULTADOS.........................................................................................................................10
4.1 METODOLOGIA INTERNET...................................................................................................................................10
4.1.1.
Identificação dos principais motores de busca disponíveis na Web e pré-seleção..............................10
4.1.2 Validação dos motores selecionados em função da metodologia empregada. ...........................................10
4.1.3 Seleção final dos motores de busca para a aplicação da metodologia ......................................................11
4.2. METODOLOGIA LINGÜISTICA ........................................................................................................................11
4.2.1 Novos problemas apresentados pelo alemão..............................................................................................11
4.2.2 Outras problemáticas .................................................................................................................................12
4.3. METODOLOGIA ESTATISTICA ........................................................................................................................12
4.3.1.
Resultados das medidas com os motores de busca pré-selecionados ..................................................12
4.3.2.
Cálculos estatísticos dos resultados relativos ao inglês ......................................................................12
4.3.3.
Cálculos dos resultados absolutos.......................................................................................................13
4.4. COMPARAÇÃO COM OUTROS ESTUDOS..........................................................................................................14
4.4.1.
Comparação com os estudos anteriores ..............................................................................................14
4.4.2. Comparação com estudos similares (Alis e Inktomi).................................................................................14
5.
TENDENCIA NA EVOLUÇÃO DAS LINGUAS ESTUDADAS .................................................................16
6.
PERSPECTIVAS PARA UM ACOMPANHAMENTO DA OBSERVAÇÃO.............................................17
7.
REFERENCIAS, EM INTERNET, DOS TRABALHOS CONEXOS..........................................................18
ANEXO 1: RECAPITULATIVO E REFERENCIAS DOS DIVERSOS ESTUDOS REALIZADOS PELOS
AUTORES..................................................................................................................................................................19
ANEXO 2: VISUALIZAÇÃO DOS INTERVALOS DE CONFIANÇA PARA OS RESULTADOS POR
LINGUA .....................................................................................................................................................................21
ANEXO 3: LISTA DOS TERMOS DA AMOSTRA DE REFERENCIA ............................................................22
ANEXO 4: SELEÇÃO DOS MOTORES DE BUSCA PARA O ESTUDO L5 ...................................................34
INTRODUÇÃO ............................................................................................................................................................34
RESULTADOS POR MOTOR E POR LINGUA ..................................................................................................................34
Dados relativos a Internet e aos motores de busca ............................................................................................35
Validação dos motores de busca em função de nossa metodologia ..................................................................36
CONCLUSÃO .............................................................................................................. ERREUR ! SIGNET NON DEFINI.
ANEXO 5: INTERFACE DE AUTOMATIZAÇÃO DO ESTUDO L5 ................................................................38
INTRODUÇÃO ............................................................................................................................................................38
TECNOLOGIA UTILIZADA ..........................................................................................................................................38
DETALHES DE FUNCIONAMENTO DO SISTEMA ...........................................................................................................38
Base de dados ......................................................................................................................................................38
Interfaces PHP....................................................................................................................................................39
CONCLUSÃO E PLANO PARA A PROXIMA VERSÃO ......................................................................................................40
ANEXO 6: RESULTADOS DAS MEDIDAS DE CLASSIFICAÇÃO POR LINGUA DE FASTSEARCH E
COMPARAÇÃO .......................................................................................................................................................41
ANEXO 7: CRITERIOS DE SELEÇÃO DOS TERMOS .....................................................................................43
ANEXO 8: RESULTADO DA CONTAGEM DE CADA VARIANTE POR TERMO E POR MOTOR ver
(páginas em construção, em françês)
ANEXO 9: RESULTADO DA CONTAGEM DOS TERMOS POR MOTOR ver (páginas em construção, em
françês)
Referências das tabelas
Tabela 1: Médias das línguas latinas (e do alemão) com relação ao inglês ...................................................................6
Tabela 2: Presença absoluta das línguas estudadas na Web ..........................................................................................7
Tabela 3: Peso das línguas estudadas (cifras arredondadas em milhões) ......................................................................8
Tabela 4: Presença ponderada das línguas estudadas no espaço WWW .......................................................................8
Tabela 5: Número de internautas classificados por língua (em milhões) ......................................................................8
Tabela 6: Produtividade dos locutores...........................................................................................................................9
Tabela 7: Detalhes sobre os resultados estatísticos......................................................................................................12
Tabela 8: Hipótese de progressão do peso das línguas estudadas................................................................................13
Tabela 9: Evoluções das relações entre o peso do francês, do inglês e do espanhol ...................................................14
Tabela 10: Resultados do estudo de Inktomi (fevereiro de 2000) ...............................................................................15
Tabela 11: Resultados do Fastsearch em agosto de 2000, janeiro de 2001, junho de 2001........................................16
Tabela 12: Tendências da evolução ............................................................................................................................16
Tabela 13: Recapitulativo e referências dos diversos estudos realizados pelos autores ..............................................19
Tabela 14: Visualização dos intervalos de confiança ..................................................................................................21
Tabela 15: Lista dos termos da amostra de referência .................................................................................................22
Tabela 16: Resultados do estudo relativo aos 6 motores de busca pré-selecionados...................................................34
Tabela 17: Resultados da classificação por língua de Fastsearch e comparação .........................................................41
Tabela 18: Critérios de seleção lingüística dos termos da amostra..............................................................................43
1- Prólogo e antecedentes
Este estudo dá seguimento aos trabalhos realizados pela Funredes entre 1995 e 19981 sobre o lugar das línguas e
culturas latinas na Web, sendo que esta edição concentra-se no estudo das línguas. O princípio metodológico de
base, que mostrou sua solidez quando da edição anterior, foi conservado. Trata-se de proceder à medição, em certos
espaços da Internet2, da quantidade de menções ou ocorrências de 57 palavras ou termos cada um deles tendo um
significado e um alcance equivalentes nas línguas estudadas (espanhol, francês, inglês, italiano, português, romeno)
e de analisar e comparar, a seguir, os resultados para, a partir do método estatístico, chegar a porcentagens de
presença de cada uma delas. Uma primeira extensão do estudo ao alemão (com a intenção de ampliar,
posteriormente, a outras línguas) começou a ser considerada.
O ambiente dos motores de busca evoluiu muito desde o estudo realizado anteriormente, o que levou a uma análise
das implicações das mudanças em nossa metodologia e das melhorias sensíveis verificadas com relação aos
trabalhos anteriores.
•
•
•
Aplicação de vários motores de busca a partir dos quais foi feita uma seleção ponderada com o objetivo
de obter os resultados mais rigorosos possíveis.
Automatização da contagem e dos cálculos a partir de um software que funcionava como interface entre os
termos a serem medidos, organizados em bases de dados, e os motores de busca. No futuro, este
investimento possibilitará a publicação dos resultados em intervalos regulares, constituindo, assim, um
verdadeiro observatório.
Sistematização do processamento das homografias interlingüísticas através de uma administração
automatizada, mais sólida no plano metodológico.
Por outro lado, certos erros involuntários, encontrados em algumas ocorrências da amostra, foram corrigidos3.
Além disso, um primeiro passo foi dado para a ampliação do estudo ao alemão, sem mudar, por enquanto, o
método de pesquisa dessas ocorrências e estabelecendo resultados claramente menos precisos que os de outras
línguas4.
Referências serão feitas nas etapas anteriores deste estudo. Para ajudar o leitor, uma síntese dos procedimentos e
resultados anteriores, com links em Internet associados, permitirá o acesso aos documentos correspondentes no
anexo 1.
1
Com o apoio da Agence de la Francophonie para a quarta edição e em colaboração com a União Latina a partir da
terceira edição.
2
Nesta edição, só o espaço Web foi considerado (páginas da Web). O espaço Usenet não foi considerado.
3
Trata-se de erros menores que não provocaram um desvio importante com relação aos resultados publicados no
estudo anterior.
4
A forma de composição das palavras em alemão faz com que a busca, tal como ela é feita para as outras línguas,
apresente valores abaixo da realidade lingüística. Os resultados aqui apresentados, com as correções introduzidas em
aumento, ainda são aproximativos. Os problemas apresentados pela adaptação de nossa metodologia ao alemão são
detalhados no capítulo 4.2.1.
2. Autores
A equipe de trabalho do estudo foi formada da seguinte maneira:
Coordenação geral:
Organizador do estudo:
Supervisão lingüística:
Responsável lingüístico:
Equipe lingüística:
Automatização das medidas
e cálculos estatísticos5:
5
Daniel Pimienta ([email protected])
Benoit Lamey ([email protected]), sob a direção de Daniel Pimienta
Daniel Prado ([email protected])
Marcelo Sztrum ([email protected])
Diretoria de Terminologia e Indústrias da Língua da União Latina
Benoit Lamey ([email protected])
Com um cordial agradecimento a Roger Price por seu apoio a distância.
3. Apresentação geral do estudo e de seus resultados
3.1 Metodologia
Os resultados são obtidos conservando-se a metodologia utilizada desde 1998. Primeiramente, procedeu-se a uma
seleção de 57 termos por língua, cada um deles com suas variantes ortográficas, conforme a presença ou não de
sinais diacríticos, sinonímicas, dialetais ou morfossintáticas, tendo um significado e um alcance equivalentes nas
línguas estudadas (detalhes dos critérios lingüísticos: ponto 4.2 e anexo 7). A seguir, tratou-se de analisar e
comparar os resultados para deles deduzir, através do método estatístico, porcentagens de presença de cada uma das
línguas. Para cada termo, a relação das línguas latinas ao inglês é utilizada como variável aleatória e as técnicas da
estatística são aplicadas tendo-se como hipótese uma distribuição matemática corrente desta variável aleatória (a
curva de Gauss, também chamada de distribuição "normal").
Os resultados apresentados a seguir foram obtidos a partir da síntese dos pontos anotados nos dois motores de busca
que satisfizeram os critérios de seleção descritos no anexo 4. Todas as medidas levadas em conta neste estudo foram
efetuadas entre agosto de 2000 e junho de 2001.
.
3.2. Síntese comentada dos resultados
3.2.1.
Resultados relativos com relação ao inglês
O quadro a seguir apresenta a relação média entre cada língua latina (com o alemão) e o inglês, obtida através da
medição da ocorrência dos termos no espaço Web, efetuada em junho de 2001.
Tabela 1: Médias das línguas latinas (e do alemão) com relação ao inglês
ESPANHOL
10,95%
FRANCÊS
8,86%
ITALIANO
PORTUGUÊS
5,88%
5,40%
ROMENO
0,32%
ALEMÃO
> 13,42% estimado6
3.2.2 Resultados absolutos
Os resultados que acabam de ser citados permitem avaliar a presença das línguas latinas e, aproximadamente, do
alemão com relação ao inglês; para numerar a presença absoluta destas línguas no espaço Web, é necessário
6
Nesta versão do estudo, há uma diferença de qualidade entre os resultados obtidos no tocante ao alemão e às outras
línguas. Com efeito, a formação das palavras em alemão, muito diferente com relação às outras línguas estudadas
até agora, o "sancionaria" sobremaneira se só olhássemos os resultados obtidos ao solicitar aos sistemas uma busca
"por palavra isolada" ou separada, ou seja, sem nenhum contexto antes ou depois. Para chegar a obter resultados tão
fiáveis quanto os estabelecidos para as outras línguas, seria necessário, num segundo momento, prever buscas "por
palavra não isolada" (com contexto antes e depois) valendo-se, por outro lado, e na medida do possível, de um fator
numérico que exprima a diferença na quantidade de palavras separadas entre as outras línguas do estudo e o alemão.
Nossa solução foi conservar a amostra original, ampliando-a com a mesma metodologia lingüística a 57 termos
alemães equivalentes e buscando, ainda, por palavra isolada. Uma correção de pelo menos 30 % em aumento com
relação aos resultados assim obtidos, pareceu-nos necessária para começarmos a nos aproximar desta realidade
lingüística. A cifra de 13,42% é obtida ao aplicar um aumento de 30% ao primeiro resultado bruto de 10,32%.
construir anteriormente uma hipótese sobre a presença absoluta do inglês. O quadro abaixo mostra os valores de
presença absoluta, estabelecidos a partir das médias para diversas hipóteses de presença do inglês.
Tabela 2: Presença absoluta das línguas estudadas na Web
Se INGLÊS =
então ESPANHOL =
65%
7,12%
60%
6,57%
55%
6,02%
52%
5,69%
50%
5,48%
45%
4,93%
40%
4,38%
então FRANCÊS =
5,76%
5,32%
4,87%
4,61%
4,43%
3,99%
3,54%
então ITALIANO =
então PORTUGUÊS =
3,82%
3,51%
3,53%
3,24%
3,23%
2,97%
3,06%
2,81%
2,94%
2,70%
2,65%
2,43%
2,35%
2,16%
então ROMENO =
0,21%
0,19%
0,18%
0,17%
0,16%
0,14%
0,13%
8,71 %
5,83%
8,04%
13,10%
7,37%
20,35%
6,97%
24,96%
6,70%
27,59%
6.03%
34,83%
5,37%
42,07%
7
então ALEMÃO =
Restaria, assim, um espaço
para as outras línguas
Este quadro apresenta-nos uma idéia mais precisa do peso absoluto das línguas estudadas com relação ao conjunto
das páginas apresentadas na Web. Um dos indicadores mais significativos é o do espaço disponível para as línguas
restantes que nos permite selecionar a hipótese de uma presença absoluta do inglês que se aproxima de 52%
como sendo a mais provável.
Para tal, basta considerar o chinês e o japonês que, provavelmente, têm um peso da mesma ordem que o do alemão
ou do espanhol (entre 5 e 8%), assim como o das línguas que representam entre 0,5% e 2% (coreano, neerlandês,
russo e as quatro línguas escandinavas num total entre 8 e 10%), o das línguas cuja presença é muito escassa, como
o romeno (a saber, uma dezena de línguas a 0,1% para um total de 1%) e, finalmente, as línguas muito numerosas
cuja presença continua sendo marginal. Esta última proporção é a mais difícil de estimar; tomando-se em
consideração a hipótese de 200 línguas a 0,01%, atingiríamos um total de 2%... Um dos grandes mistérios, cujas
conseqüências deverão ser avaliadas no futuro, é a possível multiplicação das línguas em Internet, sendo que o total
das línguas existentes atualmente é calculado entre 3.000 e 6000…
Estas estimações nos levam a um peso total de 25% para as línguas não estudadas e a defender a hipótese de uma
presença absoluta de 52% para o inglês.
Esta estimação de 25% para o peso das línguas não consideradas diretamente no estudo é reforçada pela evolução
dinâmica de seu peso descrita detalhadamente no capítulo 4.3.3.
3.3. Relação entre o número de locutores e sua presença na Web
Obviamente, os valores de presença absoluta não são um indicador perfeito do vigor de uma língua nas redes. Para
obter um resultado significativo, seria conveniente proporcionar os valores que exprimem a presença das línguas em
Internet por sua própria presença no mundo real. A presença relativa dessas línguas é calculada sem levar
completamente em conta o fator "plurilingüismo". Este método comporta inconvenientes metodológicos que foram
descritos quando do estudo L4.
7
Resultados majorados em 30% (ver nota 6).
Tabela 3: Peso das línguas estudadas (cifras arredondadas em milhões)
Inglês
Presença
absoluta
(número de locutores)
Presença
relativa
(porcentagem mundial)
Espanhol
Francês
Italiano
Português
Romeno
Alemão
630
375
130
60
190
30
120
10,50%
6,25%
2,17%
1%
3,17%
0,50%
2%
Tabela 4: Presença ponderada das línguas estudadas no espaço WWW
INGLÊS
ESPANHOL
Presença
absoluta 2001
52%
5,69%
Presença
ponderada 1998
7,14
0,40
Presença
ponderada 2000
5,71
0,78
Presença
ponderada 2001
4,95
0,91
FRANCÊS
4,61%
1,30
2,02
2,12
ITALIANO
PORTUGUÊS
3,06%
2,81%
1,50
0,26
2,77
0,68
3,06
0,88
ROMENO
0,17%
0,30
0,38
0,34
8
3,499
ALEMÃO
Não disponível
6,97%
3,15
Um quociente igual a 1 deve ser considerado como um resultado "normal"; se inferior a 1, como inexpressivo e se
superior a 1, como um resultado respeitável.
Forte progressão do espanhol e, sobretudo, do português, ainda que ambas continuem abaixo do limite de uma
representação "normal". Excelente resultado do alemão e do italiano e bom resultado do francês.
3.4. Vitalidade da produção de informação pelos internautas conforme as línguas
Um estudo Global Reach, cujos últimos resultados datam de 31 de março de 2001, (http//:www.glreach.com) propõe
um valor para o número de usuários de Internet por língua:
Tabela 5: Número de internautas classificados por língua (em milhões)
Inglês
Espanhol
Francês
Italiano
Portuguê
s
Romeno
Alemão
Outras
215,6
20,4
16,6
14,2
11,5
0,6
27,5
146,2
Repartição em
47,6%
%
4,5%
3,7%
3,1%
2,5%
0,13%
6,1%
32,2%
Internautas
(em milhões)
Ao relacionar estes resultados com os obtidos por nosso estudo (ver tabela 6), deveria ser possível chegar à dedução
de quais são os segmentos lingüísticos que produzem maior quantidade de informação na Web.
8
9
Resultados majorados em 30% (ver nota 6).
Resultados majorados em 30% (ver nota 6).
Tabela 6: Produtividade dos locutores
Páginas
INGLÊS
52%
Internautas
47,6%
P/I
1,09
ESPANHOL
FRANCÊS
5,69%
4,61%%
4,5%
3,7%
1,26
1,25
ITALIANO
3,06%%
3,1%
0,98
PORTUGUÊS
ROMENO
2,81%%
0,17%%
2,5%
0,13%
1,12
1,31
ALEMÃO
6,97%%10
6,1%
1,14
Obtemos um resultado bastante importante: as proporções por língua das páginas disponíveis na Web e a dos
Internautas presentes têm a mesma ordem de grandeza! A relação porcentagem de páginas / porcentagem de
usuários se situa por volta de 1 para todas as línguas estudadas11, o que mostra que, hoje em dia, a quantidade de
páginas da Web produzidas numa língua é diretamente proporcional ao número de internautas que praticam esta
língua. O resultado do inglês surpreende: poderíamos esperar um valor muito mais elevado sob a influência do
plurilingüismo12. O que poderia significar que a produtividade dos locutores de língua inglesa é inferior à dos
locutores nas outras línguas mencionadas, prova de uma recompensa à produção das populações de locutores de
outras línguas ocidentais, conscientes dos desafios lingüísticos da Internet ? Seria muito interessante conhecer estes
mesmos valores para as línguas mais recentes em Internet...
10
Resultados majorados em 30% (ver nota 6).
Os desvios são inferiores a 25% em valor absoluto e podemos dificilmente tirar conclusões sobre estas
inexpressivas variações que se encontram provavelmente dentro dos intervalos de confiança das cifras anunciadas
por Global Reach, cifras estas que não beneficiam de uma metodologia padrão para todas as línguas.
12
A proporção de locutores de línguas diferentes do inglês que produzem páginas em inglês (ou traduzem também
suas páginas em inglês) é, como sabemos, muito elevada.
11
4. Detalhe dos resultados
4.1 Metodologia Internet
A evolução acelerada dos motores de busca que indexam o conteúdo da Web, desde nosso último estudo, exigiu um
trabalho suplementar e um novo questionamento em profundidade sobre a metodologia Internet utilizada a fim de
obter nossos resultados. Este trabalho passou por três etapas:
Identificação dos principais motores de busca disponíveis e realização de uma pré-seleção.
Verificação de seu comportamento no tocante às contagens13.
Seleção dos motores que oferecem as melhores garantias para a aplicação de nossa metodologia.
4.1.1. Identificação dos principais motores de busca disponíveis na Web e pré-seleção.
Quando desta primeira etapa, foram identificados os seguintes motores: AltaVista, Excite, Fastsearch14, Google,
Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo e Webtop.
Webtop, o mais recente motor, ainda não foi suficientemente testado para que pudéssemos correr o risco de o
incorporar. Hotbot, Lycos e Yahoo foram descartados porque trabalham como parceiros diretos de outros motores de
busca, fornecendo os mesmos resultados: Lycos utiliza o índex de Fastsearch, e Yahoo, o de Google. Hotbot e iWon
partilham o mesmo índex, que lhes é fornecido por Inktomi. Hotbot, que havia sido nosso escolhido quando do
estudo anterior, infelizmente não pôde ser retomado porque já não indica os resultados de contagem. Inktomi não
oferece os serviços de seu índex diretamente aos usuários: resta-nos, então, iWon. Quanto ao Excite, não pôde ser
utilizado porque, como o Hotbot, não fornecia resultados de contagem no momento das medidas15.
Assim, restringimo-nos aos seis motores restantes: AltaVista, Fastsearch, Google, Infoseek, iWon e Northern
Light.
4.1.2 Validação dos motores selecionados em função da metodologia empregada.
Uma automatização do processo de medição, cujos detalhes são descritos no anexo 5, possibilitou a produção dos
resultados para os 6 motores de busca pré-selecionados, tratando cada um as quase 1.600 variantes dos 57 termos
por língua. Os resultados obtidos mostraram grandes divergências entre os motores e produziram não menores
inquietações quanto à solidez de nossa metodologia! Sem dúvida, era necessário um esforço de análise dos motores
de busca utilizados para explicar essas divergências e saber quais os motores que ofereciam os resultados de maior
credibilidade.
Vários critérios foram definidos para validar a utilização de um motor de busca para o presente estudo. Um motor de
busca, para poder servir de ferramenta para a aplicação de nossa metodologia, deve possuir as seguintes
características:
um índex suficientemente grande em relação ao tamanho da Web,
levar em consideração, de maneira coerente, os sinais diacríticos,
oferecer resultados coerentes no tocante à contagem das páginas encontradas,
13
É preciso compreender que os resultados de contagens são totalmente anexos à função principal dos sistemas que
é de identificar as páginas que contenham os termos da busca, numa ordem de relevância máxima. Certos sistemas
apresentam os valores do número total de páginas que respondem ao critério de busca, enquanto que outros não o
fazem. Em todo caso, é preciso tomar muitas precauções para verificar corretamente a fiabilidade dos dados de
contagem fornecidos.
14
Também conhecido pelo nome de Alltheweb.
15
Este defeito já foi corrigido; assim, os resultados de Excite serão examinados na próxima versão deste estudo, caso
esta função se mantenha.
dispor de um índex que seja homogêneo com relação às línguas.
Os resultados obtidos por cada motor, os detalhes de sua seleção, bem como outras informações gerais sobre os
motores de busca encontram-se no anexo 4.
4.1.3 Seleção final dos motores de busca para a aplicação da metodologia
Do conjunto de motores pré-selecionados, apenas dois, Google e Fastsearch, foram escolhidos para servir de suporte
a um estudo sobre a presença das diferentes línguas na rede no momento das primeiras medições, em agosto de
2000. Nesse primeiro momento, os resultados dos dois motores foram usados conjuntamente para a obtenção dos
resultados finais. A proximidade de cada um dos resultados, obtidos através de índice e de técnicas de pesquisa
diferentes, pareceu-nos, por outro lado, um bom sinal para a validade de nossa metodologia.
Google
Fast
Inglês
210
147
16
Espanhol
7,86%
8,41%
Francês
7,33%
7,33%
Italiano
4,65%
4,60%
Português
2,82%
3,95%
Romeno
0,27%
0,37%
Alemão
7,89%
8,47%
17
Contudo, na última contagem, efetuada em junho de 2001, notamos que Google já não tratava os signos diacríticos
de modo satisfatório, e tivemos portanto que descartar seus resultados.
4.2.
Metodologia lingüística
Excetuando-se a introdução, a título de primeiro passo na exploração, de equivalências do alemão e a correção de
certos erros surgidos na escrita das variantes18, a metodologia lingüística permanece inalterada com relação à versão
anterior do estudo.
A seleção de 57 termos por língua, feita em 1998, foi ampliada aos equivalentes alemães. Cada termo, sempre com a
inclusão de uma certa quantidade de variantes (ortográficas, conforme a presença ou não de sinais diacríticos,
sinonímicas, dialetais, morfossintáticas…) continuou sendo escolhido para que pudesse ser considerado ao mesmo
tempo equivalente aos de seu mesmo número em todas as línguas estudadas e distintivo, ou seja, sem (ou quase sem)
homografias interlingüísticas19 de algumas de suas variantes ou outros obstáculos à equivalência. A amostra dos 57
termos encontra-se no anexo 3.
4.2.1 Novos problemas apresentados pelo alemão
A formação das palavras em alemão é bem diferente das outras línguas estudadas até agora: línguas como o alemão
reúnem numa única palavra "composta" raízes que, nas formas equivalentes das outras línguas estudadas (exceto
parcialmente, mas muito menos que o alemão, o inglês), encontram-se separadas em palavras diferentes,
constituindo um sintagma.
Ora, as equivalências foram feitas entre palavras não compostas e, supondo-se que iríamos buscar palavras
separadas, sem contexto determinado antes ou depois, o alemão foi bastante "penalizado" já que formas muito
freqüentes tais como Ziegenkäse, equivalente a "queijo de cabra", foram sistematicamente eliminadas.
Um primeiro passo foi dado ao adicionar aos resultados obtidos, seguindo a antiga metodologia, 30% de majoração
como base mínima provável. Mas, para obter resultados tão fidedignos quanto os estabelecidos para as outras
16
Milhões de páginas em inglês.
Trata-se, aqui, dos resultados brutos, sem a correção de 30%.
18
Trata-se de erros menores que não provocaram nenhum desvio importante com relação aos resultados publicados
no estudo anterior. Os detalhes se encontram no anexo 3.
19
Fazemos alusão às formas que teriam uma mesma escrita em mais de uma língua; os homógrafos dentro de uma
mesma língua são considerados como uma mesma palavra (gráfica).
17
línguas, será necessário, sem dúvida, num segundo momento, conceber consultas "por palavra não isolada" (com e
sem contexto indeterminado antes e depois da palavra), auxiliando-se, por outro lado, na medida do possível, de um
fator numérico que exprima a diferença de quantidade de palavras entre as outras línguas do estudo e o alemão. Este
fator de correção deve ser encontrado, provavelmente, nas pesquisas feitas em trabalhos sobre corpus paralelos
interlingüísticos.
4.2.2 Outras problemáticas
O trabalho lingüístico deveria ser compreendido ao consultar-se os anexos 3 e 7. No tocante a outros detalhes sobre
a metodologia lingüística, pode-se consultar a versão anterior, L4, capítulo 2.2.
Lembremos a decisão preconcebida de incluir sempre, para as formas que apresentem sinais diacríticos (acentos,
etc.), as variantes sem diacríticos, muito freqüentes na Web. No caso do alemão, a diferenciação morfossintática
maiúscula / minúscula, neutralizada, não foi considerada por nossos motores de busca, sendo, assim, não pertinente.
Também foi decidido não incluir formas com menos de 4 letras a fim de evitar homografias possíveis (sobretudo
com siglas, mas não unicamente). As homografias entre ao menos duas das línguas estudadas mostraram-se
extremamente freqüentes, sobretudo entre o espanhol e o português, mas não somente e, obviamente, era preciso
evitar coincidências por empréstimo. Por vezes uma homografia casual tal como a das variantes alemãs Montage /
Montages (segunda-feira) com as formas francesas foi duplicada por uma homografia por empréstimo, já que a
expressão francesa foi tomada emprestada por quase todas as outras línguas na área do cinema.
4.3. Metodologia estatística
Os intervalos de confiança entre 90% e 99% dos resultados foram estabelecidos utilizando-se a distribuição T de
Student, tomando-se como hipótese uma distribuição de tipo Normal.
4.3.1.
Resultados das medidas com os motores de busca pré-selecionados
No quadro 16 do anexo 4, indicam-se os resultados das pesquisas obtidos em agosto de 2000 no espaço WWW,
para cada língua, de acordo com os seis motores pré-selecionados.
4.3.2. Cálculos estatísticos dos resultados relativos ao inglês
Eis aqui as porcentagens médias da presença das línguas latinas (e do alemão) com relação ao inglês.
Tabela 7: Detalhes sobre os resultados estatísticos
Espanhol
Francês
Italiano
Português
Romeno
Alemão20
Média
10,95%
8,86%
5,88%
5,40%
0,32%
13,4%
Desvio-padrão
9,46%
5,09%
5,55%
5,49%
0,33%
8,97%
Coeficiente de
variância
0,86
0,57
0,94
1,01
1,02
0,66
20
Resultados majorados em 30% (ver nota 6)
Intervalo
de confiança a
90%
8,89-13,01
7,75-9,97
4,67-7,09
4,20-6,60
0,25-0,39
11,45-15,37
O coeficiente de variância é a raiz quadrada do desvio-padrão ao quadrado dividido pela média ao quadrado. Um
valor superior a 1 indica uma forte dispersão, levando a uma média pouco fiável. Um valor inferior a 1 indica uma
dispersão inexpressiva, fornecendo um resultado cada vez mais fiável à medida que o valor é inexpressivo. Assim,
quanto menor for o intervalo de confiança, mais inexpressivo será o valor do coeficiente de variância.
4.3.3.
Cálculos dos resultados absolutos
Segundo as conclusões estabelecidas no capítulo 3.2.1, chegamos a uma presença absoluta das línguas estudadas de:
Inglês
Espanhol
Francês
Italiano
Português
Romeno
Alemão
Outras
52%
5,69%
4,61%
3,06%
2,81%
0,17%
6,97%21
24,96%
Assim sendo, o espanhol, como havíamos previsto no estudo anterior, ultrapassa atualmente o francês. E o alemão se
situa antes de todas as línguas latinas.
A obtenção destes resultados baseia-se no cálculo dos resultados relativos (capítulo anterior) assim como numa
aproximação realista do peso das línguas não estudadas descrita na linha "outras".
A aproximação do peso das línguas não estudadas foi realizada a partir de uma medida do tamanho da área de cada
língua no motor de busca Fastsearch. No momento em que estas medidas foram tomadas, Fastsearch apresentava um
índex de 360 milhões de páginas divididas entre 31 línguas. Para saber quantas páginas o índex contém em cada
língua (segundo o algoritmo de detecção de Fast), é preciso utilizar a seção "advanced search" (busca avançada) e
fazer uma busca, para cada língua, a partir da técnica que tínhamos batizado no estudo anterior de "complemento do
conjunto vazio" (busca do número de páginas que não contenham uma palavra inexistente)22. Obtém-se o quadro 17
do anexo 6. Este quadro apresenta uma aproximação do peso de cada língua, deduzida do algoritmo de
reconhecimento das línguas do motor de busca, que, por sua vez, não é perfeito. Por exemplo, fazer uma consulta
sobre a letra "è" nos sites em inglês dá (em Google ou Fastsearch) um resultado de um milhão de sites, sobretudo em
tailandês, coreano, japonês, russo...
Uma maneira diferente de obter o peso das línguas não estudada é constatar sua evolução dinâmica entre L4 e L5. A
partir do quadro de hipóteses de valores absolutos descritos no capítulo 3.2.1, e dos valores absolutos das línguas
consideradas no estudo realizado em setembro de 1998, obtém-se a seguinte tabela:
Tabela 8: Hipótese de progressão do peso das línguas estudadas
Línguas estudadas Hipóteses do peso absoluto para
L5
21
22
L4
Set.
1998
Resultados majorados em 30% (ver nota 6)
O argumento da busca é, por exemplo, < - "hgavdhjgduhgedujhgsdfyuhg">.
Progressões
L4/L5
INGLÊS
ESPANHOL
55%
6,02%
50%
5,48%
45%
4,93%
75%
2,53%
-26,67%
137,94%
-33,33%
116,60%
-40%
94,86%
FRANCÊS
4,87%
4,43%
3,99%
2,81%
73,31%
57,65%
41,99%
ITALIANO
PORTUGUÊS
3,23%
2,97%
2,94%
2,70%
2,65%
2,43%
1,50%
0,82%
115,33%
262,20%
96%
229,27%
76,67%
196,34%
ROMENO
0,18%
0,16%
0,14%
0,15%
20%
6,67%
-6,67%
Restante
para as outras
línguas
20,35%
27,59%
34,83%
17,19%
18,38%
60,50%
102,62%
Uma vez mais, é a hipótese de um peso absoluto do inglês, próximo de 50%, a mais realista.
Com efeito, uma progressão de menos de 18,38% das outras línguas23 parece muito insuficiente: o que representaria
uma progressão duas vezes mais lenta que a do romeno e 4 a 15 vezes menos rápida que a das outras línguas latinas
estudadas. Um aumento de 102% para as línguas não estudadas parece, por outro lado, exagerado: o que traduziria
uma evolução mundial mais rápida que a evolução da grande maioria das línguas latinas (com exceção do
português). Uma progressão por volta de 60% em média para as línguas não estudadas as colocaria no mesmo nível
de progressão do francês, o que parece ser muito mais credível. Esta constatação reforça nossa hipótese de um
resultado final da ordem de 50% como valor absoluto do inglês.
4.4. Comparação com outros estudos
4.4.1. Comparação com os estudos anteriores
As relações inglês/francês e francês/espanhol evoluíram da seguinte maneira entre o primeiro estudo e este24:
Tabela 9: Evoluções das relações entre o peso do francês, do inglês e do espanhol
Março 1996 (L1)
Inglês/Francês
21,91
Francês/Espanhol
2,40
Inglês/Espanhol
52,58
Março 1997 (L2)
19,99
1,92
38,38
Março 1998 (L3)
17,60
1,33
23,32
Setembro 1998 (L4)
35,59
1,11
39,53
Agosto 2000 (L5)
13,66
0,91
12,38
Junho 2001 (L5)
11,28
0,81
9,14
Os números em cursiva (de L1 a L3), recordamos, são por demais aproximativos para serem sérios. A observação
real começou a partir de L4.
4.4.2. Comparação com estudos similares (Alis e Inktomi)
23
As "outras línguas" englobam realidades diferentes, indo das línguas escandinavas e asiáticas, com forte
progressão, às línguas menos difundidas, com progressão provavelmente mais lenta.
24
É preciso considerar esta progressão com a maior reserva já que as cifras de L1 a L3 não apresentavam as
características de rigor lingüístico obtidas a partir de L4.
O estudo de Alis nunca mais foi realizado desde 1998: assim sendo, mantemos a análise feita em L4. Por outro lado,
Inktomi publicou resultados que tiveram grande repercussão na Internet e que são utilizados atualmente como fonte
oficial por numerosos relatórios.
Tabela 10: Resultados do estudo de Inktomi (fevereiro de 2000)
LÍNGUA
Inglês
Alemão
Francês
Italiano
Espanhol
Português
Neerlandês
Finlandês
Sueco
Japonês
PROPORÇÃO (%)
86,54
5,83
2,36
1,55
1,23
0,75
0,54
0,50
0,36
0,34
Estes dados numéricos contribuem para perpetrar a visão errônea de que o inglês continua sendo a língua de mais de
80% das páginas Web. Contudo, é fácil descobrir uma aberração nestes resultados, em sua apresentação ou
interpretação...
Com efeito, a porcentagem anunciada para o inglês (86%) não é considerada com relação a todas as línguas, mas
somente com relação às 10 línguas citadas no quadro, já que o total das porcentagens para as 10 línguas atinge
100%! Caso tomemos por hipótese que 30% de páginas Web são dedicadas às línguas não citadas, o total real do
inglês seria de: 86,54% x (100-30) = 60,58%!!!
Afora este evidente lapso, que nos leva a perder o significado dos resultados absolutos (mas que não impede que a
maioria dos escritórios de marketing da Internet retomem estas cifras absurdas...), seria interessante comparar nossos
resultados, baseados numa amostra de termos cujos critérios de seleção lingüística são apresentados em nossos
relatórios, com os algoritmos de reconhecimento das línguas utilizados pelos diferentes motores de busca, e cujo
mecanismo permanece oculto. Ver, por exemplo, a tabela 17 no anexo 6 que mostra as cifras derivadas do motor
Fastsearch comparando-as com as de nosso estudo.
Até prova do contrário, devemos considerar nosso método como sendo o mais rigoroso no plano metodológico e
concluir dizendo que os algoritmos de reconhecimento das línguas em Internet têm todos a deplorável tendência a
superestimar os dados sobre o inglês.
5. Tendência na evolução das línguas estudadas
Como assinalamos, foram efetuadas medições em agosto de 2000 e em janeiro de 2001, com os motores Fastsearch
e Google. Em junho de 2001, utilizamos somente o motor Fastsearch, já que Google não tratava mais de modo
conveniente os signos diacríticos. Para as comparações da tabela abaixo, levamos em conta somente os resultados de
Fastsearch, em agosto de 2000, em janeiro de 2001 e em junho de 2001.
Tabela 11: Resultados de Fastsearch em agosto de 2000, janeiro de 2001, junho de 2001
Agosto 2000
Janeiro 2001
Junho 2001
Espagnol
8,41%
9,46%
10,95%
Français
7,33%
7,89%
8,86%
Italien
4,60%
4,93%
5,88%
Portugais
3,95%
4,44%
5,40%
Roumain
0,37%
0,33%
0,32%
Allemand
11,0%
11,4%
13,4%
A tabela abaixo indica as tendências atuais da evolução das línguas estudadas na rede, a partir das cifras
precedentes.
Tabela 12: Tendências da evolução
Tendências atuais da evoluçâo das linguas na rede
16%
14%
10%
Espanhol
Francês
Italiano
8%
Português
6%
4%
2%
00
Se
t0
0
O
ut
00
N
ov
00
D
ez
00
Ja
n
01
Fe
v
0
M 1
ar
01
Ab
r0
1
M
ai
01
Ju
n
01
Ju
l0
Ag 1
o
01
Se
t0
1
O
ut
01
0%
Ag
o
% em relaçâo ao Inglês
12%
Romeno
Alemão
6. Perspectivas para um acompanhamento da observação
Atualmente, as condições logísticas encontram-se reunidas por um real e freqüente acompanhamento deste estudo.
A automatização da captura dos resultados torna mais fácil a digitação e interpretação dos dados. Podemos manter
um observatório da evolução da presença das línguas estudadas, com medições a cada 3 ou 6 meses.
A criação deste observatório exige um controle permanente do que acontece no mundo dos motores de busca para
poder determinar se as mudanças de procedimento de um motor de busca o desqualifica para este estudo ou se, ao
contrário, um novo motor de busca pode ser utilizado para os objetivos do estudo. Cada modificação da interface de
um motor de busca implica, por sua vez, um trabalho de programação da aplicação informática que automatiza as
medições.
Também podemos considerar uma ampliação do estudo a outras línguas começando pelo conjunto das línguas
faladas no seio da União Européia. Esta ampliação pode requerer trabalhos complementares não apenas no que se
refere à tradução dos termos, mas provavelmente também no que diz respeito a um ajuste da metodologia de
pesquisa das ocorrências, como sugerido em 4.2.1.
Obviamente, seria interessante começar a medir línguas não européias, como por exemplo o quíchua, na América do
Sul, ou o ulof, na África. Novos parceiros lingüísticos serão provavelmente necessários e estamos dispostos a
examinar propostas neste sentido.
Resta ainda retomar o trabalho começado nos primeiros estudos sobre uma medição, mais subjetiva, do peso das
culturas na Web. A experiência adquirida com a automatização será, sem dúvida, de grande utilidade.
Finalmente, esta abordagem também pode fazer com que se empreendam estudos transversais para diferenciar
segmentos de penetração lingüísticos na Web (como por exemplo, o turismo, o comércio eletrônico ou a educação).
As pistas estão abertas, só nos falta encontrar parceiros e apoio financeiro...
7. Referências, em Internet, dos trabalhos conexos
O estudo anterior menciona um certo número de referências. Eis aqui algumas referências que poderão completar a
lista:
Referências sobre os motores de busca:
http://www.searchenginewatch.com
http://www.searchengineshowdown.com
Resultados parciais do estudo de Inktomi:
http://www.inktomi.com/webmap/
Número de internautas por língua:
http://www.glreach.com/globstats/index.php3
Estudo de “cyberveillance” sobre o tamanho da Web:
http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf
Estudo realizado para o Internet Council:
http://usic.wslogic.com/intro.html
Anexo 1: Recapitulativo e referências dos diversos estudos
realizados pelos autores
Tabela 13: Recapitulativo e referências dos diversos estudos realizados pelos autores
Data
e nome
3/96
L1
Direitos
autorais
Funredes
http://funredes.org/LC/L1
3/96
C1
Funredes
http://funredes.org/LC/C1
3/97
L2
Funredes
http://funredes.org/LC/L2
3/98
L3
Funredes 25
http://funredes.org/LC/L3
9/98
L4
Agence de la
francophonie
Funredes
União Latina
http://www.unilat.org/dtil/le
nguainternet/pt/lingua/lingu
a_indice.htm
25
Localização
Internet
Com o apoio metodológico da União Latina
Descrição
Primeiro estudo de língua tendo por eixo o francês e que
leva em conta o espanhol. Medidas comparativas, com
AltaVista, da presença de palavras em WWW, em inglês,
francês e espanhol, a partir de uma amostra de 50 conceitos
determinados sem rigor metodológico no plano lingüístico.
Resultado muito aproximativo, que mostra uma relação
inglês/francês por volta de 2,2 e francês/espanhol perto de
2,4.
Primeiro estudo de cultura tendo por base a francofonia e
que leva em consideração a hispanidade. Medidas
comparativas, com AltaVista, do número de menções do
nome de personalidades culturalmente representativas, nas
páginas web: cerca de 500 personalidades divididas em 13
categorias. O resultado, subjetivo, mostra uma presença
bastante importante dos representantes da cultura
francófona com relação aos norte-americanos nas áreas em
que a cultura e o comércio não se confundem.
Simples atualização do estudo língua que mostra uma
progressão inexpressiva do francês com relação ao inglês e
uma forte progressão do espanhol.
Importante atualização, apresentada na conferência
"Visionarios" em Caracas.
• Análise dos limites dos motores de busca e da
presença relativa dos diacríticos. Recomendação
do abandono de AltaVista e da utilização de
HotBot.
• O "método do complemento do conjunto vazio"
aplicado a AltaVista oferece uma ordem de
grandeza da presença das línguas derivada do
algoritmo de reconhecimento das línguas de
AltaVista.
• Avaliação crítica dos resultados do estudo de Alis
Technologies.
O francês continua sua lenta progressão e o espanhol
encontra-se atualmente muito próximo do francês.
Importantes mudanças no método e obtenção de resultados
rigorosos.
• Consideração de todas as línguas latinas:
espanhol, francês, italiano, português, romeno.
• Definição de uma amostra que responda a
critérios lingüísticos rigorosos.
• Medição auxiliada por HotBot no espaço WWW.
•
9/98
C2
9/98
LC
2000-2001
L5
Agence de la
francophonie
Funredes
União Latina
http://www.unilat.org/dtil/le
nguainternet/pt/culturas/ind
ice_culturas.htm
http://funredes.org/LC
Funredes
União Latina
http://www.unilat.org/dti
l/LI/index.htm
Medição no espaço Usenet auxiliada por
DejaNews.
• Estabelecimento dos intervalos de confiança em
90% e 99%.
• Ponderação dos resultados em função do tamanho
dos espaços lingüísticos.
Segundo estudo cultural, 3 anos depois.
Nenhuma diferença notável para o estudo da presença
cultural francófona.
• Utilização da mesma metodologia, ainda que
melhorada no tocante às categorias, escolha e
número dos personagens, e quanto à extensão a
personagens locutores de todas as línguas latinas.
• Análise de certos resultados por língua e na língua
de referência.
Página de entrada do conjunto dos estudos de línguas e
culturas.
•
•
•
•
•
Extensão do estudo ao alemão
Seleção, após um estudo aprofundado, dos
motores de busca Google e Fastsearch e, em
seguida, apenas de Fastsearch. Medição somente
no espaço WWW.
Automatização dos cálculos com o auxílio de um
programa funcionando como interface entre os
termos a serem medidos, organizados em bases de
dados, e os motores de busca.
Correção dos erros ligados à ortografia de certos
termos da amostra, bem como à omissão de
outros.
Início da sistematização das medidas e da
apresentação de curvas de extrapolação.
Anexo 2: Visualização dos intervalos de confiança para os resultados
por língua
Tabela 14: Visualização dos intervalos de confiança
Espanhol
Francês
Italiano
Português
Romeno
Alemão
Em %
0
1
2
3
4
Intervalo a 90%
5
6
7
Intervalo a 99%
8
9
10
11
Anexo 3: Lista dos termos da amostra de referência
Em cursiva: forma suscetível de estar presente, mas de ser "incorreta". O caso mais freqüente corresponde a termos
escritos sem sinais diacríticos.
Em MAIÚSCULA: variante que apresenta uma homografia interlingüística observada, variante com menos de
quatro caracteres (forte risco de homografia com uma sigla) ou variante (e termo) de alcance sintático ou semântico
maior do que os dos equivalentes nas outras línguas.
Tabela 15: Lista dos termos da amostra de referência
INGLÊS
(EN)
1 ambiguity
ambiguities
ambiguousne
ss
ambiguousne
sses
ESPANHOL
(ES)
ambigüedad
ambiguedad
ambigüedad
es
ambiguedad
es
FRANCÊS
(FR)
ambiguïté
ambiguite
ambiguïtés
ambiguites
ITALIAN
O (IT)
ambiguit
à
ambiguit
a
2 causality
causalities
causalidad
CAUSALIDA
DES
causalité
causalite
causalités
causalites
causalità
causalita
3 cheese
cheeses
queso
quesos
fromage
fromages
formaggi
o
formaggi
PORTUGUÊS
(PT)
ambigüidade
ambiguidade
ambigüidades
ambiguidades
ROMENO
(RO)
ambiguitate
ambiguitatea
ambiguităţii
ambiguitatii
ambiguităţi
ambiguitati
ambiguităţile
ambiguitatile
ambiguităţilor
ambiguitatilor
causalidade
cauzalitate
CAUSALIDADES cauzalitatea
cauzalităţii
cauzalitatii
cauzalităţi
cauzalitati
cauzalităţile
cauzalitatile
cauzalităţilor
cauzalitatilor
queijo
brânză
queijos
branza
brânze
branze
brânza
brânzele
branzele
brânzei
branzei
brânzelor
branzelor
brânzeturi
branzeturi
brânzeturile
branzeturile
brânzeturilor
branzeturilor
ALEMÃO
(DE)
Ambiguität
Ambiguitat
Ambiguitaet
Ambiguitäten
Ambiguitaten
Ambiguitaeten
Doppeldeutigkeit
Doppeldeutigkeiten
Zweideutigkeit
Zweideutigkeiten
Kausalität
Kausalitat
Kausalitaet
Kausalitäten
Kausalitaten
Kausalitaeten
Käse
Kase
Kaese
Käsen
Kasen
Kaesen
4 compatibility compatibilid
compatibilitie ad
s
COMPATIBIL
IDADES
5 contiguity
contiguities
6 dangerous
7 december
8 DENSITY
DENSITIES
compatibilit
é
compatibilit
e
compatibilit
és
compatibilit
es
compatibi compatibilidade compatibilitate Kompatibilität
lità
COMPATIBILID compatibilitate Kompatibilitat
compatibi ADES
a
Kompatibilitaet
lita
compatibilităţii Kompatibilitäten
compatibilitatii Kompatibilitaten
compatibilităţi Kompatibilitaeten
compatibilitati Vereinbarkeit
compatibilităţil Vereinbarkeiten
e
compatibilitatil
e
compatibilităţil
or
compatibilitatil
or
contigüidad contiguïté
contiguità contigüidade
contiguitate
Kontiguität
contiguidad contiguite
contiguita contiguidade
contiguitatea
Kontiguitat
CONTIGÜID contiguïtés
CONTIGÜIDADE contiguităţii
Kontiguitaet
ADES
contiguites
S
contiguitatii
Kontiguitäten
CONTIGUID
CONTIGUIDADE contiguităţi
Kontiguitaten
ADES
S
contiguitati
Kontiguitaeten
contiguităţile
contiguitatile
contiguităţilor
contiguitatilor
peligroso
dangereux pericolos perigoso
primejdios
GEFÄHRLICH
peligrosa
dangereuse o
perigosa
primejdioasă
GEFAHRLICH
peligrosos
dangereuse pericolos perigosos
primejdioasa
GEFAEHRLICH
peligrosas
s
a
perigosas
primejdioase
Gefährliche
pericolosi
primejdioşi
Gefahrliche
pericolos
primejdiosi
Gefaehrliche
e
Gefährlicher
Gefahrlicher
Gefaehrlicher
Gefährliches
Gefahrliches
Gefaehrliches
Gefährlichen
Gefahrlichen
Gefaehrlichen
Gefährlichem
Gefahrlichem
Gefaehrlichem
diciembre
décembre
dicembre dezembro
decembrie
Dezembers
decembre
Dezembern
densidad
densité
densità
densidade
densitate
Dichte
DENSIDADE densite
densita
DENSIDADES
densitatea
DICHTEN
S
densités
densităţii
Dichtheit
densites
densitatii
Dichtheiten
densităţi
Dichtigkeit
densitati
Dichtigkeiten
densităţile
densitatile
densităţilor
densitatilor
9 disparity
disparities
disparidad
disparité
DISPARIDAD disparite
ES
disparités
disparites
1 divisibility
0 divisibilities
divisibilidad divisibilité
DIVISIBILID divisibilite
ADES
divisibilités
divisibilites
1 elasticity
1 elasticities
elasticidad
élasticité
ELASTICIDA elasticite
DES
élasticités
elasticites
1 electricity
2 electricities
electricidad électricité
ELECTRICID electricite
ADES
électricités
electricites
1 february
3
febrero
février
fevrier
1 femininity
4 femininities
feminidad
femineidad
FEMINIDADE
S
femineidade
s
féminité
feminite
féminités
feminites
disparità
disparita
disparidade
disparitate
DISPARIDADES disparitatea
disparităţii
disparitatii
disparităţi
disparitati
disparităţile
disparitatile
disparităţilor
disparitatilor
divisibilit divisibilidade
divizibilitate
à
DIVISIBILIDAD divizibilitatea
divisibilit ES
divizibilităţii
a
divizibilitatii
divizibilităţi
divizibilitati
divizibilităţile
divizibilitatile
divizibilităţilor
divizibilitatilor
elasticità elasticidade
elasticitate
elasticita ELASTICIDADE elasticitatea
S
elasticităţii
elasticitatii
elasticităţi
elasticitati
elasticităţile
elasticitatile
elasticitităţilor
elasticitatilor
elettricità electricidade
electricitate
elettricita eletricidade
electricitatea
ELECTRICIDAD electricităţii
ES
electricitatii
eletricidades
electricităţi
electricitati
electricităţile
electricitatile
electricităţilor
electricitatilor
febbraio fevereiro
februarie
femminili
tà
femminili
ta
feminidade
feminilidade
FEMINIDADES
feminilidades
feminitate
feminitatea
feminităţii
feminitatii
feminităţi
feminitati
feminităţile
feminitatile
feminităţilor
feminitatilor
Disparität
Disparitat
Disparitaet
Disparitäten
Disparitaten
Disparitaeten
Divisibilität
Divisibilitat
Divisibilitaet
Divisibilitäten
Divisibilitaten
Divisibilitaeten
Teilbarkeit
Teilbarkeiten
Dehnbarkeit
Dehnbarkeiten
Elastizität
Elastizitat
Elastizitaet
Elastizitäten
Elastizitaten
Elastizitaeten
Elektrizität
Elektrizitat
Elektrizitaet
Elektrizitäten
Elektrizitaten
Elektrizitaeten
STROM
Februar
Februars
Februare
Februaren
Femininität
Femininitat
Femininitaet
Femininitäten
Femininitaten
femininitaeten
weiblichkeit
weiblichkeiten
1 fertility
5 fertilities
fertilidad
fertilité
FERTILIDAD fertilite
ES
fertilités
fertilites
1 fidelity
fidelidad
6 fidelities
FIDELIDADE
faithfulness
S
faithfulnesses
fidélité
fidelite
fidélités
fidelites
1 fraternity
fraternidad
7 fraternities
FRATERNIDA
brotherhood DES
brotherhoods
fraternité
fraternite
fraternités
fraternites
1 friday
8 fridays
vendredi
vendredis
viernes
fertilità
fertilita
fertilitate
fertilitatea
fertilităţii
fertilitatii
fertilităţi
fertilitati
fertilităţile
fertilitatile
fertilităţilor
fertilitatilor
fedeltà
fidelidade
fidelitate
fedelta
FIDELIDADES
fidelitatea
fidelităţii
fidelitatii
fidelităţi
fidelitati
fidelităţile
fidelitatile
fidelităţilor
fidelitatilor
fraternità fraternidade
fraternitate
fraternita FRATERNIDADE fraternitatea
fratellanz S
fraternităţii
a
fraternitatii
fratellanz
fraternităţi
e
fraternitati
fraternităţile
fraternitatile
fraternităţilor
fraternitatilor
venerdì
venerdi
fertilidade
FERTILIDADES
sexta-feira
sextas-feiras
vineri
vinerea
fertilität
fertilitat
fertilitaet
fertilitäten
fertilitaten
fertilitaeten
fruchtbarkeit
fruchtbarkeiten
TREUE
TREUEN
brüderlichkeit
bruderlichkeit
bruederlichkeit
brüderlichkeiten
bruderlichkeiten
bruederlichkeiten
fraternität
fraternitat
fraternitaet
fraternitäten
fraternitaten
fraternitaeten
freitag
freitags
freitages
freitage
freitagen
1 heterosexuali heterosexual
9 ty
idad
heterosexuali heterosexual
ties
idades
hétérosexua
lité
heterosexua
lite
hétérosexua
lités
heterosexua
lites
eterosess
ualità
eterosess
ualita
2 homosexualit homosexuali
0 y
dad
homosexualiti homosexuali
es
dades
homosexual
ité
homosexual
ite
homosexual
ités
homosexual
ites
omosess
ualità
omosess
ualita
2 horse
1 horses
caballo
caballos
cheval
chevaux
cavallo
cavalli
2 humidity
2 humidities
humedad
humedades
humidité
humidite
humidités
humidites
umidità
umidita
heterossexualid
ade
heterossexualid
ades
heterosexualita
te
heterosexualita
tea
heterosexualită
ţii
heterosexualita
tii
heterosexualită
ţi
heterosexualita
ti
heterosexualită
ţile
heterosexualita
tile
heterosexualită
ţilor
heterosexualita
tilor
homossexualida homosexualitat
de
e
homossexualida homosexualitat
des
ea
homosexualităţ
ii
homosexualitat
ii
homosexualităţ
i
homosexualitat
i
homosexualităţ
ile
homosexualitat
ile
homosexualităţ
ilor
homosexualitat
ilor
cavalo
CAL
cavalos
CAI
calul
CAII
calului
cailor
calule
humidade
umiditate
umidade
umiditatea
humidades
umidităţii
umidades
umiditatii
umidităţi
umiditati
umidităţile
umiditatile
umidităţilor
umiditatilor
heterosexualität
heterosexualitat
heterosexualitaet
heterosexualitäten
heterosexualitaten
heterosexualitaeten
homosexualität
homosexualitat
homosexualitaet
homosexualitäten
homosexualitaten
homosexualitaeten
pferd
pferdes
pferds
pferde
pferden
feuchtigkeit
feuchtigkeiten
humidität
humiditat
humiditaet
humiditäten
humiditaten
humiditaeten
2 illness
3 illnesses
sickness
sicknesses
disease
diseases
2 immortality
4 immortalities
enfermedad
enfermedad
es
doença
doenca
doenças
doencas
enfermidade
enfermidades
inmortalidad immortalité immortali imortalidade
inmortalidad immortalite tà
imortalidades
es
immortalité immortali
s
ta
immortalite
s
krankheit
krankheiten
seuche
seuchen
2 immunity
5 immunities
inmunidad
inmunidades
immunität
immunitat
immunitaet
immunitäten
immunitaten
immunitaeten
2 incompatibilit incompatibili
6 y
dad
incompatibiliti INCOMPATIB
es
ILIDADES
2 infallibility
7 infallibilities
infalibilidad
INFALIBILID
ADES
MALADIE
maladies
malattia
malattie
infermità
infermita
boală
BOLI
boala
bolile
bolii
bolilor
imortalitate
imortalitatea
imortalităţii
imortalitatii
imortalităţi
imortalitati
imortalităţile
imortalitatile
imortalităţilor
imortalitatilor
immunité
immunità imunidade
imunitate
immunite
immunita imunidades
imunitatea
immunités
imunităţii
immunites
imunitatii
imunităţi
imunitati
imunităţile
imunitatile
imunităţilor
imunitatilor
incompatibil incompati incompatibilida incompatibilitat
ité
bilità
de
e
incompatibil incompati INCOMPATIBILI incompatibilitat
ite
bilita
DADES
ea
incompatibil
incompatibilităţ
ités
ii
incompatibil
incompatibilitat
ites
ii
incompatibilităţ
i
incompatibilitat
i
incompatibilităţ
ile
incompatibilitat
ile
incompatibilităţ
ilor
incompatibilitat
ilor
infaillibilité infallibilit infalibilidade
infaibilitate
infaillibilite à
INFALIBILIDAD infaibilitatea
infaillibilités infallibilit ES
infaibilităţii
infaillibilites a
infaibilitatii
infaibilităţi
infaibilitati
infaibilităţile
infaibilitatile
infaibilităţilor
infaibilitatilor
immortalität
immortalitat
immortalitaet
immortalitäten
immortalitaten
immortalitaeten
unsterblichkeit
unsterblichkeiten
inkompatibilität
inkompatibilitat
inkompatibilitaet
inkompatibilitäten
inkompatibilitaten
inkompatibilitaeten
unvereinbarkeit
unvereinbarkeiten
infallibilität
infallibilitat
infallibilitaet
infallibilitäten
infallibilitaten
infallibilitaeten
unfehlbarkeit
unfehlbarkeiten
2 inferiority
8 inferiorities
inferioridad infériorité
INFERIORID inferiorite
ADES
infériorités
inferiorites
2 infidelity
9 infidelities
unfaithfulnes
s
unfaithfulnes
ses
infidelidad
INFIDELIDA
DES
3 instability
0 instabilities
inestabilidad instabilité
inestabilidad instabilite
es
instabilités
instabilites
3 inviolability
1 inviolabilities
inviolabilida
d
INVIOLABILI
DADES
infidélité
infidelite
infidélités
infidelites
inviolabilité
inviolabilite
inviolabilités
inviolabilites
inferiorità inferioridade
inferiorita INFERIORIDAD
ES
inferioritate
inferioritatea
inferiorităţii
inferioritatii
inferiorităţi
inferioritati
inferiorităţile
inferioritatile
inferiorităţilor
inferioritatilor
infedeltà infidelidade
infidelitate
infedelta INFIDELIDADES infidelitatea
infidelităţii
infidelitatii
infidelităţi
infidelitati
infidelităţile
infidelitatile
infidelităţilor
infidelitatilor
instabilità instabilidade
instabilitate
instabilita instabilidades
instabilitatea
instabilităţii
instabilitatii
instabilităţi
instabilitati
instabilităţile
instabilitatile
instabilităţilor
instabilitatilor
inviolabili inviolabilidade
t
INVIOLABILIDA
inviolabili DES
ta
inviolabilitate
inviolabilitatea
inviolabilităţii
inviolabilitatii
inviolabilităţi
inviolabilitati
inviolabilităţile
inviolabilitatile
inviolabilităţilor
inviolabilitatilor
inferiorität
inferioritat
inferioritaet
inferioritäten
inferioritaten
inferioritaeten
minderwertigkeit
minderwertigkeiten
UNTREUE
UNTREUEN
treulosigkeit
treulosigkeiten
instabilität
instabilitat
instabilitaet
instabilitäten
instabilitaten
instabilitaeten
unbeständigkeit
unbestandigkeit
unbestaendigkeit
unbeständigkeiten
unbestandigkeiten
unbestaendigkeiten
unverletzlichkeit
unverletzlichkeiten
unverletzbarkeit
unverletzbarkeiten
3 irregularity
2 irregularities
unevenness
unevennesse
s
irregularidad irrégularité
IRREGULARI irregularite
DADES
irrégularités
irregularites
irregolarit irregularidade
à
IRREGULARIDA
irregolarit DES
a
iregularitate
iregularitatea
iregularităţii
iregularitatii
iregularităţi
iregularitati
iregularităţile
iregularitatile
iregularităţilor
iregularitatilor
iresponsabilitat
e
iresponsabilitat
ea
iresponsabilităţ
ii
iresponsabilitat
ii
iresponsabilităţ
i
iresponsabilitat
i
iresponsabilităţ
ile
iresponsabilitat
ile
iresponsabilităţ
ilor
iresponsabilitat
ilor
iunie
juni
junis
JUNO
genunchi
knie
genunchiul
knies
genunchii
knie
genunchiului
KNIEN
genunchilor
cuţit
MESSER
cutit
MESSERS
cuţite
MESSERN
cutite
cuţitul
cutitul
cuţitele
cutitele
cuţitului
cutitului
cuţitelor
cutitelor
3 irresponsibilit irresponsabil
3 y
idad
irresponsibilit IRRESPONS
ies
ABILIDADES
irresponsabi
lité
irresponsabi
lite
irresponsabi
lités
irresponsabi
lites
irrespons
abilità
irrespons
abilita
irresponsabililid
ade
IRRESPONSABI
LIDADES
3 june
4
junio
juin
giugno
junho
3 knee
5 knees
rodilla
rodillas
genou
genoux
ginocchio joelho
ginocchia joelhos
ginocchi
3 KNIFE
6 KNIVES
cuchillo
cuchillos
couteau
couteaux
coltello
coltelli
FACA
FACAS
irregularität
irregularitat
irregularitaet
irregularitäten
irregularitaten
irregularitaeten
unregelmäßigkeit
unregelmässigkeit
unregelmassigkeit
unregelmaessigkeit
unregelmäßigkeiten
unregelmässigkeite
n
unregelmassigkeite
n
unregelmaessigkeit
en
irresponsabilität
irresponsabilitat
irresponsabilitaet
irresponsabilitäten
irresponsabilitaten
irresponsabilitaeten
unverantwortbarkei
t
unverantwortbarkei
ten
unverantwortlichkei
t
unverantwortlichkei
ten
verantwortungslosi
gkeit
verantwortungslosi
gkeiten
3 LUNG
7 lungs
pulmón
pulmon
pulmones
poumon
poumons
polmone
polmoni
pulmão
pulmao
pulmões
pulmoes
plămân
plaman
plămâni
plamani
plămânul
plamanul
plămânii
plamanii
plămânului
plamanului
plămânilor
plamanilor
masculinité mascolini masculinidade
masculinitate
masculinite tà
MASCULINIDAD masculinitatea
masculinités mascolini ES
masculinităţii
masculinites ta
masculinitatii
masculinităţi
masculinitati
masculinităţile
masculinitatile
masculinităţilor
masculinitatilor
3 masculinity
8 masculinities
masculinida
d
MASCULINI
DADES
3 monday
9 mondays
lunes
lundi
lundis
lunedì
lunedi
segunda-feira
luni
segundas-feiras lunea
4 october
0
octubre
octobre
ottobre
outubro
octombrie
4 parity
1 parities
equality
equalities
igualdad
IGUALDADE
S
paridad
PARIDADES
égalité
egalite
égalités
egalites
parité
parite
parités
parites
eguaglian
za
eguaglian
ze
uguglianz
a
uguglianz
e
parità
parita
igualdade
IGUALDADES
paridade
PARIDADES
egalitate
egalitatea
egalităţii
egalitatii
egalităţi
egalitati
egalităţile
egalitatile
egalităţilor
egalitatilor
paritate
paritatea
parităţii
paritatii
parităţi
paritati
parităţile
paritatile
parităţilor
paritatilor
lunge
lungen
männlichkeit
mannlichkeit
maennlichkeit
männlichkeiten
mannlichkeiten
maennlichkeiten
maskulinität
maskulinitat
maskulinitaet
maskulinitäten
maskulinitaten
maskulinitaeten
montag
MONTAGES
montags
MONTAGE
MONTAGEN
oktober
oktobers
oktobern
egalität
egalitat
egalitaet
egalitäten
egalitaten
egalitaeten
gleichheit
gleichheiten
gleichstellung
gleichstellungen
gleichberechtigung
gleichberechtigung
en
parität
paritat
paritaet
paritäten
paritaten
paritaeten
4 probability
2 probabilities
likelihood
likelihoods
probabilidad probabilité
PROBABILID probabilite
ADES
probabilités
probabilites
probabilit probabilidade
à
PROBABILIDAD
probabilit ES
a
probabilitate
probabilitatea
probabilităţii
probabilitatii
probabilităţi
probabilitati
probabilităţile
probabilitatile
probabilităţilor
probabilitatilor
4 productivity
productivida productivité produttivi produtividade
productivitate
3 productivities d
productivite tà
produtividades productivitatea
productivene productivida productivité produttivi
productivităţii
ss
des
s
ta
productivitatii
productivene
productivite
productivităţi
sses
s
productivitati
productivităţile
productivitatile
productivităţilo
r
productivitatilo
r
4 puberty
pubertad
puberté
pubertà
puberdade
pubertate
4 puberties
pubertades puberte
puberta
puberdades
pubertatea
pubertés
pubertăţii
pubertes
pubertatii
pubertăţi
pubertati
pubertăţile
pubertatile
pubertăţilor
pubertatilor
4 responsibility responsabili responsabili responsa responsabilidad responsabilitat
5 responsibilitie dad
té
bilità
e
e
s
RESPONSAB responsabili responsa RESPONSABILI responsabilitat
liability
ILIDADES
te
bilita
DADES
ea
liabilities
responsabili
responsabilităţi
tés
i
responsabili
responsabilitati
tes
i
responsabilităţi
responsabilitati
responsabilităţi
le
responsabilitati
le
responsabilităţi
lor
responsabilitati
lor
probabilität
probabilitat
probabilitaet
probabilitäten
probabilitaten
probabilitaeten
wahrscheinlichkeit
wahrscheinlichkeite
n
produktivität
produktivitat
produktivitaet
produktivitäten
produktivitaten
produktivitaeten
pubertät
pubertat
pubertaet
pubertäten
pubertaten
pubertaeten
responsabilität
responsabilitat
responsabilitaet
responsabilitäten
responsabilitaten
responsabilitaeten
verantwortung
verantwortungen
4 sexuality
6 sexualities
sexualidad
SEXUALIDA
DES
sexualité
sexualite
sexualités
sexualites
sessualità sexualidade
sexualitate
sessualita SEXUALIDADES sexualitatea
sexualităţii
sexualitatii
sexualităţi
sexualitati
sexualităţile
sexualitatile
sexualităţilor
sexualitatilor
singularité
singolarit singularidade
singularitate
singularite
à
SINGULARIDAD singularitatea
singularités singolarit ES
singularităţii
singularites a
singularitatii
singularităţi
singularitati
singularităţile
singularitatile
singularităţilor
singularitatilor
supériorité superiorit superioridade
superioritate
superiorite à
SUPERIORIDAD superioritatea
supériorités superiorit ES
superiorităţii
superiorites a
superioritatii
superiorităţi
superioritati
superiorităţile
superioritatile
superiorităţilor
superioritatilor
4 singularity
7 singularities
singularidad
SINGULARID
ADES
4 superiority
8 superiorities
superioridad
SUPERIORID
ADES
4 thursday
9 thursdays
jueves
jeudi
jeudis
giovedì
giovedi
quinta-feira
quintas-feiras
JOI
JOIA
5 today
0
HOY
aujourde
hui
oggi
hoje
5 truth
1 truths
verdad
VERDADES
vérité
verite
vérités
verites
verità
verita
verdade
VERDADES
5 tuesday
2 tuesdays
martes
MARDI
mardis
martedì
martedi
terça-feira
terca-feira
terças-feiras
tercas-feiras
AZI
astăzi
astazi
adevăr
adevar
adevărul
adevarul
adevărului
adevarului
adevăruri
adevaruri
adevărurile
adevarurile
adevărurilor
adevarurilor
marţi
MARTI
marţea
martea
sexualität
sexualitat
sexualitaet
sexualitäten
sexualitaten
sexualitaeten
einzigartigkeit
einzigartigkeiten
singularität
singularitat
singularitaet
singularitäten
singularitaten
singularitaeten
superiorität
superioritat
superioritaet
superioritäten
superioritaten
superioritaeten
überlegenheit
uberlegenheit
ueberlegenheit
überlegenheiten
uberlegenheiten
ueberlegenheiten
donnerstag
donnerstages
donnerstags
donnerstage
donnerstagen
heute
wahrheit
wahrheiten
dienstag
dienstages
dienstags
dienstage
dienstagen
5 uniformity
3 uniformities
uniformitate
uniformitatea
uniformităţii
uniformitatii
uniformităţi
uniformitati
uniformităţile
uniformitatile
uniformităţilor
uniformitatilor
5 universality
universalida universalité universali universalidade universalitate
4 universalities d
universalite tà
UNIVERSALIDA universalitatea
UNIVERSALI universalité universali DES
universalităţii
DADES
s
ta
universalitatii
universalite
universalităţi
s
universalitati
universalităţile
universalitatile
universalităţilor
universalitatilor
5 university
universidad université
università universidade
universitate
5 universities
UNIVERSIDA universite
universita UNIVERSIDADE universitatea
DES
universités
S
universităţii
universites
universitatii
universităţi
universitati
universităţile
universitatile
universităţilor
universitatilor
5 wednesday
miércoles
mercredi
mercoledì quarta-feira
miercuri
6 wednesdays miercoles
mercredis
mercoledi quartas-feiras
miercurea
5 yellow
7
uniformidad
UNIFORMID
ADES
amarillo
amarilla
amarillos
amarillas
uniformité
uniformite
uniformités
uniformites
jaune
jaunes
uniformit uniformidade
à
UNIFORMIDADE
uniformit S
a
giallo
gialla
gialli
gialle
amarelo
amarela
amarelos
amarelas
galben
galbenă
galbena
galbeni
galbene
uniformität
uniformitat
uniformitaet
uniformitäten
uniformitaten
uniformitaeten
universalität
universalitat
universalitaet
universalitäten
universalitaten
universalitaeten
universität
universitat
universitaet
universitäten
universitaten
universitaeten
mittwoch
mittwoches
mittwochs
mittwoche
mittwochen
gelb
gelbe
gelber
gelbes
gelben
gelbem
Anexo 4: Seleção dos motores de busca para o estudo L5
Introdução
Os motores de busca utilizados pelo último estudo evoluíram e outros surgiram nos dois últimos anos. Um trabalho
sistemático de análise da compatibilidade dos motores disponíveis com a metodologia utilizada para este estudo
revelou-se necessário. Algumas incompatibilidades conduziram à eliminação de um certo número de motores. Os
motores de busca pré-selecionados (ver capítulo 4.1.1) foram: AltaVista, Fastsearch (Alltheweb), Google, Infoseek,
iWon e Northernlight, seis motores independentes uns dos outros ou até mesmo concorrentes no mercado da busca
por palavras-chaves em Internet.
Revelou-se que os resultados das medições de presença nas páginas da Web dos termos de nossa amostra variam
sensivelmente conforme o motor de busca utilizado. Para compreender melhor este fenômeno, que poderia
desqualificar definitivamente nossa metodologia, a partir do mês de agosto de 2000 foi realizado um estudo que
considera os seguintes elementos, suscetíveis de terem alguma influência na validez dos resultados:
- número de páginas indexadas,
- maneira de selecionar as páginas indexadas,
- coerência dos resultados de contagem apresentados.
Resultados por motor e por língua
Os resultados abaixo (tabela 16) apresentam o total do número de páginas em Internet que comportam cada um dos
1.600 variantes do estudo, em agosto de 2000. A coluna do inglês apresenta o total de páginas recenseadas (em
milhões) por motor de busca para o conjunto dos termos em inglês. As cifras contidas nas outras colunas
representam, para cada língua, a porcentagem, com relação ao inglês, do número total de páginas recenseadas. Por
exemplo, para iWon: 212 milhões de páginas foram contadas para os termos em inglês e 2,14 milhões para o
português (1,01% de 212).
Tabela 16: Resultados do estudo relativo aos 6 motores de busca pré-selecionados
AltaVista
Fast
Google
Infoseek
iWon
Northern
Light
Inglês
188 M
147M
210M
37M
212M
145M
Espanhol
9,28%
8,41%
7,86%
2,49%
4,13%
6,32%
Francês
9,56%
7,33%
7,33%
3,97%
2,64%
5,26%
Italiano
4,50%
4,60%
4,65%
2,98%
0,69%
3,66%
Português
3,98%
3,95%
2,82%
0,96%
1,01%
3,50%
Romeno
0,19%
0,37%
0,27%
0,03%
0,35%
0,26%
Alemão
16,06%
8,47%
7,89%
5,39%
5,44%
5,23%
Como podemos constatar, os resultados, exceto os de Fast e Google, apresentam variações importantes conforme o
motor de busca utilizado, o que nos leva a questionar seriamente a validez de nosso método. Assim sendo, torna-se
necessário analisar as especificidades de cada motor utilizado para compreender a razão dessas variações e também
para determinar que motores fornecem resultados rigorosos conforme nossos critérios.
Uma análise dos motores de busca exige um conhecimento prévio das características quantitativas da Internet.
Dados relativos a Internet e aos motores de busca
Qual o volume da Web?
Dispomos de alguns dados sobre este tema:
Em Janeiro de 2000, a Inktomi afirmava que a web havia ultrapassado um bilhão de páginas (que teriam
sido pré-indexadas por este motor).
De forma secundária, a Inktomi anuncia a cifra de 86,55% de páginas em inglês e 2,36% de páginas em
francês. É impressionante constatar que o resultado do francês é muito próximo dos valores que encontramos no
motor de busca iWon (que, por sua vez, utiliza o índex de Inktomi). Contudo, a cifra do inglês parece ser vítima de
um erro de referencial (ver 4.4.2).
Nova cifra da Inktomi em maio de 2000: 1,5 bilhões de páginas. A Inktomi sublinha que a proporção de
páginas repetidas nos mirror sites é superior a 20% (nos 6,5 milhões de provedores indexados encontraríamos 1,5
milhões de espelhos).
Estudo de cyberveillance search: 2,1 bilhões de páginas em julho de 2000, com um crescimento
exponencial de 7 milhões de novas páginas por dia. Este estudo assegura a existência de 84,7% de páginas em inglês
na Web.
Os motores de busca com os índex mais extensos
A competição intensifica-se no mercado dos motores de busca, o que provoca uma intensa motivação para o
aumento do tamanho dos índex. Os líderes na área da indexação da Web atualmente são:
Google: um bilhão de páginas indexadas26.
Webtop: 500 milhões de páginas indexadas, mas insuficientemente testado, por enquanto.
Inktomi: o novo índex de Inktomi, GEN3, que ainda não foi oficialmente utilizado por seus parceiros
(Hotbot, Snap, iWon), deveria conter 500 milhões de páginas (contrariamente a 110 para o antigo). Testes efetuados
por Searchengine Watch (http:www.searchenginewatch.com ) indicam que iWon já utiliza este índex expandido.
Efetivamente, iWon oferece resultados próximos de Google no tocante ao número total de páginas contadas em
inglês.
AltaVista: 350 milhões de páginas.
Fastsearch: 340 milhões de páginas, tendo por objetivo atingir 1 bilhão até o final do ano.
Northern Light: 265 milhões de páginas.
É importante constatar que os motores indexam uma proporção considerável do universo que nos interessa (entre 25
e 50%), o que torna possível a aplicação de nossa metodologia sem muitos riscos no âmbito estatístico27.
26
Parece que a metade delas não foi indexada diretamente, sendo objeto de um algoritmo original qua trabalha a
partir do texto dos links em direção a estas páginas. Não dispomos de precisões suficientes sobre a natureza deste
algoritmo para poder tirar conclusões, mas tudo leva a crer que não há nenhum impacto em nossas medidas.
27
Não obstante, nada nos impede pensar que para uma amostra da ordem de 25 a 50% do universo, possa existir uma
perpendicular na seleção do índex que favoreça as línguas mais utilizadas e, em primeiro lugar, o inglês. Em
particular, é extremamente provável que os sites mais recentes não sejam indexados tão rapidamente quanto os sites
mais antigos e que isso represente um prejuízo estatístico para as línguas jovens na Internet.
Como são indexadas as páginas?
Seria conveniente notar que nem todas as páginas detectadas pelos motores de busca encontram-se incluídas no
índex. A tabela abaixo indica o número de páginas realmente presentes no índex de certos motores de busca em
comparação com o volume anunciado do universo indexado28.
AltaVista
Fast
Excite
Inktomi
PÁGINAS
ANALISADAS
(milhões)
400
700
920
1000
PÁGINAS
INDEXADAS
(milhões)
250
400
250
110
É importante compreender como é feita a redução e em que medida pode afetar a validade dos resultados de nosso
estudo. Duas abordagens diferentes foram identificadas:
1.
Inktomi: Um índex de base de 110 milhões de páginas selecionadas e classificadas a partir de uma fonte de 1
bilhão de páginas. O critério de seleção para o índex de base é considerar somente as páginas cujo URL é o
mais intensamente citado (ou seja, as páginas que são objeto do maior número de links externos). Esta técnica
permite selecionar as páginas mais reconhecidas classificando-as facilmente em ordem de "celebridade",
conservando um tempo de resposta curto graças ao tamanho reduzido do índex de trabalho. Esta abordagem,
totalmente respeitável do ponto de vista do objetivo primeiro dos motores, é, infelizmente, desqualificativa para
a aplicação de nossa metodologia já que a repartição estatística das páginas é alterada por um algoritmo que
favorece certas páginas de maneira não neutra no plano lingüístico (as páginas mais populares, logo mais
freqüentes em inglês, terão uma maior probabilidade de fazer parte dos 110 milhões de escolhidas). Este
mecanismo mostra claramente suas conseqüências quanto ao romeno (os termos romenos apresentam resultados
anormalmente escassos, na maioria das vezes nulo).
2.
AltaVista, Excite, Fast, e Google: Um índex maior com uma seleção menos forte e, sobretudo, independente
do conteúdo (só são suprimidos os mirror sites e os que apresentam os erros 40129 ou 40430). Com esta técnica,
os índex são mais amplos; mesmo se eles não oferecem obrigatoriamente os resultados mais coerentes em
termos de pertinência, são compatíveis com nossa metodologia já que não deveriam favorecer uma língua em
detrimento de outra. Note-se que Google conserva uma imagem das páginas no momento em que elas foram
colocadas em seu índex, o que possibilita encontrar a informação mesmo quando a página indexada foi
eliminada da Web.
Validação dos motores de busca em função de nossa metodologia
AltaVista
AltaVista é, já há vários anos, um dos motores de busca mais utilizados na Web. Seu índex continua sendo um dos
mais amplos; não obstante, uma vez mais31,a utilização deste motor de busca no âmbito de nosso estudo não foi
possível. Com efeito:
• AltaVista "trunca os resultados"32. Esta disposição é tomada por AltaVista para chegar a reduzir seu
tempo de resposta no caso de seu provedor estar sobrecarregado (o motor de busca pode parar de
processar uma consulta e só fornecer um resultado parcial).
28
As cifras apresentadas no parágrafo anterior são de março de 2000 enquanto que estas são de julho de 2000, o que
explica as diferenças.
29
Ou seja, uma página de acesso restrito, não disponível ao grande público.
30
A saber, uma página inexistente num site referenciado corretamente.
31
AltaVista havia sido eliminado no estudo anterior pelas mesmas razões.
32
O que significa que ele não leva em consideração uma parte das páginas que respondem ao critério de busca,
acarretando uma redução no valor de contagem, que já não corresponde mais à realidade.
•
•
Como durante o estudo anterior, não nos foi possível estabelecer a natureza precisa da administração
dos sinais diacríticos; caso exista uma lógica, ela não nos foi revelada e, nessas condições, é impossível
realizar um trabalho sério.
Os valores mostrados para as contagens mudam de maneira aleatória; por exemplo, pode-se muito bem
ter um número de páginas diferente para a mesma consulta quando observamos os resultados de 1 a 10
ou de 11 a 20...
Infoseek
Infoseek tem um tamanho de índex muito limitado para ser utilizado no âmbito de nossa metodologia (podemos
constatá-lo nas cifras sobre as páginas em inglês: 36 milhões contra mais de 150 milhões para a maioria dos outros
motores). Esta limitação de indexação confere uma vantagem ao inglês com relação às outras línguas presentes em
Internet.
iWon
iWon utiliza o mesmo índex que Hotbot (Inktomi), o motor por nós utilizado no estudo anterior. A técnica de
seleção de páginas de Inktomi não é compatível com nossa metodologia, como explicado no parágrafo anterior.
Northern Light
Este motor não pôde ser utilizado em nosso estudo porque não reconhece os sinais diacríticos (em particular, não
interpreta corretamente os sinais utilizados pelo romeno). Além disso, busca os plurais dos termos sistematicamente
quando efetua consultas em inglês, mas não nas outras línguas.
Google
Esse motor, que pretende possuir o mais vasto índice no Web, fornece resultados rápidos. Foi descartado num
primeiro momento, pois, assim como AltaVista, fazia cortes em seus resultados. Esse inconveniente tendo sido
corrigido, foi então selecionado para a obtenção dos resultados finais. Contudo, na contagem de junho de 2001, os
signos diacríticos não sendo mais tratados de modo satisfatório, voltamos a descartá-lo.
Fastsearch
Fastsearch, que possui um dos índices mais vastos, fornece resultados rápidos, não faz cortes nos resultados, não
limita seu índice aos sites mais populares e trata os signos diacríticos de modo satisfatório, foi, portanto, o motor
selecionado para o estudo, em junho de 2001.
Conclusão
O motor de busca Fastsearch é o único, no momento das últimas medições (junho de 2001), que permite a
aplicação de nossa metodologia para medir a repartição das línguas na rede, e é dele, portanto, que provêm os
resultados finais. Mas o fato das cifras produzidas por Fastsearch e Google serem, até janeiro de 2001,
estatisticamente tão próximas (intervalos de confiança coincidindo muitas vezes) foi um elemento essencial para
continuarmos confiando na validade de nossa metodologia.
Anexo 5: Interface de automatização do estudo L5
Introdução
A obtenção de resultados no estudo do lugar das línguas latinas em Internet passa por um trabalho minucioso, longo
e repetitivo de medição dos resultados oferecidos pelos motores de busca. Com efeito, cada resultado final (por
motor de busca) exige uma contagem do número de páginas que contenham cada uma das quase 1.200 variantes dos
57 termos considerados (1.600 desde que o alemão foi integrado). Este processo vem seguido de correções manuais
para as 73 variantes que apresentam problemas de homografia (em maiúscula no quadro dos termos do anexo 3). Os
resultados obtidos para cada variante serão, depois, reunidos por termo e obteremos os 57 resultados, classificados
por língua. A seguir, será calculada a média dos resultados e o coeficiente de variância, bem como o intervalo de
confiança por língua para obter o resultado final. Sem esquecer, obviamente, a etapa minuciosa de verificação dos
resultados já que alguns deles certamente terão sido alterados por diversos erros de digitação ou de desatenção
engendrados pela forma repetitiva das tarefas...
Todos estes resultados por variante, termo ou finais não são em absoluto maleáveis em sua utilização; um erro
detectado a posteriori na retranscrição de um resultado necessita um novo cálculo sistemático de seu termo
associado, bem como um novo cálculo das estatísticas finais.
Assim sendo, uma automatização destes procedimentos manuais era desejável. Foi decidido investir na programação
de um algoritmo que, a partir das 1.600 formas, fosse capaz de facilitar sua busca nos motores de busca, recuperando
as contagens e organizando-as de maneira que, após as correções das homografias, pudessem efetuar o conjunto dos
cálculos estatísticos. Esta automatização também permite utilizar vários motores de busca sem impor um trabalho
suplementar excessivamente importante.
Tecnologia utilizada
Para permitir uma administração otimizada do conjunto, decidiu-se utilizar uma estrutura de base de dados como
eixo central de articulação das diferentes aplicações.
O administrador de base de dados escolhido foi PosgreSQL, de uso freqüente no mundo da Internet e, para executar
a interface entre a base de dados e os serviços da Web, escolheu-se a linguagem de programação PHP.
Detalhes de funcionamento do sistema
Base de dados
A base de dados comporta três tabelas de grande importância que são a base do sistema automatizado:
• Tabela das 1.600 variantes dos termos: nesta tabela são registradas as diferentes variantes da amostra, que
são classificadas conforme o termo e a língua à que pertencem e registradas com os parâmetros que lhes são
associados: homografias, etc. O anexo 3 é uma representação do conteúdo desta tabela.
•
Tabela dos resultados: nela são conservados todos os resultados (contagem das páginas) conseguidos, através
da interface PHP, dos serviços de motores de busca. Estes resultados são classificados em função das variantes
às quais estão ligados, e do motor no qual este resultado foi encontrado.
•
Tabela dos resultados por termo: Depois que as 1.600 variantes foram introduzidas na base e que os
resultados de cada uma delas foram obtidos, os resultados de cada termo são calculados. Isto é feito
adicionando-se os resultados das variantes pertencentes ao mesmo termo de uma mesma língua. Estes
resultados obtidos (classificados por palavra, motor e língua) serão utilizados para obter os resultados finais e
servirão de entrada para os cálculos estatísticos previstos.
O design é aberto graças aos parâmetros da lista das línguas e dos motores utilizados. Esta disposição possibilita
uma enorme flexibilidade à medida em que se pode adicionar à vontade novos termos, novos motores e novas
línguas.
Interfaces PHP
O programa PHP apresenta três tipos de interface:
Interfaces de digitação de dados
Estas interfaces servem para preencher os campos das variantes e os resultados da base de dados.
A primeira é uma interface usuário utilizada pela administração para a introdução das variantes e de suas
propriedades associadas33. A segunda é uma interface máquina que permite, para cada motor considerado, estocar os
resultados obtidos durante uma execução do programa. Os dados digitados na primeira interface são conservados
entre cada execução; os da segunda interface são volatilizáveis, substituídos a cada execução. Obviamente, os dados
substituídos no processo são previamente arquivados.
Interfaces de processamento dos dados
São de dois tipos: as que permitem modificar a tabela "resultado" das variantes e as que permitem calcular os
valores associados a cada palavra. As primeiras são utilizadas para corrigir os seguintes problemas de homografia:
As distorções mais freqüentes quanto às variantes são os plurais em -idades, comuns ao espanhol e ao
português. A repartição na contagem entre o espanhol e o português foi feita de forma automática
proporcionalmente aos resultados parciais do estudo. A partir dos resultados parciais, foram calculados os
coeficientes (por motor) do peso do espanhol com relação ao peso do português e estes coeficientes foram
aplicados para distribuir eqüitativamente os resultados das palavras em -idades entre o espanhol e o
português.
Há um caso de homografia a partir do romeno (cal e cai para cavalo: homógrafos de outras palavras em
espanhol, italiano, e português...). Por isso as formas cal e cai não foram contadas, o que penaliza o
romeno. Por sua vez, a forma caii também foi eliminada já que é homógrafa de siglas freqüentes em
Internet. Faca e facas significam são também duas formas de conjugação do verbo fazer: faça e faças, sem
diacríticos: o resultado indicado foi calculado a posteriori utilizando o mesmo método que o utilizado
para as palavras em -idades baseando-se nos coeficientes do português com relação ao inglês. A forma boli
(doença) é uma abreviação muito freqüente de bolígrafo em espanhol (caneta) e foi eliminada da
contagem. Joi (quinta-feira em romeno) é uma palavra de três letras e, assim sendo, sujeita a homografia
com siglas. Joia é homógrafa do português jóia sem diacrítico. O resultado indicado foi calculado a
posteriori utilizando o mesmo método que o utilizado para as palavras em -idades. Marti é homógrafo do
nome de um personagem célebre (José Martí, sem diacrítico), e seu resultado não foi contabilizado para o
romeno terça-feira. O resultado de mardi em francês foi subtraído do resultado de mardi gras para não
contabilizar esta forma freqüente em inglês.
As interfaces do segundo tipo atualizam a parte "resultados por termos" da base de dados.
Interfaces de apresentação dos resultados
A base de dados utilizada para estocar os resultados contém:
33
Língua, termos associados, problemas de homografia, variante sem diacríticos.
(a) 1.600 variantes de termos classificados por termo (57) e por língua (7)
(b) os resultados destas 1.600 variantes, medidos por 6 motores de busca (9.600 resultados)
(c) os resultados dos 57 termos, calculados a partir dos 9.600 resultados para 6 motores e 7 línguas (2.394
resultados). Estes resultados são visíveis em forma de cifras absolutas ou em proporção ao resultado do inglês.
O acesso a estas informações necessitou a criação de interfaces de apresentação dos resultados que deveriam
respeitar estas duas condições:
•
•
possibilitar a obtenção de resultados rápidos e precisos para o conjunto das informações disponíveis
dispor de resultados atualizados cada vez que se proceda a uma modificação na base de dados.
Já que a interface possibilitava o acesso aos resultados (a) foi possível criar o quadro do anexo 3. Os resultados de
(b) são apresentados no anexo 8, e os de (c), no anexo 9. A interface do anexo 9 calcula também a média, o desviopadrão e o coeficiente de variância dos resultados quando as porcentagens são apresentadas. Os resultados obtidos
por esta interface permitem ilustrar também as características dos motores de busca (anexo 4).
Conclusão e plano para a próxima versão
Este sistema apresenta uma melhoria incontestável com relação ao método manual. Ele transforma uma operação
lenta e fastidiosa que necessitaria 10 dias de trabalho para 1.200 variantes e um único motor de busca num trabalho
de 2 dias para 1.600 variantes e 6 motores de busca, com resultados de uso mais maleáveis. Este sistema possibilita,
ainda, uma fácil integração de outras línguas a serem estudadas, de outras amostras lingüísticas ou de outros motores
de busca.
Esta maleabilidade permite-nos prever o acréscimo de novas funcionalidades no futuro no tocante à base de dados e
às interfaces. Um armazenamento regular e datado dos resultados possibilitará uma análise dinâmica da evolução
da presença das línguas latinas estudadas em Internet e, assim, transformar este estudo num verdadeiro observatório
permanente destas evoluções. Estes resultados podem possibilitar, também, a avaliação da maneira utilizada por
cada motor para processar o plurilingüismo da Internet.
Anexo 6: Resultados das medidas de classificação por língua de
Fastsearch e comparação
Tabela 17: Resultados da classificação por língua de Fastsearch e comparação34
Fastsearch
2000
Africâner
Albanês
Fastsearch
% total
% total
% total
2001
parcial 2000 parcial 2001 absoluto
0,06
0%
0,01%
0,01%
% inglês
0,03
0%
0,01%
0,01%
0,01%
42,15
6,81%
7,57%
7,33%
12,58%
Árabe
0,16
0,57
0,05%
0,10%
0,10%
0,17%
Basco
0,04
0,05
0,01%
0,01%
0,01%
0,01%
0,03
0, %
0,01%
0,01%
0,01%
Bielorrusso
Búlgaro
0,06
0,16
0,02%
0,03%
0,03%
0,05%
Catalão
0,52
0,75
0,16%
0,13%
0,13%
0,22%
6,30
0%
1,13%
1,10%
1,88%
4,9
20,57
1,50%
3,70%
3,58%
6,14%
4,87
9,81
1,49%
1,76%
1,71%
2,93%
0,45
0%
0,08%
0,08%
0,13%
2,89
0,50%
0,52%
0,50%
0,86%
0,69
0%
0,12%
0,12%
0,21%
Chinês
simplificado
Chinês
tradicional
Coreano
Croata
Dinamarquê
s
Eslovaco
1,63
Esloveno
0,14
0,40
0,04%
0,07%
0,07%
0,12%
Espanhol
8,92
15,98
2,73%
2,87%
2,78%
4,77%
Estoniano
0,20
0,48
0,06%
0,09%
0,08%
0,14%
0,02
0, %
0%
0%
0,01%
1,33
2,64
0,41%
0,47%
0,46%
0,79%
10,66
19,15
3,27%
3,44%
3,33%
5,72%
0
0%
0%
0%
0%
0,39
0,00%
0,07%
0,07%
0,12%
Faroense
Finlandês
Francês
Frisão
Gaélico
Galego
0,01
0%
0%
0%
0%
Grego
0,31
0,66
0,09%
0,12%
0,11%
0,20%
Hebreu
0,21
0,30
0,06%
0,05%
0,05%
0,09%
Húngaro
0,57
1,36
0,17%
0,24%
0,24%
0,41%
0,76
0%
0,14%
0,13%
0,23%
220,78
335,04
67,63%
60,20%
58,27%
100 %
0,07%
Indonésio
Inglês
Islandês
0,15
0,25
0,05%
0,04%
0,04%
Italiano
5,67
10,77
1,74%
1,93%
1,87%
3,21%
Japonês
19,33
37,40
5,92%
6,72%
6,50%
11,16%
0,03
0%
0,01%
0,01%
0,01%
Latim
Letão
0,07
0,10
0,02%
0,02%
0,02%
0,03%
Lituano
0,11
0,16
0,03%
0,03%
0,03%
0,05%
0,17
0%
0,03%
0,03%
0,05%
Malaio
Neerlandês
3,77
6,83
1,15%
1,23%
1,19%
2,04%
Norueguês
1,44
2,62
0,44%
0,47%
0,46%
0,78%
34
Esse quadro não toma em conta páginas plurilíngües.
L5 (2001)
total
L4 (1998)
total
0,02%
22,24
Alemão
L5 (2001) %
inglês
13,4%
6,97%
10,95%
5,69%
2,53%
8,86%
4,61%
2,81%
52%
5,88%
3,06%
75%
1,50%
Polonês
1,08
3,36
0,33%
0,60%
0,58%
1%
Português
5,03
9,04
1,54%
1,62%
1,57%
2,70%
5,40%
2,81%
0,82%
Romeno
0,14
0,22
0,04%
0,04%
0,04%
0,07%
0,32%
0,17%
0,15%
Russo
7,04
12,76
2,16%
2,29%
2,22%
3,81%
Sueco
3,33
5,11
1,02%
0,92%
0,89%
1,53%
0,95
0%
0,17%
0,17%
0,28%
Tai
Tcheco
1,21
3,50
0,37%
0,63%
0,61%
1,04%
Turco
0,52
1,15
0,16%
0,21%
0,20%
0,34%
Ucraniano
0,30
0%
0,05%
0,05%
0,09%
Vietnamita
0,17
0%
0,03%
0,03%
0,05%
Total
estimado
Total parcial
340
575
326,43
556,59
(Cifras indicadas por Fastsearch)
Anexo 7: Critérios de seleção dos termos
O quadro abaixo particulariza o conjunto de critérios escolhidos para proceder à seleção dos termos da amostra.
Trata-se de critérios de filtragem para a aceitação de um termo. Para atingir os 57 termos da amostra, centenas de
outros foram eliminados.
Tabela 18: Critérios de seleção lingüística dos termos da amostra
CRITÉRIO
Neutralidade
cultural
Homografia
interlingüística
DÉFINIÇÃO
Propriedade de
uma palavra em
relação com a
freqüência de seu
aparecimento na
linguagem em
função da cultura.
EXEMPLOS
Vin, parfum,
gastronomie (vinho,
perfume,
gastronomia) e os
termos da linguagem
diplomática não são
culturalmente neutros
em francês.
Exemplo de grafia
A ortografia de
um termo numa idêntica: casa em
língua é idêntica à espanhol, em italiano e
de um termo numa em português.
outra língua. Isto Exemplos de falsos
concerne tanto as cognatos: red em
grafias idênticas espanhol (rede), red
que possuem o
em inglês (vermelho);
hier em francês
mesmo sentido
quanto os "falsos (ontem) e hier em
cognatos".
alemão (aqui).
Quando uma
Homografia
interlingüística por palavra de uma
língua é aceita tal
empréstimo
qual numa outra
língua.
Homografia com
uma abreviação
Homografia com
um nome próprio
freqüente
Os anglicismos como
business, sandwich ou
software.
Reciprocamente, deja
vu em inglês
(homógrafo do francês
sem diacríticos).
Número sept (em
francês) com as
abreviações de
septembre e,
sobretudo, September
(inglês).
Julio, julho em
espanhol, e o nome
espanhol muito
freqüente com o
mesmo significante.
Windows significa
janela em inglês....
mas é também o nome
de um programa
informático muito
MÉTODO
A fim de obter uma
amostra com o menor
coeficiente de variância
possível, foram
eliminados os termos
culturalmente não
neutros.
COMENTÁRIOS
Eliminar da amostra os
termos que apresentam
esta característica (com
ou sem diacríticos).
Somente são levadas em
consideração as
homografias entre as
línguas do estudo e/ou
com línguas muito
presentes na Internet
(como o alemão). Para
evitar o risco estatístico
de homografia com
línguas estranhas ao
estudo, foram eliminadas
as palavras de menos de
quatro letras.
Eliminação da amostra
dos termos emprestados.
Evitar estes termos.
Eliminar os termos desta
categoria
Estamos relativamente
protegidos por nossa
instrução de evitar as
palavras de menos de
quatro letras.
citado no espaço
Internet.
Ambasador em
romeno e
amba(s)sador em
inglês.
Pseudohomografia
interlingüística
Escrever um
termo com um
erro comum de
ortografia
corresponde a um
termo numa outra
língua.
Significados não
equivalentes
Prix em francês
Evitar estes termos ou, se
significa ao mesmo
possível, compará-los
escrupulosamente
tempo prêmio e
preço, premio e precio incluindo todos os
(espanhol), price e
significantes que
prime (inglês).
completariam um
significado equivalente
nas línguas que o exijam.
O inglês, muito
Love em inglês é ao
Evitar estes termos.
Esta característica do
inglês leva-nos a
diferente do ponto mesmo tempo o termo
de vista sintático que significa amor e o
eliminar a priori os
das outras línguas verbo amar: no
verbos
estudadas, possui infinitivo, no presente
muitas vezes a
do indicativo (amo,
mesma forma
amas, amamos, amais,
como nome e
amam), etc.
variante verbal,
equivalente por
sua vez a várias
formas da
conjugação nas
outras línguas.
Os adjetivos,
O adjetivo inglês
Procurar multiplicar as
invariáveis em
yellow corresponde a variantes em gênero,
inglês, variam em amarelo /amarela /
número e caso nas outras
gênero e número amarelos/ amarelas. línguas, quando a
nas outras línguas O substantivo inglês necessidade de
estudadas. Os
equivalência o exigir.
instability /
substantivos, que instabilities às
só variam, em
seguintes variantes
geral, em número romenas:
nas outras línguas, instabilitate /
instabilitatea /
variam também
conforme o caso instabilităţii /
instabilităţi /
(nominativo,
instabilităţile /
genitivo, etc.) e
apresentam uma instabilităţilor (não
incluímos aqui as
diferença
determinado / não variantes sem
determinado em diacríticos).
romeno.
Quando uma
Dependendo do país Tentar multiplicar as
língua possui mais hispanófono, pode-se variantes sinonímicas
de um centro
dizer nafta ou
nacionais ou regionais no
normativo léxico- gasolina. Americano, tocante às equivalências,
semântico.
em certos países
quando possível.
Morfossintaxe não
equivalente: nome,
verbo
Morfossintaxe não
equivalente:
adjetivos e nomes
Pluricentrismo
léxico e semântico
O caso é eliminado
somente se a língua de
chegada for o inglês.
Pluricentrismo
ortográfico
hispanoparlantes da
América Latina, não
tem o mesmo sentido
que em outros ou na
Espanha ("pertencente
ao conjunto do
continente" ou
"pertencente aos
Estados Unidos").
Quando uma
É o caso do inglês e,
língua possui mais sobretudo, do
de um centro
português. Certos
normativo
termos são
ortográfico.
ortografados de forma
diferente nos Estados
Unidos e na Inglaterra,
(theater e theatre), em
Portugal e no Brasil
(electricidade e
eletricidade).
Procurar multiplicar as
variantes ortográficas
nacionais quanto às
equivalências, sempre
que possível.
LOCUL
LIMBILOR LATINE
PE INTERNET
EDIŢIA 2001
Studiu propus de:
FUNREDES (Asociaţia Reţele şi Dezvoltare) http://funredes.org
Uniunea Latină http://www.unilat.org
Studiu realizat în perioada august 2000 - iunie 2001
Drepturi de autor şi de exploatare © 2000-2001, Funredes, Uniunea Latină.
CUPRINS
1- PROLOG ŞI ANTECEDENTE ................................................................................. 4
2. AUTORI .............................................................................................................. 5
3. PREZENTAREA GENERALĂ A STUDIULUI ŞI A REZULTATELOR SALE ................... 6
3.1 METODOLOGIE ......................................................................................................6
3.2. SINTEZĂ COMENTATĂ A REZULTATELOR .......................................................................6
3.2.1. Rezultate relative în raport cu limba engleză .................................................6
3.2.2 Rezultate absolute........................................................................................7
3.3. RELAŢIA DINTRE NUMĂRUL LOCUTORILOR ŞI PREZENŢA LOR PE INTERNET .................................7
3.4. VITALITATEA PRODUCERII DE INFORMAŢII DE CĂTRE INTERNAUŢI ÎN FUNCŢIE DE LIMBA LOR ............8
4. REZULTATELE ÎN DETALIU ............................................................................... 11
4.1 METODOLOGIE INTERNET ........................................................................................ 11
4.1.1. Identificarea şi preselectarea principalelor motoare de căutare disponibile pe
Web
11
4.1.2 Validarea motoarelor selecţionate în funcţie de metodologia folosită ................. 11
4.1.3 Selectarea finală a motoarelor de căutare pentru aplicarea metodologiei ........... 12
4.2. METODOLOGIE LINGVISTICĂ ................................................................................. 12
4.2.1 Problemele noi apărute pentru limba germană ............................................... 13
4.2.2 Alte probleme ............................................................................................ 13
4.3. METODOLOGIE STATISTICĂ ................................................................................... 13
4.3.1. Rezultatele măsurătorilor cu motoarele de căutare preselecţionate ................ 14
4.3.2. Calculele statistice şi rezultatele pentru limba engleză.................................. 14
4.3.3. Calculul rezultatelor absolute .................................................................... 14
4.4. COMPARAŢIE CU ALTE STUDII ................................................................................ 16
4.4.1. Comparaţie cu studiile precedente ............................................................. 16
4.4.2. Comparaţie cu studiile similare (Alis şi Inktomi) .......................................... 16
5. TENDINŢA EVOLUŢIEI LIMBILOR STUDIATE................................................... 18
6. PERSPECTIVE PENTRU O CONTINUARE A OBSERVAŢIEI ................................. 20
7. REFERINŢELE PE INTERNET PRIVIND LUCRĂRILE CONEXE............................. 21
ANEXA 1: RECAPITULAREA REFERINŢELOR DIVERSELOR STUDII REALIZATE DE
AUTORI ................................................................................................................ 22
ANEXA 2: VIZUALIZAREA INTERVALELOR DE ÎNCREDERE PENTRU REZULTATELE PE
FIECARE LIMBĂ .................................................................................................... 24
ANEXA 3: LISTA TERMENILOR EŞANTIONULUI DE REFERINŢĂ............................. 25
ANEXA 4: SELECTAREA MOTOARELOR DE CĂUTARE PENTRU STUDIUL L5 ............ 38
INTRODUCERE .......................................................................................................... 38
REZULTATELE, PE FIECARE LIMBĂ, ÎN FUNCŢIE DE MOTORUL DE CĂUTARE ...................................... 38
Date referitoare la Internet şi la motoarele de căutare ............................................ 39
Validarea motoarelor de căutare în funcţie de metodologia noastră ........................... 41
CONCLUZIE ........................................................................ ERREUR ! SIGNET NON DEFINI.
ANEXA 5: INTERFAŢA DE AUTOMATIZARE A STUDIULUI L5 ................................. 43
INTRODUCERE .......................................................................................................... 43
TEHNOLOGIA UTILIZATĂ............................................................................................... 43
DETALIILE FUNCŢIONĂRII SISTEMULUI .............................................................................. 43
Baza de date...................................................................................................... 43
Interfeţele PHP................................................................................................ 44
CONCLUZII ŞI PLAN PENTRU VERSIUNEA VIITOARE ................................................................ 45
ANEXA 6: REZULTATELE MĂSURĂTORILOR CLASAMENTULUI PE LIMBI CU
FASTSEARCH ŞI COMPARAŢIE .............................................................................. 47
ANEXA 7: CRITERII DE SELECŢIE A TERMENILOR ................................................ 49
ANEXA 8: REZULTATUL CONTORIZĂRII FIECĂREI VARIANTE PE TERMEN ŞI PE
MOTOR (în curs de elaborare, în franceză)
ANEXA 9: REZULTATUL CONTORIZĂRII TERMENILOR PE FIECARE MOTOR (în curs
de elaborare, în franceză)
Referinţele tabelelor
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
Tabelul
1: Mediile limbii neolatine (şi limbii germane) în raport cu limba engleză................6
2: Prezenţa absolută pe Internet a limbilor studiate.............................................7
3: Ponderea limbilor studiate (cifre rotunjite în milioane) .....................................8
4: Prezenţa ponderată a limbilor studiate în spaţiul WWW ....................................8
5: Numărul internauţilor clasaţi în funcţie de limbă (în milioane) ...........................9
6: Productivitatea locutorilor.............................................................................9
7: Detaliile rezultatelor statistice ..................................................................... 14
8: Ipoteza progresiei ponderii limbilor studiate ................................................. 15
9: Evoluţiile raporturilor între ponderea limbilor franceză, spaniolă şi engleză ....... 16
10: Rezultatele studiului Inktomi (februarie 2000)............................................. 16
11: Rezultatele obţinute cu Fastsearch în august 2000, ianuarie 2001, iunie 2001. 18
12: Tendinţe de evoluţie ................................................................................ 18
13: Recapitularea referinţelor şi studiilor realizate de autori ............................... 22
14: Vizualizarea intervalelor de încredere ......................................................... 24
15: Liste termenilor eşantionului de referinţă ................................................... 25
16: Rezultatele studiului pentru cele 6 motoare de căutare preselecţionate .......... 38
17: Rezultatele clasamentului pe limbi obţinut cu Fastsearch şi comparaţie .......... 47
18: Criterii de selecţie lingvistică ai termenilor eşantionului ................................ 49
1- Prolog şi antecedente
Acest studiu continuă lucrările realizate de Funredes, între anii 1995 şi 19981, privind locul
limbilor şi al culturilor neolatine pe Internet. Această ediţie se concentrează pe studiul
limbilor. A fost păstrat principiul metodologic de bază care şi-a demonstrat soliditatea cu
ocazia ediţiei precedente a studiului. Este vorba de măsurarea, în anumite spaţii Internet2, a
numărului de menţionări sau de ocurenţe a 57 cuvinte sau termeni având o semnificaţie
echivalentă în limbile studiate (engleză, franceză, italiană, portugheză, română, spaniolă),
analizând şi comparând apoi rezultatele pentru a deduce, prin metode statistice, prezenţa,
în procente, a fiecăreia dintre limbi. A fost luată în considerare o primă extindere a studiului
la limba germană (cu intenţia de a-l lărgi, în continuare, şi la alte limbi).
Spaţiul motoarelor de căutare a evoluat foarte mult de la studiul precedent, ceea ce a
condus la o analiză a implicaţiilor schimbărilor asupra metodologiei noastre; în consecinţă,
s-au produs ameliorări sensibile faţă de cercetările precedente.
•
•
•
Aplicarea mai multor motoare de căutare, selecţionate atent în prealabil, în
scopul obţinerii de rezultate cât de riguroase posibil.
Automatizarea numărătorilor şi a calculelor cu ajutorul unui program având rolul de
interfaţă între termenii de contorizat, înregistraţi în baze de date, şi motoarele de
căutare. Această investiţie va permite, în viitor, publicarea de rezultate la intervale
regulate, realizându-se, astfel, o observare reală.
Sistematizarea
prelucrării
omografiilor
interlingvistice
printr-o
gestiune
automatizată, mai solidă pe plan metodologic.
Pe de altă parte, au fost corectate anumite erori care s-au strecurat în câteva ocurenţe
ale eşantionului3. În plus, s-a făcut un prim pas pentru extinderea studiului la limba
germană, fără a schimba, pentru moment, metoda de căutare a acestor ocurenţe,
obţinând însă rezultate net mai imprecise decât pentru celelalte limbi4.
Se vor face referiri la etapele anterioare acestui studiu. Pentru a ajuta cititorul, o sinteză a
demersurilor şi a rezultatelor anterioare, cu legăturile Internet asociate, permite accesul la
documentele corespunzătoare în anexa 1.
1
Cu sprijinul Agenţiei pentru Francofonie pentru ediţia a IV-a şi în colaborare cu Uniunea
Latină începând cu cea de a III-a ediţie.
2
În această ediţie a fost luat în considerare numai spaţiul web (pagini de Internet), fără
spaţiul Usenet.
3
Este vorba de erori minore care nu au produs o abatere notabilă faţă de rezultatele
publicate în studiul precedent.
4
Forma de compunere a cuvintelor în germană face ca această cercetare, aşa cum este
făcută pentru celelalte limbi, să dea valori peste realitatea lingvistică. Rezultatele pe care le
prezentăm, având corecţiile introduse în exponent, sunt încă aproximative. Problemele pe
care le pune adaptarea metodologiei noastre la limba germană sunt detaliate în capitolul
4.2.1.
2. Autori
Echipa de lucru:
Coordonare generală:
Conducerea studiului:
Supervizare lingvistică:
Responsabil lingvistic:
Echipa lingvistică:
Daniel Pimienta ([email protected])
Benoit Lamey ([email protected]), sub direcţia lui Daniel
Pimienta
Daniel Prado ([email protected])
Marcelo Sztrum ([email protected])
Direcţia Terminologie şi Inginerie Lingvistică a Uniunii Latine
Automatizarea măsurătorilor
şi a calculelor lingvistice5: Benoit Lamey ([email protected])
5
Mulţumim călduros lui Roger Price pentru sprijinul acordat.
3. Prezentarea generală a studiului şi a rezultatelor sale
3.1 Metodologie
Rezultatele sunt obţinute păstrând metodologia urmată începând din anul 1998. Mai întâi se
realizează o selecţie cuprinzând 57 de termeni pentru fiecare limbă, fiecare admiţând
variante ortografice în funcţie de semnele diacritice, variante sinonimice, dialectale sau
morfosintactice şi care au aceeaşi semnificaţie în limbile studiate (detaliile criteriilor
lingvistice: în 4.2 şi anexa 7). În continuare, se analizează şi se compară rezultatele pentru
a deduce, în procente, prezenţa fiecărei limbi. Pentru fiecare termen, raportul limbilor latine
faţă de limba engleză este utilizat ca o variabilă aleatorie, fiind aplicate tehnici statistice
care iau ca ipoteză o distribuţie matematică curentă a acestei variabile aleatorii (curba lui
Gauss, numită şi distribuţie „normală“).
Rezultatele prezentate mai jos au fost obţinute prin sinteza scorurilor obţinute cu două
motoare de căutare care au îndeplinit criteriile de selecţie descrise în anexa 4. Toate
măsurătorile luate în calcul în acest studiu au fost efectuate în perioada august 2000 iunie 2001.
3.2.Sinteză comentată a rezultatelor
3.2.1. Rezultate relative în raport cu limba engleză
Tabelul următor prezintă raportul mediu între fiecare limbă neolatină (şi limba germană) şi
limba engleză, obţinut prin contorizarea ocurenţelor noastre în spaţiul Web în iunie 2001.
Tabelul 1: Mediile limbii neolatine (şi limbii germane) în raport cu limba engleză
6
SPANIOLĂ
10,95%
FRANCEZĂ
8,86%
ITALIANĂ
5,88%
PORTUGHEZĂ
5,40%
ROMÂNĂ
0,32%
GERMANĂ
> 13,42%
estimat6
Există, în această versiune a studiului, o diferenţă calitativă între rezultatele obţinute
pentru limba germană şi cele pentru celelalte limbi. Într-adevăr, formarea cuvintelor în
limba germană, foarte diferită faţă de celelalte limbi studiate până în prezent, ar „sancţionao“ greu dacă am considera rezultatele obţinute cerând motoarelor noastre să facă o căutare
“după cuvânt izolat” sau separat, adică fără nici un context înainte sau după termen. Pentru
a obţine rezultate la fel de fiabile ca acelea stabilite pentru celelalte limbi, ar trebui, într-o
etapă viitoare, să se realizeze căutări „după fiecare cuvânt neizolat“ (i.e.: cu context
nedeterminat înainte şi după termen) şi să utilizeze, ca ajutor, în măsura posibilităţilor, un
factor numeric care exprimă diferenţa de cantitate a cuvintelor separate, în general între
limbile studiate şi limba germană. Am ales ca soluţie păstrarea eşantionului şi extinderea lui
la 57 de termeni germani echivalenţi şi căutarea şi după cuvânt izolat. Ni s-a părut
necesară, pentru a începe să ne apropiem de această realitate lingvistică, o corecţie de cel
3.2.2 Rezultate absolute
Rezultatele pe care tocmai le-am citat permit evaluarea prezenţei limbilor neolatine şi,
aproximativ, a limbii germane faţă de limba engleză; pentru a estima prezenţa absolută a
acestor limbi în spaţiul Internet, este necesar, ca în prealabil, să construim o ipoteză privind
prezenţa limbii engleze. Tabelul de mai jos arată valorile prezenţei absolute, stabilite
plecând de la mediile pentru diverse ipoteze privind prezenţa limbii engleze.
Tabelul 2: Prezenţa absolută pe Internet a limbilor studiate
Dacă ENGLEZA=
65%
60%
55%
52%
50%
45%
atunci SPANIOLA =
7,12%
6,57%
6,02%
5,69%
5,48%
4,93% 4,38%
atunci FRANCEZA =
5,76%
5,32%
4,87%
4,61%
4,43%
3,99% 3,54%
atunci ITALIANA =
3,82%
3,53%
3,23%
3,06%
2,94%
2,65% 2,35%
atunci PORTUGHEZA =
3,51%
3,24%
2,97%
2,81%
2,70%
2,43% 2,16%
atunci ROMÂNA =
0,21%
0,19%
0,18%
0,17%
0,16%
0,14% 0,13%
atunci GERMANA7
8,71 %
8,04%
7,37%
6,97%
6,70%
6.03% 5,37%
Va rămâne deci un
spaţiu pentru celelalte
limbi
5,83%
13,10% 20,35% 24,96% 27,59% 34,83
%
40%
42,07
%
Acest tabel ne oferă o imagine mai precisă a ponderii absolute a limbilor studiate faţa de
ansamblul paginilor prezente pe Internet. Unul din indicatorii cei mai semnificativi este cel al
spaţiului disponibil pentru limbile rămase care ne permite să selectăm ipoteza unei prezenţe
absolute a limbii engleze de aproximativ 52% ca fiind cea mai probabilă.
Pentru aceasta, este suficient să considerăm limbile chineză şi japoneză, care, foarte
verosimil, au o pondere de acelaşi ordin ca şi limbile germană sau spaniolă (între 5 şi 8%),
la fel cu limbile care au o reprezentare între 0,5% şi 2% (coreeană, olandeză, rusă şi cele
patru limbi scandinave care însumează un total între 8% şi 10%), limbile cu o prezenţă
foarte slabă, cum este româna (şi anume zece limbi cu 0,1% pentru un total de 1%) şi, în
final, numeroasele limbi a căror prezenţă rămâne marginală. Această ultimă proporţie este
cel mai dificil de estimat; reţinem ipoteza că cele 200 de limbi cu 0,01% au atins un total de
2%... Una din marile necunoscute, ale cărei consecinţe rămân de evaluat în viitor, este
posibila multiplicare a limbilor pe Internet, totalul limbilor existente fiind între 3000 şi 6000.
Aceste estimări ne fac să ajungem la o pondere totală de 25% pentru limbile nestudiate şi,
deci, ne îndeamnă să susţinem ipoteza unei prezenţe absolute de 52% pentru limba
engleză.
Estimarea de 25% pentru ponderea limbilor neluate în calcul direct în studiu este susţinută
de evoluţia dinamică a ponderilor acestor limbi descrisă în capitolul 4.3.3.
3.3. Relaţia dintre numărul locutorilor şi prezenţa lor pe Internet
Este evident că valorile prezenţei absolute nu sunt un indicator perfect al vigorii unei limbi în
reţelele internaţionale. Pentru a obţine un rezultat semnificativ ar trebui să se proporţioneze
puţin 30 % în plus faţă de rezultatele astfel obţinute. Cifra de 13,42% s-a obţinut prin
aplicarea unei creşteri de 30% primului rezultat brut de 10,32%.
7
Rezultate majorate cu 30% (vezi nota 6).
valorile care exprimă prezenţa limbilor pe Internet cu o valoare a prezenţei lor în lumea
reală. Prezenţa relativă a limbilor este calculată fără a ţine seama în totalitate de factorul
„plurilingvism“. Această metodă implică anumite dificultăţi metodologice care au fost
descrise în studiul L4.
Tabelul 3: Ponderea limbilor studiate (cifre rotunjite în milioane)
Engleză
Prezenţă absolută
630
(număr de
locutori)
Prezenţă relativă
10,50%
(procentaj
mondial)
Franceză Italian Portugh Română Spaniolă
ă
eză
130
60
190
30
375
2,17%
1%
3,17%
0,50%
Germană
6,25%
120
2%
Tabelul 4: Prezenţa ponderată a limbilor studiate în spaţiul WWW
Prezenţă
absolută
2001
Prezenţă
ponderată
1998
Prezenţă
ponderată
2000
Prezenţă
ponderată
2001
ENGLEZĂ
52%
7,14
5,71
4,95
FRANCEZĂ
4,61%
1,30
2,02
2,12
ITALIANĂ
3,06%
1,50
2,77
3,06
PORTUGHEZĂ
2,81%
0,26
0,68
0,88
ROMÂNĂ
0,17%
0,30
0,38
0,34
SPANIOLĂ
5,69%
0,40
GERMANĂ
6,97%
Nedisponibil
0,78
3,158
0,91
3,499
Un rezultat egal cu 1 este, deci, considerat „normal“, dacă este inferior lui 1 este considerat
slab şi dacă este superior lui 1– respectabil.
Un progres important pentru spaniolă şi portugheză, dar ele rămân, totuşi, sub pragul unei
reprezentări „normale”. Scor excelent pentru germană şi italiană şi rezultat bun pentru
franceză.
3.4. Vitalitatea producerii de informaţii de către internauţi în funcţie de limba lor
Un studiu Global Reach, ale cărui ultime rezultate au fost publicate la date de 31 martie
2001 (http//:www.glreach.com), propune o valoare pentru numărul de utilizatori ai
Internetului pentru fiecare limbă:
8
9
Rezultate majorate cu 30% (vezi nota 6).
Rezultate majorate cu 30% (vezi nota 6).
Tabelul 5: Numărul internauţilor clasaţi în funcţie de limbă (în milioane)
Spaniolă
Englez
Portug
Franceză Italiană
Română
Germană Restul
ă
heză
Internauţi
(în
milioane)
215,6
16,6
14,2
11,5
0,6
20,4
Repartiţii
în %
47,6%
3,7%
3,1%
2,5%
0,13%
4,5%
27,5
146,2
6,1%
32,2%
Comparând aceste rezultate cu cele obţinute prin studiul nostru (a se vedea Tabelul 6), ar
trebui să putem deduce care sunt segmentele lingvistice care produc cea mai multă
informaţie pe Internet.
Tabelul 6: Productivitatea locutorilor
ENGLEZĂ
Pagini
52%
Internauţi
47,6%
P/I
1,09
FRANCEZĂ
4,61%%
3,7%
1,25
ITALIANĂ
3,06%%
3,1%
0,98
PORTUGHEZĂ
2,81%%
2,5%
1,12
ROMÂNĂ
0,17%%
0,13%
1,31
SPANIOLĂ
5,69%
6,97%%10
4,5%
1,26
6,1%
1,14
GERMANĂ
Am obţinut un rezultat destul de important: proporţia paginilor disponibile pe Internet
pentru fiecare limbă şi proporţia internauţilor prezenţi au acelaşi ordin de mărime !
Raportul dintre procentajul paginilor şi procentajul utilizatorilor are valori în jurul lui 1
pentru toate limbile studiate11, de unde ar rezulta că, în prezent, cantitatea de pagini Web
produse pentru o limbă este direct proporţională cu numărul internauţilor care vorbesc
această limbă. Rezultatul obţinut de limba engleză ne surprinde: am fi putut să ne aşteptăm
la o valoare mult mai mare sub influenţa plurilingvismului12. Aceasta ar putea, deci, să
însemne că productivitatea locutorilor de limbă engleză este inferioară celei a locutorilor
altor limbi menţionate, să fie dovada unui avans în producţia locutorilor altor limbi
10
Rezultate majorate cu 30% (vezi nota 6).
Diferenţele sunt mai mici de 25% în valoare absolută şi este dificil să tragem concluzii în
ceea ce priveşte aceste diferenţe foarte mici, care sunt cuprinse în intervalele de încredere
ale cifrelor anunţate de Global Reach, care nu beneficiază de o metodologie standard pentru
toate limbile.
12
Proporţia locutorilor de limbi diferite de limba engleză care produc pagini în această limbă
(sau traduc paginile lor în engleză) este, se ştie, foarte mare.
11
occidentale, conştienţi de miza lingvistică a Internetului ? Ar fi foarte interesant să aflăm
aceste valori pentru cele mai recente limbi de pe Internet.
4 Rezultatele în detaliu
4.1 Metodologie Internet
Evoluţia accelerată, de la ultimul nostru studiu, a motoarelor de căutare aflate pe Internet a
făcut necesară o muncă suplimentară şi o analiză în profunzime a metodologiei Internet
utilizate pentru obţinerea rezultatelor. Această muncă suplimentară a cuprins 3 etape:
Identificarea motoarelor de căutare şi realizarea unei preselecţii.
Verificarea lor în ceea ce priveşte numărarea termenilor13.
Selectarea motoarelor care oferă cele mai bune garanţii pentru aplicarea metodologiei
noastre.
4.1.1. Identificarea şi preselectarea principalelor motoare de căutare disponibile pe
Web
În această etapă au fost identificate următoarele motoare: AltaVista, Excite, Fastsearch14,
Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo şi Webtop.
Webtop, cel mai nou motor de căutare, n-a fost încă suficient testat pentru ca să decidem
să ne asumăm riscul de a-l include. Hotbot, Lycos şi Yahoo au fost eliminate pentru că sunt
în parteneriat cu alte motoare de căutare şi furnizează aceleaşi rezultate: Lycos utilizează
indexul lui Fastsearch, şi Yahoo pe cel al lui Google. Hotbot şi iWon utilizează acelaşi index
furnizat de Inktomi. Hotbot, pe care l-am ales pentru studiul precedent, n-a putut fi
reutilizat, din păcate, pentru că nu mai indică rezultatele numărătorilor. Inktomi nu oferă
direct utilizatorilor serviciile indexului său, rămâne deci iWon. În ceea ce priveşte Excite, nu
a putut fi folosit, la fel ca şi Hotbot, nu furnizează rezultatele în momentul numărătorilor15.
Au rămas, deci, în cursă şase motoare: AltaVista, Fastsearch, Google, Infoseek, iWon
şi Northern Light.
4.1.2 Validarea motoarelor selecţionate în funcţie de metodologia folosită
O automatizare a procedeului de măsurare, detaliată în anexa 5, a permis producerea de
rezultate pentru 6 motoare de căutare preselectate, fiecare prelucrând cele aproximativ
1600 de variante ale celor 57 de termeni selectaţi pentru fiecare limbă. Rezultatele obţinute
au arătat mari divergenţe între motoare. ceea ce ne-a ridicat mari semne de întrebare în
ceea ce priveşte metodologia noastră ! A reieşit cu claritate că trebuia făcut un efort de
analiză amănunţită pentru a explica aceste divergenţe şi a detecta motoarele care oferă
rezultatele cele mai credibile.
13
Trebuie înţeles foarte bine că rezultatele numărătorilor sunt, în întregime, anexe funcţiei
principale a motoarelor care este de a identifica paginile care conţin termenii căutaţi într-un
ordin de relevanţă maximală. Anumite motoare furnizează valori ale totalului paginilor care
răspund criteriului de căutare, altele nu. În toate cazurile trebuie luate toate precauţiile
pentru a verifica foarte bine fiabilitatea datelor obţinute în urma numărătorilor.
14
Cunoscut şi sub numele de Alltheweb.
15
Acest neajuns a fost corectat între timp, rezultatele obţinute cu Excite vor fi luate în calcul
la următoarea versiune a studiului, dacă îşi menţine această funcţie.
Au fost definite mai multe criterii pentru a valida utilizarea unui motor de căutare pentru
prezentul studiu. Un motor de căutare ca să poată fi un instrument al aplicării metodologiei
noastre trebuie să posede următoarele caracteristici:
să aibă un index suficient de mare în raport cu întinderea Internetului,
să ia în calcul, într-o manieră coerentă, semnele diacritice,
să ofere rezultate coerente în ceea ce priveşte numărarea paginilor găsite,
să dispună de un index omogen pentru toate limbile.
Rezultatele obţinute pentru fiecare motor, detaliile selectării lor, precum şi alte informaţii
generale care privesc motoarele de căutare sunt disponibile în anexa 4.
4.1.3 Selectarea finală a motoarelor de căutare pentru aplicarea metodologiei
Din totalul motoarelor preselectate au fost reţinute numai două, Google şi Fastsearch,
pentru a servi, la momentul realizării primelor măsurători în august 2000, ca suport unui
studiu privind prezenţa diferitelor limbi pe Internet. În acest prim moment, rezultatele lor au
fost utilizate concomitent16 la obţinerea rezultatelor finale. Proximitatea rezultatelor obţinute
cu fiecare motor, plecând de la un index şi de la tehnici de căutare diferite, ni s-a părut a fi
un bun argument pentru validitatea metodologiei noastre:
Engleză17
Google
210
Fast
147
Spaniolă
7,86%
8,41%
Franceză Italiană Portugheză Română Germană18
7,33%
4,65%
2,82%
0,27%
7,89%
7,33%
4,60%
3,95%
0,37%
8,47%
Însă, cu ocazia ultimei contorizări, realizată în iunie 2001, s-a dovedit că Google nu mai
trata semnele diacritice într-o manieră satisfăcătoare şi de aceea am renunţat la rezultatele
sale.
4.2.
Metodologie lingvistică
În afară de introducerea, ca un prim pas în extinderea cercetării, a echivalentelor pentru
limba germană şi de corectarea anumitor erori care au apărut la scrierea variantelor19,
metodologia lingvistică rămâne neschimbată faţă de versiunea precedentă a studiului.
Celor 57 de termeni selectaţi în 1998 li s-au adăugat echivalentele în limba germană.
Fiecare termen, având un anumit număr de variante (ortografice, în funcţie de semnele
diacritice, sinonimice, dialectale, morfosintactice …) a fost păstrat în continuare, fiind
considerat atât echivalent cu corespondentul său în celelalte limbi studiate, cât şi distinctiv,
adică fără (sau aproape fără) omografiile interlingvistice20 ale variantelor sale sau alte
obstacole în realizarea echivalentelor. Eşantionul celor 57 de termeni se găseşte în anexa
3.
16
Pentru rezultatele statistice am fuzionat rezultatele celor două motoare pentru a obţine o
serie mai lungă a valorilor variabilei noastre aleatoare.
17
Milioane de pagini în limba engleză.
18
Este vorba de rezultate brute, fără corecţia de 30%.
19
Este vorba de erori minore care nu au provocat o diferenţă notabilă faţă de rezultatele
publicate în studiul precedent. Detalii în Anexa 3.
20
Este vorba de forme care au aceeaşi grafie în mai mult de o limbă; omografiile în
interiorul aceleiaşi limbi sunt considerate ca fiind acelaşi cuvânt.
4.2.1 Problemele noi apărute pentru limba germană
Formarea cuvintelor în limba germană este foarte diferită de cea a celorlalte limbi abordate
până în prezent în acest studiu: limbile de tipul germanei reunesc într-un singur cuvânt
„compus“ rădăcini care, în formele echivalente din celelalte limbi studiate (şi, cu unele
excepţii, mult mai puţin decât germana şi engleza), se găsesc separate în cuvinte diferite,
constituind o sintagmă.
Aşadar, echivalentele fiind făcute între cuvinte necompuse şi, presupunând că se caută
cuvinte separate, fără context nedeterminat înainte sau după, limba germană este
„penalizată“ foarte mult, deoarece formele foarte frecvente, cum ar fi Ziegenkäse,
echivalentul lui „brânză de capră“, sunt înlăturate sistematic.
Un prim pas în rezolvarea acestei probleme a fost făcut prin adăugarea la rezultatele
obţinute cu vechea metodologie a unui procent de 30%, ca prag probabil minim. Dar,
pentru a avea rezultate la fel de fiabile ca acelea obţinute pentru celelalte limbi ar trebui,
fără îndoială, ca în viitor să se prevadă căutări „după cuvinte neizolate“ (cu şi fără context
nedeterminat înainte sau după cuvânt), folosind pentru corecţie, în măsura posibilităţilor, un
factor numeric care exprimă diferenţa cantitativă dintre cuvintele limbilor studiate şi limba
germană. Acest factor de corecţie se poate afla, probabil, în cercetările efectuate în cadrul
cercetărilor pe corpusuri paralelele interlingvistice.
4.2.2 Alte probleme
Partea lingvistică a studiului reiese din anexele 3 şi 7. Pentru celelalte detalii ale
metodologiei lingvistice se poate consulta versiunea precedentă a studiului, L4, capitolul
2.2.
Reamintim faptul că am ţinut să includem, alături de formele cu semne diacritice (accente
etc.), şi variantele fără diacritice, foarte frecvente pe Internet. În cazul limbii germane, nu
am ţinut cont de distincţia morfosintactică majusculă / minusculă, care este neutralizată de
motoarele noastre de căutare, nefiind, deci, pertinentă.
De altfel, fusese luată decizia să nu fie incluse formele cu mai puţin de 4 litere pentru a
evita omografiile posibile (mai ales cu sigle, dar nu numai). Omografiile între cel puţin două
dintre limbile studiate au apărut extrem de frecvent, mai ales între spaniolă şi portugheză,
dar nu numai, şi, bineînţeles, trebuiau evitate coincidenţele apărute în urma împrumutului
între limbi. Uneori, unei omografii cazuale, cum este cea a variantelor limbii germane
Montage / Montages (luni) cu forme ale limbii franceze i s-a adăugat o omografie de
împrumut, deoarece cuvântul din limba franceză este împrumutat, pentru domeniul
cinematografiei, de aproape toate celelalte limbi.
4.3.Metodologie statistică
Intervalele de încredere la 90% şi 99% din rezultate au fost stabilite utilizând distribuţia T a
lui Student, luând ca ipoteză o distribuţie de tip normal.
4.3.1. Rezultatele măsurătorilor cu motoarele de căutare preselecţionate
În tabelul 16 din anexa 4 sunt prezentate rezultatele cercetărilor obţinute în august 2000
în spaţiul WWW, pentru fiecare limbă, în funcţie de cele 6 motoare preselecţionate.
4.3.2. Calculele statistice şi rezultatele pentru limba engleză
Sunt prezentate mai jos procentajele medii ale prezenţei pe Internet a limbilor latine (şi a
limbii germane) faţă de limba engleză.
Tabelul 7: Detaliile rezultatelor statistice
Franceză
Italiană
Portughez
ă
Română
Spaniolă
Germană21
Medie
8,86%
5,88%
5,40%
0,32%
10,95%
13,4%
Abatere-tip
5,09%
5,55%
5,49%
0,33%
9,46%
8,97%
Coeficient
de variaţie
0,57
0,94
1,01
1,02
0,86
0,66
4,67-7,09
4,20-6,60
Interval de
încredere 7,75-9,97
la 90%
0,25-0,39 8,89-13,01
11,4515,37
Coeficientul de variaţie se calculează prin extragerea radicalului din abaterea-tip la pătrat
împărţită la media la pătrat. O valoare superioară lui 1 indică o puternică dispersie, deci o
medie puţin fiabilă. O valoare inferioară lui 1 indică o dispersie slabă, deci rezultatul este cu
atât mai fiabil cu cât valoarea coeficientului este mai mică. Intervalul de încredere va fi deci,
şi el, cu atât mai strâns cu cât valoarea coeficientului de variaţie este mai mică.
4.3.3. Calculul rezultatelor absolute
Potrivit concluziilor prezentate în capitolul 3.2.1, s-a ajuns la o prezenţă absolută a limbilor
studiate de:
Engleză
52%
Spaniolă
5,69%
Franceză
4,61%
Italiană
3,06%
Portugheză
2,81%
Română
0,17%
Germană
6,97%22
Restul
24,96%
Astfel, spaniola, aşa cum am prevăzut în studiul precedent, depăşeşte în prezent limba
franceză, iar germana se situează înaintea tuturor limbilor latine.
21
22
Rezultate majorate cu 30% (a se vedea nota 6)
Rezultate majorate cu 30% (a se vedea nota 6).
Aceste rezultate au fost obţinute atât pe baza calculului rezultatelor relative (capitolul
precedent), cât şi printr-o aproximare realistă a ponderii limbilor nestudiate, descrise la
rubrica „restul“.
Aproximarea ponderii limbilor nestudiate a fost realizată plecând de la măsurarea întinderii
domeniului fiecărei limbi cu motorul de căutare Fastsearch. La momentul efectuării acestei
măsurători, Fastsearch prezenta un index de 360 de milioane de pagini repartizate pe 31 de
limbi. Pentru a afla câte pagini conţine indexul pentru fiecare limbă (conform algoritmului de
detecţie al lui Fast), trebuie să se utilizeze secţiunea „advanced search“ (căutare avansată)
şi să se facă o căutare, pentru fiecare limbă, pornind de la tehnica pe care am botezat-o în
studiul nostru precedent „complementul ansamblului vid“ (aflarea numărului de pagini care
nu conţin un cuvânt inexistent)23. Rezultă tabelul 17 din anexa 6. Acest tabel prezintă o
aproximare a ponderii fiecărei limbi, dedusă cu ajutorul algoritmului de recunoaştere a
limbilor motorului de căutare, care, fără îndoială, nu este perfect. De exemplu, o căutare a
literei "è" în site-urile limbii engleze dă (pentru Google sau Fastsearch) un rezultat de un
milion de site-uri dar, mai ales, în tailandeză, coreeană, japoneză, rusă.
Un alt mod de obţinere a ponderii limbilor nestudiate este urmărirea dinamicii acesteia între
L4 şi L5. Plecând de la valorile absolute ipotetice descrise în capitolul 3.2.1 şi de la valorile
absolute ale limbilor considerate în studiul realizat în septembrie 1998, se obţine tabelul
următor:
Tabelul 8: Ipoteza progresiei ponderii limbilor studiate
Limbi studiate
Ipotezele ponderii
absolute pentru L5
L4
sept
1998
Progresii
L4/L5
-26,67% -33,33%
ENGLEZĂ
55%
50%
45%
75%
SPANIOLĂ
6,02%
5,48%
4,93%
2,53%
FRANCEZĂ
4,87%
4,43%
3,99%
2,81%
73,31%
ITALIANĂ
3,23%
2,94%
2,65%
1,50%
115,33%
PORTUGHEZĂ
2,97%
2,70%
2,43%
0,82%
262,20% 229,27% 196,34%
ROMÂNĂ
0,18%
0,16%
0,14%
0,15%
Celelalte limbi 20,35% 27,59% 34,83% 17,19%
-40%
137,94% 116,60% 94,86%
20%
18,38%
57,65% 41,99%
96%
6,67%
76,67%
-6,67%
60,50% 102,62%
O dată în plus, ipoteza unei ponderi absolute a limbii engleze în jur de 50% este cea mai
realistă.
Într-adevăr, o progresie de mai puţin de 18,38% a celorlalte limbi24 pare foarte
nesatisfăcătoare: aceasta ar reprezenta o progresie de două ori mai puţin rapidă decât cea a
limbii române şi de la 4 la 15 ori mai puţin rapidă decât cea a altor limbi neolatine studiate.
Din contră, o creştere de 102% pentru limbile nestudiate ar părea exagerată: aceasta ar
însemna o evoluţie mondială mai rapidă decât evoluţia marii majorităţi a limbilor neolatine
(cu excepţia portughezei). O progresie, în medie, de 60% pentru limbile nestudiate le-ar
aşeza la nivelul progresiei limbii franceze, ceea ce este mult mai credibil. Această confirmare
23
Argumentul de căutare este, de exemplu, < - "hgavdhjgduhgedujhgsdfyuhg">.
„Celelalte limbi“ acoperă realităţi diferite, de la limbile scandinave şi asiatice cu progresie
puternică la celelalte limbi, mai puţin difuzate, cu o progresie, probabil, mai lentă.
24
ne consolidează ipoteza unui rezultat final de ordinul 50% ca valoare absolută pentru limba
engleză.
4.4.Comparaţie cu alte studii
4.4.1. Comparaţie cu studiile precedente
Raporturile engleză/franceză şi franceză/spaniolă au evoluat, între primul studiu şi cel de
faţă, în felul următor25:
Tabelul 9: Evoluţiile raporturilor între ponderea limbilor franceză, spaniolă şi
engleză
Engleză/Franc
eză
Franceză/Spaniolă
Engleză/Spaniolă
Martie 1996 (L1)
21,91
2,40
52,58
Martie 1997 (L2)
19,99
1,92
38,38
Martie 1998 (L3)
17,60
1,33
23,32
Septembrie 1998
(L4)
35,59
1,11
39,53
August 2000
(L5)
13,66
0,91
12,38
Iunie 2001 (L5)
11,28
0,81
9,14
Vă reamintim că cifrele scrise cursiv (de la L1 la L3) sunt prea aproximative pentru a putea
fi luate în calcul. Observarea reală a început de la L4.
4.4.2. Comparaţie cu studiile similare (Alis şi Inktomi)
Studiul Alis nu a fost reluat din 1998, deci menţinem analiza făcută la L4. În schimb,
Inktomi a publicat rezultate care au avut un larg ecou pe Internet, fiind utilizate în prezent
ca sursă oficială pentru numeroase rapoarte.
Tabelul 10: Rezultatele studiului Inktomi (februarie 2000)
LIMBĂ
Engleză
Germană
Franceză
Italiană
Spaniolă
Portugheză
Olandeză
Finlandeză
Suedeză
25
PROPORŢIE (%)
86,54
5,83
2,36
1,55
1,23
0,75
0,54
0,50
0,36
Trebuie să considerăm această progresie cu cea mai mare rezervă deoarece cifrele
studiilor L1 la L3 nu prezintă caracteristicile de rigoare lingvistică obţinute începând cu
studiul L4.
Japoneză
0,34
Aceste cifre construiesc o viziune eronată, potrivit căreia engleza continuă să fie limba a
peste 80% din paginile Web. Totuşi, este uşor să descoperim o aberaţie în aceste rezultate,
atât în prezentarea, cât şi în interpretarea lor...
Într-adevăr, procentajul anunţat pentru limba engleză (86%) nu este obţinut în raport cu
toate limbile, ci numai faţă de 10 limbi citate în tabel, chiar dacă totalul procentelor celor
10 limbi ajunge la 100%! Dacă luăm ipoteza că rămân 30% din paginile Web pentru limbile
necitate, totalul pentru limba engleză ar fi atunci de: 86,54% x (100-30) = 60,58%!!!
În afara acestui lapsus evident, care ştirbeşte semnificaţia rezultatelor absolute (dar nu
împiedică majoritatea birourilor de marketing de pe Internet să reia aceste cifre absurde...),
este interesant să comparăm rezultatele noastre, bazate pe un eşantion de termeni
selecţionaţi după criterii lingvistice prezentate în rapoartele noastre, cu algoritmii de
recunoaştere a limbilor utilizaţi de diverse motoare de căutare, al căror mecanism rămâne
voalat. A se vedea, de exemplu, tabelul 17 în anexa 6, care prezintă cifrele obţinute cu
motorul Fastsearch şi compararea lor cu cele ale studiului nostru.
Până la proba contrarie, trebuie să considerăm că metoda noastră este mai riguroasă pe
plan metodologic şi să conchidem că algoritmii de recunoaştere a limbilor pe Internet au
supărătoarea tendinţă să supraevalueze rezultatele pentru limba engleză.
5. Tendinţa evoluţiei limbilor studiate
După cum am semnalat deja, dacă în august 2000 şi în ianuarie 2001 am realizat
măsurători cu motoarele Fastsearch şi Google, în iunie 2001 a trebuit să utilizăm numai
Fastsearch pentru că Google nu mai trata într-un mod acceptabil semnele diacritice. Pentru
comparaţiile din tabelul de mai jos am luat în considerare numai rezultatele obţinute cu
Fastsearch, în august 2000, în ianuarie 2001 şi în iunie 2001.
Tabelul 11: Rezultatele obţinute cu Fastsearch în august 2000, ianuarie 2001,
iunie 2001
August 2000
Ianuarie 2001
Iunie 2001
Spaniolă
8,41%
9,46%
10,95%
Franceză Italiană Portugheză Română Germană
7,33%
4,60%
3,95%
0,37%
11,0%
7,89%
4,93%
4,44%
0,33%
11,4%
8,86%
5,88%
5,40%
0,32%
13,4%
Tabelul următor ne dă o imagine asupra tendinţelor actuale ale evoluţiei pe Internet a
limbilor studiate, plecând de la rezultatele precedente.
Tabelul 12: Tendinţe ale evoluţiei
Tendintele actuale ale evolutiei limbilor în spatiul WWW
16%
14%
Franceza
10%
Italiana
8%
Portugheza
6%
Româna
4%
Germana
2%
0
Se 0
pt
00
O
ct
0
N 0
ov
0
D 0
ec
00
Ia
n
0
Fe 1
b
0
M
ar 1
tie
01
Ap
r0
1
M
ai
01
Iu
n
0
Iu 1
lie
0
Au 1
g
0
Se 1
pt
01
O
ct
01
0%
Au
g
% în raport cu engleza
Spaniola
12%
6. Perspective pentru o continuare a observaţiei
Condiţiile logistice sunt acum îndeplinite pentru o continuare, reală şi periodică, a acestui
studiu. Automatizarea prelucrării rezultatelor face mai uşoară culegerea şi interpretarea
datelor. Putem menţine sub observaţie evoluţia prezenţei limbilor studiate, cu o periodicitate
de 3 sau 6 luni.
Această observare periodică cere supravegherea permanentă a tot ce se întâmplă în
domeniul motoarelor de căutare, pentru a putea determina dacă schimbările de procedură
ale unui motor de căutare îl descalifică pentru studiul nostru sau, din contră, putem să
utilizăm un nou motor de căutare. Fiecare modificare a interfeţei unui motor de căutare
implică, la rândul ei, o muncă de programare a aplicaţiei informatice care automatizează
măsurătorile.
Se poate prevedea o extindere a studiului şi la alte limbi pornind de la totalitatea limbilor
vorbite în Uniunea Europeană. Această extindere necesită o muncă suplimentară nu numai
în ce priveşte traducerea termenilor dar şi în ce priveşte schimbarea metodologiei de
căutare a ocurenţelor, după cum este specificat în capitolul 4.2.1.
Ar fi de dorit, bineînţeles, să se înceapă măsurătorile pentru limbile europene, cum ar fi
quechua în America Latină sau wolof în Africa. Vor fi necesare, probabil, noi parteneriate
lingvistice şi suntem gata să examinăm propuneri în acest sens.
Mai rămâne să fie reluat lucrul început în primele studii privind măsurarea, mai subiectivă, a
ponderii culturilor pe Internet. Experienţa pe care am câştigat-o în automatizarea
rezultatelor va fi, fără îndoială, utilă.
În fine, în acest context putem începe studii transversale pentru a diferenţia segmente de
penetrare lingvistică pe Internet (de exemplu, turismul, comerţul electronic sau educaţia).
Pistele sunt deschise, mai sunt de găsit partenerii şi resursele financiare...
7. Referinţele pe Internet privind lucrările conexe
Studiul precedent menţionează un anumit număr de referinţe. Iată lista cu completări:
Referinţele motoarelor de căutare:
http://www.searchenginewatch.com
http://www.searchengineshowdown.com
Rezultate parţiale ale studiului Inktomi:
http://www.inktomi.com/webmap/
Număr de internauţi pe limbi:
http://www.glreach.com/globstats/index.php3
Studiu asupra mărimii spaţiului Web:
http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf
Studiu realizat pentru Internet Council:
http://usic.wslogic.com/intro.html
Anexa 1: Recapitularea referinţelor diverselor studii
realizate de autori
Tabelul 13: Recapitularea referinţelor şi studiilor realizate de autori
Data şi
numele
Drepturi
de autor
Localizare pe
Internet
Descriere
3/96
L1
Funredes
http://funredes.org/L
C/L1
Primul studiu lingvistic, axat pe limba
franceză, care ia în calcul limba spaniolă.
Măsurători comparative cu AltaVista asupra
prezenţei cuvintelor în limbile engleză,
franceză şi spaniolă în spaţiul WWW, pornind
de la un eşantion de 50 de cuvinte determinat
fără rigoare metodologică pe plan lingvistic.
Rezultatul, foarte aproximativ, arată un raport
engleză/franceză
egal
cu
22
şi
franceză/spaniolă egal cu 2,4.
3/96
C1
Funredes
http://funredes.org/L
C/C1
Primul studiu cultural, axat pe francofonie, ia
în calcul hispanitatea. Măsurători comparative,
cu AltaVista, ale numărului citărilor numelor de
personalităţi
culturale
reprezentative
în
paginile Web: aproape 500 de personalităţi
repartizate pe 13 categorii. Rezultatul,
subiectiv, arată o prezenţă destul de
importantă
a
reprezentanţilor
culturii
francofone faţă de cei nord-americani, în
domeniile în care cultura şi comerţul nu se
suprapun.
3/97
L2
Funredes
http://funredes.org/L
C/L2
Actualizare a studiului lingvistic, care arată un
progres slab al limbii franceze în raport cu
limba engleză şi un progres important al limbii
spaniole.
Funredes
http://funredes.org/L
C/L3
Actualizare
importantă,
prezentată
la
conferinţa "Visionarios" (Caracas).
• Analiza limitelor serviciilor de căutare şi
a prezenţei relative fără diacritice.
Recomandare
pentru
abandonarea
serviciului AltaVista şi pentru utilizarea
HotBot.
• "Metoda complementului ansamblului
vid" aplicată la AltaVista dă un ordin de
mărime al prezenţei limbilor, derivat din
algoritmul de recunoaştere a limbilor al
motorului de căutare AltaVista.
• Evaluare critică a rezultatelor studiului
Alis Technologies.
Limba franceză continuă să progreseze lent,
3/98
L3
26
26
Cu sprijinul metodologic al Uniunii Latine.
iar limba spaniolă este acum foarte apropiată
de franceză.
9/98
L4
Agence de
la
francopho
nie
Funredes
Uniunea
Latină
http://www.unilat.org
/dtil/lenguainternet/r
o/limba/limba_cap1.h
tm
Schimbări importante în metodă şi obţinerea
unor rezultate riguroase.
• Luarea în consideraţie a tuturor limbilor
neolatine:
franceză,
italiană,
portugheză, română, spaniolă.
• Definirea unui eşantion răspunzând la
criterii lingvistice riguroase.
• Măsurarea cu HotBot în spaţiul WWW.
• Măsurători
în
spaţiul
Usenet
cu
DejaNews.
• Stabilirea de intervale de încredere la
90% şi 99%.
• Ponderarea rezultatelor în funcţie de
mărimea spaţiilor lingvistice.
9/98
C2
Agence de
la
francopho
nie
Funredes
Uniunea
Latină
http://www.unilat.org
/dtil/lenguainternet/r
o/limba/limba_cap1.h
tm
Al doilea studiu cultural, după 3 ani.
Studiul nu a relevat nici o diferenţă notabilă a
prezenţei culturale francofone.
• Utilizarea
aceleiaşi
metodologii,
ameliorată totuşi în ceea ce priveşte
categoriile,
alegerea
şi
numărul
personalităţilor, extinderea grupului lor
prin includerea celor care vorbesc toate
limbile neolatine.
• Analiza anumitor rezultate pe limbă şi
în limba de referinţă.
http://funredes.org/L
C
Pagina de gardă a studiilor de limbă şi de
cultură.
9/98
LC
20002001
L5
Funredes
Uniunea
Latină
http://www.unilat.o
rg/dtil/LI/index.htm
•
•
•
•
•
Extinderea studiului prin includerea
limbii germane
Selecţie, după un studiu aprofundat, a
motoarelor de căutare Google şi
Fastsearch, fiind păstrat în continuare
numai Fastsearch. Măsurători numai în
spaţiul WWW.
Automatizarea calculelor cu ajutorul
unui program care are rol de interfaţă
între termenii care trebuie măsuraţi,
organizaţi în baze de date, şi motoarele
de căutare.
Corectarea anumitor termeni din punct
de vedere ortografic şi a omisiunilor.
Începerea sistematizării măsurătorilor
şi
expunerea
unor
curbe
de
extrapolare.
Anexa 2: Vizualizarea intervalelor de încredere pentru
rezultatele pe fiecare limbă
Tabelul 14: Vizualizarea intervalelor de încredere
Spaniola
Franceza
Italiana
Portugheza
Româna
Germana
În %
0
1
2
3
4
Interval de 90%
5
6
7
8
Interval de 99%
9
10
11
Anexa 3: Lista termenilor eşantionului de referinţă
În cursiv: formă susceptibilă de a fi prezentă pe Web, dar "incorectă". Cazul cel mai frecvent
corespunde termenilor scrişi fără semne diacritice.
În MAJUSCULE: variantă care prezintă o omografie (interlingvistică) evidentă sau variantă
de mai puţin de patru caractere (în acest caz creşte riscul unei omografii cu o siglă) sau
variantă (şi termen) având o pondere sintactică sau semantică mult mai importantă decât
aceea a echivalentelor în alte limbi.
Tabelul 15: Lista termenilor eşantionului de referinţă
Engleză
(EN)
Spaniolă
(ES)
Franceză Italiană Portugheză
(FR)
(IT)
(PT)
1 ambiguity
ambiguities
ambiguousne
ss
ambiguousne
sses
ambigüedad
ambiguedad
ambigüedad
es
ambiguedad
es
ambiguïté
ambiguite
ambiguïtés
ambiguites
ambiguit
à
ambiguit
a
2 causality
causalities
causalidad
CAUSALIDA
DES
causalité
causalite
causalités
causalites
causalità
causalita
ambigüidade
ambiguidade
ambigüidades
ambiguidades
Română
(RO)
ambiguitate
ambiguitatea
ambiguităţii
ambiguitatii
ambiguităţi
ambiguitati
ambiguităţile
ambiguitatile
ambiguităţilor
ambiguitatilor
causalidade
cauzalitate
CAUSALIDADES cauzalitatea
cauzalităţii
cauzalitatii
cauzalităţi
cauzalitati
cauzalităţile
cauzalitatile
cauzalităţilor
cauzalitatilor
Germană
(DE)
ambiguität
ambiguitat
ambiguitaet
ambiguitäten
ambiguitaten
ambiguitaeten
doppeldeutigkeit
doppeldeutigkeiten
zweideutigkeit
zweideutigkeiten
kausalität
kausalitat
kausalitaet
kausalitäten
kausalitaten
kausalitaeten
3 cheese
cheeses
queso
quesos
fromage
fromages
formaggi
o
formaggi
queijo
queijos
brânză
branza
brânze
branze
brânza
brânzele
branzele
brânzei
branzei
brânzelor
branzelor
brânzeturi
branzeturi
brânzeturile
branzeturile
brânzeturilor
branzeturilor
4 compatibility compatibilid compatibilit compatibi compatibilidade compatibilitate
compatibilitie ad
é
lità
COMPATIBILID compatibilitate
s
COMPATIBIL compatibilit compatibi ADES
a
IDADES
e
lita
compatibilităţii
compatibilit
compatibilitatii
és
compatibilităţi
compatibilit
compatibilitati
es
compatibilităţil
e
compatibilitatil
e
compatibilităţil
or
compatibilitatil
or
5 contiguity
contigüidad contiguïté
contiguità contigüidade
contiguitate
contiguities
contiguidad contiguite
contiguita contiguidade
contiguitatea
CONTIGÜID contiguïtés
CONTIGÜIDADE contiguităţii
ADES
contiguites
S
contiguitatii
CONTIGUID
CONTIGUIDADE contiguităţi
ADES
S
contiguitati
contiguităţile
contiguitatile
contiguităţilor
contiguitatilor
käse
kase
kaese
käsen
kasen
kaesen
kompatibilität
kompatibilitat
kompatibilitaet
kompatibilitäten
kompatibilitaten
kompatibilitaeten
vereinbarkeit
vereinbarkeiten
kontiguität
kontiguitat
kontiguitaet
kontiguitäten
kontiguitaten
kontiguitaeten
6 dangerous
peligroso
peligrosa
peligrosos
peligrosas
7 december
diciembre
dangereux
dangereuse
dangereuse
s
pericolos
o
pericolos
a
pericolosi
pericolos
e
perigoso
perigosa
perigosos
perigosas
décembre
decembre
densidad
densité
DENSIDADE densite
S
densités
densites
dicembre dezembro
9 disparity
disparities
disparidad
disparité
DISPARIDAD disparite
ES
disparités
disparites
disparità
disparita
1 divisibility
0 divisibilities
divisibilidad divisibilité
DIVISIBILID divisibilite
ADES
divisibilités
divisibilites
divisibilit
à
divisibilit
a
8 DENSITY
DENSITIES
densità
densita
densidade
DENSIDADES
primejdios
primejdioasă
primejdioasa
primejdioase
primejdioşi
primejdiosi
decembrie
densitate
densitatea
densităţii
densitatii
densităţi
densitati
densităţile
densitatile
densităţilor
densitatilor
disparidade
disparitate
DISPARIDADES disparitatea
disparităţii
disparitatii
disparităţi
disparitati
disparităţile
disparitatile
disparităţilor
disparitatilor
divisibilidade
divizibilitate
DIVISIBILIDAD divizibilitatea
ES
divizibilităţii
divizibilitatii
divizibilităţi
divizibilitati
divizibilităţile
divizibilitatile
divizibilităţilor
divizibilitatilor
GEFÄHRLICH
GEFAHRLICH
GEFAEHRLICH
gefährliche
gefahrliche
gefaehrliche
gefährlicher
gefahrlicher
gefaehrlicher
gefährliches
gefahrliches
gefaehrliches
gefährlichen
gefahrlichen
gefaehrlichen
gefährlichem
gefahrlichem
gefaehrlichem
dezembers
dezembern
dichte
DICHTEN
dichtheit
dichtheiten
dichtigkeit
dichtigkeiten
disparität
disparitat
disparitaet
disparitäten
disparitaten
disparitaeten
divisibilität
divisibilitat
divisibilitaet
divisibilitäten
divisibilitaten
divisibilitaeten
teilbarkeit
teilbarkeiten
1 elasticity
1 elasticities
elasticidad
élasticité
ELASTICIDA elasticite
DES
élasticités
elasticites
elasticità
elasticita
1 electricity
2 electricities
electricidad électricité
ELECTRICID electricite
ADES
électricités
electricites
elettricità electricidade
elettricita eletricidade
ELECTRICIDAD
ES
eletricidades
1 february
3
febrero
février
fevrier
febbraio
fevereiro
1 femininity
4 femininities
feminidad
femineidad
FEMINIDADE
S
femineidade
s
féminité
feminite
féminités
feminites
femminili
tà
femminili
ta
feminidade
feminilidade
FEMINIDADES
feminilidades
1 fertility
5 fertilities
fertilidad
fertilité
FERTILIDAD fertilite
ES
fertilités
fertilites
fertilità
fertilita
fertilidade
FERTILIDADES
fedeltà
fedelta
fidelidade
FIDELIDADES
1 fidelity
fidelidad
6 fidelities
FIDELIDADE
faithfulness
S
faithfulnesses
fidélité
fidelite
fidélités
fidelites
elasticidade
ELASTICIDADE
S
elasticitate
elasticitatea
elasticităţii
elasticitatii
elasticităţi
elasticitati
elasticităţile
elasticitatile
elasticitităţilor
elasticitatilor
electricitate
electricitatea
electricităţii
electricitatii
electricităţi
electricitati
electricităţile
electricitatile
electricităţilor
electricitatilor
februarie
feminitate
feminitatea
feminităţii
feminitatii
feminităţi
feminitati
feminităţile
feminitatile
feminităţilor
feminitatilor
fertilitate
fertilitatea
fertilităţii
fertilitatii
fertilităţi
fertilitati
fertilităţile
fertilitatile
fertilităţilor
fertilitatilor
fidelitate
fidelitatea
fidelităţii
fidelitatii
fidelităţi
fidelitati
fidelităţile
fidelitatile
fidelităţilor
fidelitatilor
dehnbarkeit
dehnbarkeiten
elastizität
elastizitat
elastizitaet
elastizitäten
elastizitaten
elastizitaeten
elektrizität
elektrizitat
elektrizitaet
elektrizitäten
elektrizitaten
elektrizitaeten
STROM
februar
februars
februare
februaren
femininität
femininitat
femininitaet
femininitäten
femininitaten
femininitaeten
weiblichkeit
weiblichkeiten
fertilität
fertilitat
fertilitaet
fertilitäten
fertilitaten
fertilitaeten
fruchtbarkeit
fruchtbarkeiten
TREUE
TREUEN
1 fraternity
fraternidad
7 fraternities
FRATERNIDA
brotherhood DES
brotherhoods
1
8
1
9
2
0
fraternité
fraternite
fraternités
fraternites
fraternità fraternidade
fraternita FRATERNIDADE
fratellanz S
a
fratellanz
e
fraternitate
fraternitatea
fraternităţii
fraternitatii
fraternităţi
fraternitati
fraternităţile
fraternitatile
fraternităţilor
fraternitatilor
BRÜDERLICHKEIT
bruderlichkeit
bruederlichkeit
brüderlichkeiten
bruderlichkeiten
bruederlichkeiten
fraternität
fraternitat
fraternitaet
fraternitäten
fraternitaten
fraternitaeten
friday
viernes
vendredi
venerdì
sexta-feira
vineri
freitag
fridays
vendredis
venerdi
sextas-feiras
vinerea
freitags
freitages
freitage
freitagen
heterosexuali heterosexual hétérosexua eterosess heterossexualid heterosexualita heterosexualität
ty
idad
lité
ualità
ade
te
heterosexualitat
heterosexuali heterosexual heterosexua eterosess heterossexualid heterosexualita heterosexualitaet
ties
idades
lite
ualita
ades
tea
heterosexualitäten
hétérosexua
heterosexualită heterosexualitaten
lités
ţii
heterosexualitaeten
heterosexua
heterosexualita
lites
tii
heterosexualită
ţi
heterosexualita
ti
heterosexualită
ţile
heterosexualita
tile
heterosexualită
ţilor
heterosexualita
tilor
homosexualit homosexuali homosexual omosess homossexualida homosexualitat homosexualität
y
dad
ité
ualità
de
e
homosexualitat
homosexualiti homosexuali homosexual omosess homossexualida homosexualitat homosexualitaet
es
dades
ite
ualita
des
ea
homosexualitäten
homosexual
homosexualităţ homosexualitaten
ités
ii
homosexualitaeten
homosexual
homosexualitat
ites
ii
homosexualităţ
i
homosexualitat
i
homosexualităţ
ile
homosexualitat
ile
homosexualităţ
ilor
homosexualitat
ilor
2 horse
1 horses
caballo
caballos
cheval
chevaux
cavallo
cavalli
cavalo
cavalos
2 humidity
2 humidities
humedad
humedades
humidité
humidite
humidités
humidites
umidità
umidita
humidade
umidade
humidades
umidades
2 illness
3 illnesses
sickness
sicknesses
disease
diseases
2 immortality
4 immortalities
enfermedad
enfermedad
es
MALADIE
maladies
malattia
malattie
infermità
infermita
2 immunity
5 immunities
inmunidad
immunité
inmunidades immunite
immunités
immunites
doença
doenca
doenças
doencas
enfermidade
enfermidades
inmortalidad immortalité immortali imortalidade
inmortalidad immortalite tà
imortalidades
es
immortalité immortali
s
ta
immortalite
s
immunità imunidade
immunita imunidades
CAL
CAI
calul
CAII
calului
cailor
calule
umiditate
umiditatea
umidităţii
umiditatii
umidităţi
umiditati
umidităţile
umiditatile
umidităţilor
umiditatilor
boală
BOLI
boala
bolile
bolii
bolilor
imortalitate
imortalitatea
imortalităţii
imortalitatii
imortalităţi
imortalitati
imortalităţile
imortalitatile
imortalităţilor
imortalitatilor
imunitate
imunitatea
imunităţii
imunitatii
imunităţi
imunitati
imunităţile
imunitatile
imunităţilor
imunitatilor
pferd
pferdes
pferds
pferde
pferden
feuchtigkeit
feuchtigkeiten
humidität
humiditat
humiditaet
humiditäten
humiditaten
humiditaeten
krankheit
krankheiten
seuche
seuchen
immortalität
immortalitat
immortalitaet
immortalitäten
immortalitaten
immortalitaeten
unsterblichkeit
unsterblichkeiten
immunität
immunitat
immunitaet
immunitäten
immunitaten
immunitaeten
2 incompatibilit incompatibili
6 y
dad
incompatibiliti INCOMPATIB
es
ILIDADES
2
7
2
8
2
9
incompatibil
ité
incompatibil
ite
incompatibil
ités
incompatibil
ites
incompati
bilità
incompati
bilita
incompatibilida
de
INCOMPATIBILI
DADES
incompatibilitat
e
incompatibilitat
ea
incompatibilităţ
ii
incompatibilitat
ii
incompatibilităţ
i
incompatibilitat
i
incompatibilităţ
ile
incompatibilitat
ile
incompatibilităţ
ilor
incompatibilitat
ilor
infallibility
infalibilidad infaillibilité infallibilit infalibilidade
infaibilitate
infallibilities
INFALIBILID infaillibilite à
INFALIBILIDAD infaibilitatea
ADES
infaillibilités infallibilit ES
infaibilităţii
infaillibilites a
infaibilitatii
infaibilităţi
infaibilitati
infaibilităţile
infaibilitatile
infaibilităţilor
infaibilitatilor
inferiority
inferioridad infériorité
inferiorità inferioridade
inferioritate
inferiorities
INFERIORID inferiorite
inferiorita INFERIORIDAD inferioritatea
ADES
infériorités
ES
inferiorităţii
inferiorites
inferioritatii
inferiorităţi
inferioritati
inferiorităţile
inferioritatile
inferiorităţilor
inferioritatilor
infidelity
infidelidad
infidélité
infedeltà infidelidade
infidelitate
infidelities
INFIDELIDA infidelite
infedelta INFIDELIDADES infidelitatea
unfaithfulness DES
infidélités
infidelităţii
unfaithfulness
infidelites
infidelitatii
es
infidelităţi
infidelitati
infidelităţile
infidelitatile
infidelităţilor
infidelitatilor
inkompatibilität
inkompatibilitat
inkompatibilitaet
inkompatibilitäten
inkompatibilitaten
inkompatibilitaeten
unvereinbarkeit
unvereinbarkeiten
infallibilität
infallibilitat
infallibilitaet
infallibilitäten
infallibilitaten
infallibilitaeten
unfehlbarkeit
unfehlbarkeiten
inferiorität
inferioritat
inferioritaet
inferioritäten
inferioritaten
inferioritaeten
minderwertigkeit
minderwertigkeiten
UNTREUE
UNTREUEN
treulosigkeit
treulosigkeiten
3 instability
0 instabilities
inestabilidad instabilité
inestabilidad instabilite
es
instabilités
instabilites
instabilità instabilidade
instabilita instabilidades
3 inviolability
1 inviolabilities
inviolabilida
d
INVIOLABILI
DADES
inviolabili inviolabilidade
t
INVIOLABILIDA
inviolabili DES
ta
inviolabilité
inviolabilite
inviolabilités
inviolabilites
instabilitate
instabilitatea
instabilităţii
instabilitatii
instabilităţi
instabilitati
instabilităţile
instabilitatile
instabilităţilor
instabilitatilor
inviolabilitate
inviolabilitatea
inviolabilităţii
inviolabilitatii
inviolabilităţi
inviolabilitati
inviolabilităţile
inviolabilitatile
inviolabilităţilor
inviolabilitatilor
3 irregularity
irregularidad irrégularité irregolarit irregularidade
iregularitate
2 irregularities IRREGULARI irregularite à
IRREGULARIDA iregularitatea
unevenness
DADES
irrégularités irregolarit DES
iregularităţii
unevennesses
irregularites a
iregularitatii
iregularităţi
iregularitati
iregularităţile
iregularitatile
iregularităţilor
iregularitatilor
instabilität
instabilitat
instabilitaet
instabilitäten
instabilitaten
instabilitaeten
unbeständigkeit
unbestandigkeit
unbestaendigkeit
unbeständigkeiten
unbestandigkeiten
unbestaendigkeiten
unverletzlichkeit
unverletzlichkeiten
unverletzbarkeit
unverletzbarkeiten
irregularität
irregularitat
irregularitaet
irregularitäten
irregularitaten
irregularitaeten
unregelmäßigkeit
unregelmässigkeit
unregelmassigkeit
unregelmaessigkeit
unregelmäßigkeiten
unregelmässigkeite
n
unregelmassigkeite
n
unregelmaessigkeit
en
3 irresponsibilit irresponsabil
3 y
idad
irresponsibiliti IRRESPONS
es
ABILIDADES
irresponsabi
lité
irresponsabi
lite
irresponsabi
lités
irresponsabi
lites
irrespons
abilità
irrespons
abilita
irresponsabililid
ade
IRRESPONSABI
LIDADES
3 june
4
junio
juin
giugno
junho
3 knee
5 knees
rodilla
rodillas
genou
genoux
ginocchio joelho
ginocchia joelhos
ginocchi
3 KNIFE
6 KNIVES
cuchillo
cuchillos
couteau
couteaux
coltello
coltelli
FACA
FACAS
3 LUNG
7 lungs
pulmón
pulmon
pulmones
poumon
poumons
polmone
polmoni
pulmão
pulmao
pulmões
pulmoes
iresponsabilitat
e
iresponsabilitat
ea
iresponsabilităţ
ii
iresponsabilitat
ii
iresponsabilităţ
i
iresponsabilitat
i
iresponsabilităţ
ile
iresponsabilitat
ile
iresponsabilităţ
ilor
iresponsabilitat
ilor
iunie
genunchi
genunchiul
genunchii
genunchiului
genunchilor
cuţit
cutit
cuţite
cutite
cuţitul
cutitul
cuţitele
cutitele
cuţitului
cutitului
cuţitelor
cutitelor
plămân
plaman
plămâni
plamani
plămânul
plamanul
plămânii
plamanii
plămânului
plamanului
plămânilor
plamanilor
irresponsabilität
irresponsabilitat
irresponsabilitaet
irresponsabilitäten
irresponsabilitaten
irresponsabilitaeten
unverantwortbarkei
t
unverantwortbarkei
ten
unverantwortlichkei
t
unverantwortlichkei
ten
verantwortungslosi
gkeit
verantwortungslosi
gkeiten
juni
junis
JUNO
knie
knies
knie
KNIEN
MESSER
MESSERS
MESSERN
lunge
lungen
3 masculinity
8 masculinities
masculinida
d
MASCULINI
DADES
masculinité
masculinite
masculinités
masculinites
mascolini masculinidade
tà
MASCULINIDAD
mascolini ES
ta
3 monday
9 mondays
lunes
lundi
lundis
lunedì
lunedi
segunda-feira
luni
segundas-feiras lunea
4 october
0
octubre
octobre
ottobre
outubro
4 parity
1 parities
equality
equalities
igualdad
IGUALDADE
S
paridad
PARIDADES
égalité
egalite
égalités
egalites
parité
parite
parités
parites
eguaglian
za
eguaglian
ze
uguglianz
a
uguglianz
e
parità
parita
igualdade
IGUALDADES
paridade
PARIDADES
4 probability
2 probabilities
likelihood
likelihoods
masculinitate
masculinitatea
masculinităţii
masculinitatii
masculinităţi
masculinitati
masculinităţile
masculinitatile
masculinităţilor
masculinitatilor
octombrie
egalitate
egalitatea
egalităţii
egalitatii
egalităţi
egalitati
egalităţile
egalitatile
egalităţilor
egalitatilor
paritate
paritatea
parităţii
paritatii
parităţi
paritati
parităţile
paritatile
parităţilor
paritatilor
probabilidad probabilité probabilit probabilidade
probabilitate
PROBABILID probabilite à
PROBABILIDAD probabilitatea
ADES
probabilités probabilit ES
probabilităţii
probabilites a
probabilitatii
probabilităţi
probabilitati
probabilităţile
probabilitatile
probabilităţilor
probabilitatilor
männlichkeit
mannlichkeit
maennlichkeit
männlichkeiten
mannlichkeiten
maennlichkeiten
maskulinität
maskulinitat
maskulinitaet
maskulinitäten
maskulinitaten
maskulinitaeten
montag
MONTAGES
montags
MONTAGE
MONTAGEN
oktober
oktobers
oktobern
egalität
egalitat
egalitaet
egalitäten
egalitaten
egalitaeten
gleichheit
gleichheiten
gleichstellung
gleichstellungen
gleichberechtigung
gleichberechtigung
en
parität
paritat
paritaet
paritäten
paritaten
paritaeten
probabilität
probabilitat
probabilitaet
probabilitäten
probabilitaten
probabilitaeten
wahrscheinlichkeit
wahrscheinlichkeite
n
4 productivity
3 productivities
productivenes
s
productivenes
ses
productivida
d
productivida
des
productivité
productivite
productivité
s
productivite
s
4 puberty
4 puberties
pubertad
pubertades
puberté
puberte
pubertés
pubertes
4 responsibility responsabili
5 responsibilitie dad
s
RESPONSAB
liability
ILIDADES
liabilities
responsabili
té
responsabili
te
responsabili
tés
responsabili
tes
4 sexuality
6 sexualities
sexualité
sexualite
sexualités
sexualites
sexualidad
SEXUALIDA
DES
produttivi produtividade
tà
produtividades
produttivi
ta
productivitate
productivitatea
productivităţii
productivitatii
productivităţi
productivitati
productivităţile
productivitatile
productivităţilo
r
productivitatilo
r
pubertà
puberdade
pubertate
puberta
puberdades
pubertatea
pubertăţii
pubertatii
pubertăţi
pubertati
pubertăţile
pubertatile
pubertăţilor
pubertatilor
responsa responsabilidad responsabilitat
bilità
e
e
responsa RESPONSABILI responsabilitat
bilita
DADES
ea
responsabilităţi
i
responsabilitati
i
responsabilităţi
responsabilitati
responsabilităţi
le
responsabilitati
le
responsabilităţi
lor
responsabilitati
lor
sessualità sexualidade
sexualitate
sessualita SEXUALIDADES sexualitatea
sexualităţii
sexualitatii
sexualităţi
sexualitati
sexualităţile
sexualitatile
sexualităţilor
sexualitatilor
produktivität
produktivitat
produktivitaet
produktivitäten
produktivitaten
produktivitaeten
pubertät
pubertat
pubertaet
pubertäten
pubertaten
pubertaeten
responsabilität
responsabilitat
responsabilitaet
responsabilitäten
responsabilitaten
responsabilitaeten
verantwortung
verantwortungen
sexualität
sexualitat
sexualitaet
sexualitäten
sexualitaten
sexualitaeten
4 singularity
7 singularities
4 superiority
8 superiorities
singularidad singularité
SINGULARID singularite
ADES
singularités
singularites
singolarit singularidade
à
SINGULARIDAD
singolarit ES
a
singularitate
singularitatea
singularităţii
singularitatii
singularităţi
singularitati
singularităţile
singularitatile
singularităţilor
singularitatilor
superioridad supériorité superiorit superioridade
superioritate
SUPERIORID superiorite à
SUPERIORIDAD superioritatea
ADES
supériorités superiorit ES
superiorităţii
superiorites a
superioritatii
superiorităţi
superioritati
superiorităţile
superioritatile
superiorităţilor
superioritatilor
4 thursday
9 thursdays
jueves
jeudi
jeudis
giovedì
giovedi
quinta-feira
quintas-feiras
JOI
JOIA
5 today
0
HOY
aujourde
hui
oggi
hoje
5 truth
1 truths
verdad
VERDADES
vérité
verite
vérités
verites
verità
verita
verdade
VERDADES
5 tuesday
2 tuesdays
martes
MARDI
mardis
martedì
martedi
terça-feira
terca-feira
terças-feiras
tercas-feiras
AZI
astăzi
astazi
adevăr
adevar
adevărul
adevarul
adevărului
adevarului
adevăruri
adevaruri
adevărurile
adevarurile
adevărurilor
adevarurilor
marţi
MARTI
marţea
martea
5 uniformity
3 uniformities
uniformidad
UNIFORMID
ADES
uniformité
uniformite
uniformités
uniformites
uniformit uniformidade
à
UNIFORMIDADE
uniformit S
a
uniformitate
uniformitatea
uniformităţii
uniformitatii
uniformităţi
uniformitati
uniformităţile
uniformitatile
uniformităţilor
uniformitatilor
einzigartigkeit
einzigartigkeiten
singularität
singularitat
singularitaet
singularitäten
singularitaten
singularitaeten
superiorität
superioritat
superioritaet
superioritäten
superioritaten
superioritaeten
überlegenheit
uberlegenheit
ueberlegenheit
überlegenheiten
uberlegenheiten
ueberlegenheiten
donnerstag
donnerstages
donnerstags
donnerstage
donnerstagen
heute
wahrheit
wahrheiten
dienstag
dienstages
dienstags
dienstage
dienstagen
uniformität
uniformitat
uniformitaet
uniformitäten
uniformitaten
uniformitaeten
5 universality
4 universalities
universalida
d
UNIVERSALI
DADES
universalité
universalite
universalité
s
universalite
s
5 university
5 universities
universidad université
UNIVERSIDA universite
DES
universités
universites
5 wednesday
6 wednesdays
miércoles
miercoles
mercredi
mercredis
5 yellow
7
amarillo
amarilla
amarillos
amarillas
jaune
jaunes
universali universalidade
tà
UNIVERSALIDA
universali DES
ta
universalitate
universalitatea
universalităţii
universalitatii
universalităţi
universalitati
universalităţile
universalitatile
universalităţilor
universalitatilor
università universidade
universitate
universita UNIVERSIDADE universitatea
S
universităţii
universitatii
universităţi
universitati
universităţile
universitatile
universităţilor
universitatilor
mercoledì quarta-feira
miercuri
mercoledi quartas-feiras
miercurea
giallo
gialla
gialli
gialle
amarelo
amarela
amarelos
amarelas
galben
galbenă
galbena
galbeni
galbene
universalität
universalitat
universalitaet
universalitäten
universalitaten
universalitaeten
universität
universitat
universitaet
universitäten
universitaten
universitaeten
mittwoch
mittwoches
mittwochs
mittwoche
mittwochen
gelb
gelbe
gelber
gelbes
gelben
gelbem
Anexa 4: Selectarea motoarelor de căutare pentru studiul
L5
Introducere
Motoarele de căutare utilizate la ultimul studiu au evoluat, în plus, în ultimii doi ani au
apărut altele noi. S-a dovedit, deci, necesară o analiză sistematică a compatibilităţii
motoarelor disponibile cu metodologia utilizată pentru acest studiu. Incompatibilităţile
apărute au dus la eliminarea unui anumit număr de motoare. Motoarele de căutare care au
fost preselecţionate (a se vedea capitolul 4.1.1) sunt AltaVista, Fastsearch (Alltheweb),
Google, Infoseek, iWon şi Northernlight. Au rămas, deci, şase motoare, independente unele
de altele, mai degrabă aflate în concurenţă pe piaţa căutărilor după cuvinte-cheie pe
Internet.
S-a dovedit că rezultatele măsurătorilor prezenţei termenilor eşantionului nostru, în paginile
Internet, variază foarte mult în funcţie de motorul de căutare utilizat. Pentru a încerca să
înţelegem acest fenomen, care ar risca să descalifice definitiv metodologia noastră,
începând cu luna august 2000 am realizat un studiu care ia în considerare elementele
următoare, susceptibile de a influenţa validitatea rezultatelor:
- numărul paginilor indexate,
- felul în care sunt selecţionate paginile indexate,
- coerenţa rezultatelor numărătorilor prezentate.
Rezultatele, pe fiecare limbă, în funcţie de motorul de căutare
Rezultatele prezentate mai jos (Tabelul 16) arată totalurile paginilor Internet care cuprind,
fiecare, cele 1600 de variante ale studiului în august 2000. Coloana corespunzătoare limbii
engleze dă totalul paginilor numărate (în milioane) de fiecare motor de căutare pentru
totalul termenilor în limba engleză. Cifrele conţinute de celelalte coloane reprezintă, pentru
fiecare limbă, procentajul, în raport cu limba engleză, al numărului total de pagini
numărate. De exemplu, pentru iWon: 212 milioane de pagini au fost numărate pentru
termenii în limba engleză şi 2,14 milioane pentru limba portugheză (1,01% de 212).
Tabelul 16: Rezultatele studiului pentru cele 6 motoare de căutare preselecţionte
AltaVista
Fast
Google
Infoseek
IWon
Northern
Light
Engleză
Spaniolă
188 M
147M
210M
37M
212M
145M
9,28%
8,41%
7,86%
2,49%
4,13%
6,32%
Franceză Italiană Portughez Română Germană
ă
9,56%
4,50%
3,98%
0,19%
16,06%
7,33%
4,60%
3,95%
0,37%
8,47%
7,33%
4,65%
2,82%
0,27%
7,89%
3,97%
2,98%
0,96%
0,03%
5,39%
2,64%
0,69%
1,01%
0,35%
5,44%
5,26%
3,66%
3,50%
0,26%
5,23%
Se poate constata, deci, că rezultatele, mai puţin pentru motoarele Fast şi Google, prezintă
deosebiri importante în funcţie de motorul de căutare utilizat, ceea ce pune serios sub
semnul întrebării validitatea metodei noastre. Rezultă, deci, a fi necesar să se analizeze
specificul fiecărui motor de căutare utilizat, atât pentru a înţelege motivul acestor abateri,
cât şi pentru a determina care sunt motoarele care furnizează rezultate riguroase în funcţie
de criteriile noastre.
O analiză a motoarelor de căutare impune, în prealabil, o cunoaştere a caracteristicilor
cantitative ale Internetului.
Date referitoare la Internet şi la motoarele de căutare
Care este volumul Internetului?
Dispunem de câteva date referitoare la acest subiect:
În luna ianuarie 2000, Inktomi afirmă că Web-ul a depăşit un miliard de pagini (care
ar fi fost preindexate de acest motor).
Tot Inktomi anunţă că 86,55% din paginile Internet sunt în limba engleză şi 2,36%
din pagini în limba franceză. Este frapantă, însă, constatarea că rezultatul limbii franceze
este foarte apropiat de valorile pe care le găsim pentru motorul de căutare iWon (care
utilizează indexul lui Inktomi). Totuşi, cifra obţinută pentru limba engleză pare a fi victima
unei erori de sistem de referinţă (a se vedea 4.4.2).
Noul rezultat obţinut de Inktomi în mai 2000: 1,5 miliarde de pagini. Inktomi
subliniază că proporţia paginilor dublate în site-uri oglindă este superioară lui 20% (din 6.5
milioane de servere indexate s-ar găsi 1,5 milioane de site-uri oglindă).
Rezultatul lui cyveillance search: 2,1 miliarde de pagini în iulie 2000, cu o creştere
exponenţială de 7 milioane de pagini noi pe zi. Acest studiu ne asigură că există 84,7% de
pagini în limba engleză pe Web.
Motoarele de căutare cu cele mai mari indexuri
Competiţia provoacă frământări pe piaţa motoarelor de căutare: aceasta produce o
puternică motivaţie pentru a creşte dimensiunea indexurilor. Liderii în domeniul indexării
Web-ului, în prezent, sunt:
Google: un miliard de pagini indexate27.
Webtop: 500 de milioane de pagini indexate, încă netestat suficient.
Inktomi: noul index al Inktomi, GEN3, care încă nu a fost utilizat oficial de partenerii
săi (Hotbot, Snap, iWon), ar trebui să conţină 500 de milioane de pagini (faţă de 110 ale
27
Se pare că jumătate din ele nu sunt indexate direct, ci printr-un algoritm original care
lucrează pornind de la textul legăturilor către aceste pagini. Nu dispunem de precizări
suficiente asupra naturii acestui algoritm pentru a putea trage concluzii, dar, se pare că el
nu are nici un impact asupra măsurătorilor noastre.
precedentului).
Testele
efectuate
de
Searchengine
Watch
(http://www.searchenginewatch.com ) arată că motorul iWon utilizează deja acest index
extins. De fapt, iWon obţine rezultate apropiate de Google în ceea ce priveşte numărul total
de pagini numărate pentru limba engleză.
AltaVista: 350 milioane de pagini.
Fastsearch: 340 milioane de pagini, având ca obiectiv să ajungă la 1 miliard până la
sfârşitul acestui an.
Northern Light: 265 milioane de pagini.
Este important să constatăm că motoarele indexează o proporţie notabilă din universul care
ne interesează (între 25 şi 50%) ceea ce face posibilă aplicarea metodologiei noastre fără
prea multe dificultăţi pe plan statistic 28.
Cum sunt indexate paginile Web?
Trebuie să menţionăm că nu toate paginile detectate de motoarele de căutare sunt incluse
în index. Tabelul următor indică numărul real de pagini incluse în index de anumite motoare
de căutare în comparaţie cu volumul total al paginilor indexate29.
AltaVista
Fast
Excite
Inktomi
PAGINI
ANALIZATE
(milioane)
400
700
920
1000
PAGINI
INDEXATE
(milioane)
250
400
250
110
Este interesant să înţelegem cum este făcută această reducere şi cum ar putea afecta ea
validitatea rezultatelor studiului nostru. Au fost identificate două abordări:
1. Inktomi: Un index de bază de 110 milioane de pagini selecţionate şi clasate plecând de
la o sursă de 1 miliard de pagini. Criteriul de selecţie pentru indexul de bază este de a
considera numai paginile în care URL-ul este puternic prezent (adică paginile care fac
obiectul celui mai mare număr de legături externe). Această tehnică permite selectarea
celor mai recunoscute pagini, clasându-le, cu uşurinţă, în ordinea “celebrităţii”, păstrând,
însă, un timp de răspuns slab din cauza mărimii reduse a indexului de lucru. Această
abordare, valabilă din punctul de vedere al obiectivului primelor motoare de căutare,
este, din păcate, descalificată pentru aplicarea metodologiei noastre pentru că repartiţia
statistică a paginilor este alterată de un algoritm care favorizează anumite pagini, întrun mod neobiectiv, din punct de vedere lingvistic (paginile cele mai populare, deci, cel
mai adesea, în limba engleză, vor avea o probabilitate mai mare de a fi incluse în cele
28
Totuşi, nejustificat să credem că pentru un eşantion cuprinzând între 25 şi 50% din acest
univers, ar putea să existe o modalitate în selectarea indexului care să favorizeze limbile
cele mai utilizate, în primul rând, engleza. În special, este foarte probabil, ca siturile cele
mai noi să nu fie indexate tot atât de repede ca siturile cele mai vechi şi că aceasta
reprezintă un prejudiciu statistic pentru limbile mai tinere ale Internetului.
29
Cifrele prezentate în paragraful precedent sunt din martie 2000, în timp ce cifrele de faţă
sunt din iulie 2000, ceea ce explică diferenţele.
110 pagini alese). Consecinţele acestui mecanism sunt evidente pentru limba română
(termenii în română au scoruri anormal de slabe, adesea nule).
2. AltaVista, Excite, Fast şi Google: Un index mai mare, cu o selecţie mai puţin
puternică şi mai ales independentă faţă de conţinut (nu se elimină decât site-urile
oglindă şi cele care dau erori 40130 sau 40431). Cu acest procedeu indexurile sunt mai
mari; dacă nu dau obligatoriu rezultatele cele mai coerente din punct de vedere al
pertinenţei, ele sunt compatibile cu metodologia noastră pentru că nu ar trebui să
favorizeze o limbă în detrimentul alteia. Să reţinem că Google păstrează o imagine a
paginilor în momentul includerii lor în indexul său, ceea ce permite regăsirea informaţiei
chiar atunci când pagina indexată a fost eliminată de pe Internet.
Validarea motoarelor de căutare în funcţie de metodologia noastră
AltaVista
AltaVista este, de mai mulţi ani, unul din motoarele de căutare cel mai utilizat pe Web.
Indexul său rămâne unul dinte cele mai mari, totuşi utilizarea acestui motor de căutare în
cadrul studiului nostru nu este, nici de această dată32, posibilă. Într-adevăr:
• AltaVista "trunchiază rezultatele"33. Această hotărâre este luată de AltaVista
pentru a putea să-şi micşoreze timpul de răspuns în cazul în care serverul său
este supraîncărcat (motorul de căutare poate să se oprească din rezolvarea unei
cereri şi să nu furnizeze decât un rezultat parţial).
• Ca şi în studiul precedent, nu a fost posibil să stabilim natura exactă a gestiunii
semnelor diacritice; dacă există o logică, ea nu ne-a devenit evidentă şi, în aceste
condiţii, ne este imposibil să realizăm o lucrare serioasă.
• Valorile afişate pentru numărări se schimbă într-un mod aleatoriu, de exemplu
este posibil să avem un număr de pagini diferit pentru aceeaşi căutare, dacă
privim rezultatele, de la 1 la 10 sau de la 11 la 20...
Infoseek
Infoseek are un index prea slab pentru a putea fi utilizat în cadrul metodologiei noastre (am
constatat acest lucru prin cifrele paginilor obţinute pentru limba engleză: 36 de milioane
faţă de mai mult de 150 de milioane obţinute cu majoritatea celorlalte motoare). Această
slăbiciune a indexării conferă un avantaj limbii engleze faţă de celelalte limbi prezente pe
Internet.
iWon
iWon utilizează acelaşi index ca şi Hotbot (Inktomi), motorul pe care l-am utilizat în studiul
nostru precedent. Tehnica de selecţie a paginilor de către Inktomi nu este compatibilă cu
metodologia noastră, aşa cum am explicat în paragraful precedent.
Northern Light
Acest motor nu a putut fi utilizat pentru studiul nostru pentru că nu ia în considerare
semnele diacritice (în speţă, nu interpretează corect semnele utilizate de limba română). În
plus, caută sistematic pluralul termenilor atunci când se fac căutări pentru limba engleză,
dar nu şi pentru celelalte limbi.
30
Adică o pagină cu acces limitat, nedisponibilă marelui public.
Adică o pagină inexistentă într-un site accesat corect.
32
AltaVista a fost eliminat din studiul precedent din aceleaşi motive.
33
Adică nu ia în considerare o parte din paginile care răspund criteriului de căutare, ceea ce
produce o reducere a valorii de numărare, care nu mai corespunde, deci, realităţii.
31
Google
Acest motor, care pretinde a avea cel mai mare index de pe Web, dă rezultate rapide. Întrun prim moment a fost eliminat pentru că, spre deosebire de AltaVista, trunchia rezultatele.
Acest inconvenient a fost corectat ceea ce a dus la selectarea lui pentru obţinerea
rezultatelor finale. Totuşi, cu ocazia numărătorilor din iunie 2001, am constatat că semnele
diacritice nu mai erau tratate într-o manieră satisfăcătoare ceea ce ne-a determinat să-l
eliminăm din nou.
Fastsearch
Fastsearch, care are unul din cele mai mari indexuri, dă rezultate rapide, nu trunchiază
rezultatele, nu-şi restrânge indexul la site-urile cele mai populare şi tratează semnele
diacritice într-o manieră satisfăcătoare. A fost astfel selecţionat ca motor de căutare
pentru studiul din iunie 2001.
Concluzie
Motorul de căutare Fastsearch rămâne singurul, începând cu data ultimelor
măsurători (iunie 2001), care permite utilizarea metodologiei noastre de măsurare
a repartiţiei limbilor pe Internet şi singurul care furnizează rezultatele finale. Faptul că
cifrele furnizate de Fastsearch şi Google până în ianuarie 2001 erau, din punct de vedere
statistic, foarte apropiate a reprezentat un element esenţial pentru a ne menţine încrederea
în validitatea metodologiei noastre.
Anexa 5: Interfaţa de automatizare a studiului L5
Introducere
Obţinerea rezultatelor pentru studiul privind locul limbilor latine pe Internet implică o muncă
minuţioasă, îndelungată şi repetitivă, de măsurare a rezultatelor obţinute cu motoarele de
căutare. Într-adevăr, fiecare rezultat final (pentru fiecare motor de căutare) impune o
numărare a paginilor care conţin fiecare din cele aproape 1200 de variante ale celor 57 de
termeni selecţionaţi (1600 de când a fost adăugată limba germană). Acest procedeu este
urmat de corecţii manuale pentru cele 73 de variante care au probleme de omografie (cu
majuscule în tabelul termenilor din anexa 3). Rezultatele obţinute pentru fiecare variantă
sunt apoi grupate pe termeni şi se obţin 57 de scoruri clasificate pe fiecare limbă. În
continuare se face media scorurilor şi se va calcula atât coeficientul de variaţie, cât şi
intervalul de încredere pentru fiecare limbă, pentru a se obţine rezultatul final. Fără să
uităm, desigur, de etapa verificării rezultatelor, din care o bună parte sunt, fără îndoială,
alterate de diverse erori de dactilografiere sau neatenţie datorate succesiunii de procedee
repetitive.
Toate aceste rezultate pentru fiecare variantă, pentru fiecare termen sau finale nu sunt
flexibile în utilizare, o eroare detectată ulterior, la recopierea unui scor, necesită atât o
recalculare sistematică a termenului asociat, cât şi recalcularea statisticilor finale.
O automatizare a acestor proceduri manuale era, deci, de dorit. S-a decis investirea în
programarea unui algoritm care, pornind de la 1600 de forme, să faciliteze cercetarea cu
motoarele de căutare, recuperând numărătorile şi organizându-le astfel încât să se poată
efectua, după corectarea omografiilor, ansamblul calculelor statistice. Această automatizare
permite, în plus, să se utilizeze mai multe motoare de căutare fără o muncă suplimentară
importantă.
Tehnologia utilizată
Pentru a permite o gestiune optimală a întregului, s-a decis să se utilizeze o structură de
bază de date, ca element central articulând celelalte aplicaţii.
Gestionarul de baze de date ales a fost PosgreSQL, a cărui utilizare este răspândită în
domeniul Internetului iar, pentru interfaţa între baza de date şi serviciile din reţea, a fost
ales limbajul de programare PHP.
Detaliile funcţionării sistemului
Baza de date
Baza de date cuprinde trei tabele mari care reprezintă structura sistemului automatizat:
• Tabelul celor 1600 de variante ale termenilor: în acest tabel sunt înregistrate
diferitele variante ale eşantionului. Ele sunt clasificate după termen şi după limba căreia
îi aparţine acesta şi sunt înregistrate împreună cu parametrii care le sunt asociaţi:
omografii etc. Anexa 3 prezintă conţinutul acestui tabel.
•
Tabelul scorurilor: aici sunt păstrate toate rezultatele (numărătorile de pagini)
recuperate cu ajutorul interfeţei programului PHP, obţinute cu motoarele de căutare.
Aceste scoruri sunt clasificate în funcţie de variantele la care se raportează şi de motorul
cu care s-a obţinut acest scor.
•
Tabelul rezultatelor pe concept: o dată introduse în baza de date cele 1600 de
variante şi obţinute scorurile fiecăreia din ele, sunt calculate rezultatele pentru fiecare
termen. Aceasta se efectuează adunând scorurile variantelor care aparţin aceluiaşi
termen al unui limbi. Aceste rezultate obţinute (clasificate pe cuvânt, pe motor şi pe
limbă) vor fi utilizate pentru a se obţine rezultatele finale şi vor servi ca intrări pentru
calculele statistice prevăzute.
Designul este deschis graţie parametrajului listei limbilor şi motoarelor utilizate. Această
înlănţuire permite o foarte mare flexibilitate în măsura în care se pot adăuga, după dorinţă,
noi termeni, noi motoare şi noi limbi.
Interfeţele PHP
Programul PHP cuprinde trei tipuri de interfeţe:
Interfeţe pentru culegerea datelor
Aceste interfeţe folosesc la completarea câmpurilor variante şi scoruri ale bazei de date.
Prima este o interfaţă utilizator care serveşte la gestiunea introducerii variantelor şi a
proprietăţilor lor asociate34. A doua este o interfaţă maşină care permite, pentru fiecare
motor luat în considerare, să se stocheze scorurile obţinute în timpul execuţiei programului.
Datele culese cu prima interfaţă sunt păstrate la fiecare execuţie, cele pentru a doua sunt
volatile şi sunt înlocuite la fiecare execuţie. Datele înlocuite în acest proces sunt, bineînţeles,
arhivate în prealabil.
Interfeţele prelucrării datelor
Sunt de două tipuri: cele care permit modificarea tabelului scorurilor variantelor şi cele care
permit calculul valorilor asociate fiecărui cuvânt. Primele sunt folosite pentru a corecta
următoarele probleme de omografie:
Abaterile cele mai frecvente, în ceea ce priveşte variantele, sunt pluralurile în idades, pentru limbile spaniolă şi portugheză. Repartiţia numărătorii între spaniolă şi
portugheză a fost făcută automat în proporţie de rezultatele parţiale ale studiului.
Pornind de la rezultatele parţiale au fost calculaţi coeficienţii (pentru fiecare motor)
ponderii limbii spaniole în raport cu ponderea limbii portugheze, iar aceşti coeficienţi
au fost aplicaţi pentru a repartiza scorurile cuvintelor în "-IDADES" între spaniolă şi
portugheză.
Există un caz de omografie pentru limba română (cal şi cai: omografii ale altor
cuvinte în limbile spaniolă, italiană, portugheză...). De aceea formele cal şi cai nu au
fost numărate, ceea ce a penalizat limba română. De altfel şi forma caii a fost, de
asemenea, eliminată, din cauza omografiei cu sigle frecvent prezente pe Internet.
34
Limbă, termeni asociaţi, probleme de omografie, variantă cu diacritice.
Faca şi facas (cuţit… în limba portugheză) dar ele sunt şi două forme ale conjugării
verbului “a face” (faça şi faças, în varianta fără diacritice). Rezultatul indicat a fost
calculat a posteriori utilizând aceeaşi metodă ca şi pentru cuvintele în -idades pe
baza coeficienţilor limbii portugheze în raport cu engleza. Forma boli, în limba
română, este o abreviere foarte frecventă a cuvântului bolígrafo din spaniolă
(stilou) şi a fost eliminată din numărătoare. Joi este un cuvânt de trei litere deci
susceptibil de omografie cu sigle. Joia este un omograf al portughezului jóia fără
diacritice (bijuterie). Rezultatul indicat a fost calculat utilizând aceeaşi metodă ca şi
pentru cuvintele în -idades. Marti este omograf cu numele unui personaj celebru
(José Martí), fără diacritice, şi scorul său nu a fost contabilizat pentru rom. marţi.
Scorul lui mardi în franceză a fost diminuat cu scorul lui mardi gras, pentru a nu
contabiliza această formă frecventă în limba engleză.
Interfeţele celui de al doilea tip actualizează partea "rezultate pe concepte" a bazei de date.
Interfeţele afişării rezultatelor
Baza de date utilizată pentru stocarea rezultatelor conţine:
(a) 1600 de variante ale termenilor clasate pe concept (57) şi pe limbă (7)
(b) scorurile celor 1600 de variante grafice, măsurate pentru 6 motoare de căutare (9600
de rezultate)
(c) scorurile celor 57 de termeni, calculate pornind de la cele 9600 de rezultate pentru 6
motoare şi 7 limbi (2394 rezultate). Aceste scoruri sunt vizibile sub formă de cifre
absolute sau proporţional faţă de scorul limbii engleze.
Accesul la aceste informaţii a necesitat crearea unei interfeţe de afişare a rezultatelor care a
trebuit să respecte două condiţii:
•
•
să permită obţinerea de rezultate rapide şi obiective pentru ansamblul informaţiilor
disponibile
să dispună de rezultate actualizate de fiecare dată când se produce o modificare în baza
de date.
Interfaţa care a permis accesul la rezultate (a) a permis obţinerea tabelului din anexa 3.
Rezultatele interfeţei (b) sunt disponibile în anexa 8, iar cele obţinute cu interfaţa (c) în
anexa 9. Interfaţa anexei 9 calculează şi media, diferenţa tip şi coeficientul de variaţie a
rezultatelor când sunt afişate procentajele. Acestea sunt şi rezultatele obţinute cu această
interfaţă care permit să se ilustreze caracteristicile motoarelor de căutare (anexa 4).
Concluzii şi plan pentru versiunea viitoare
Acest sistem prezintă o ameliorare certă a metodei manuale. El transformă o operaţie lentă
şi obositoare care necesita 10 zile de lucru pentru 1200 de variante şi un singur motor de
căutare într-o muncă de 2 zile pentru 1600 de variante şi 6 motoare de căutare cu rezultate
mai flexibile la utilizare. Acest sistem permite, în plus, integrarea cu uşurinţă a altor limbi
pentru studiu, a altor eşantioane lingvistice sau a altor motoare de căutare.
Această flexibilitate ne permite să întrevedem adăugarea unor noi funcţionalităţi în viitor în
ceea ce priveşte baza de date şi interfeţele. O supraveghere periodică şi datată a
rezultatelor va permite atât o analiză dinamică a evoluţiei prezenţei limbilor neolatine
studiate pe Internet, cât şi transformarea acestui studiu într-un veritabil observator al
acestor evoluţii. Aceste rezultate pot permite, de asemenea, evaluarea modalităţii în care
fiecare motor de căutare tratează plurilingvismul pe Internet.
Anexa 6:
Rezultatele măsurătorilor clasamentului pe
limbi cu Fastsearch şi comparaţie
Tabelul 17: Rezultatele clasamentului pe limbi obţinut cu Fastsearch şi
comparaţie35
Fastsearch Fastsearch
2000
2001
Afrikaans
0,06
Albaneză
% total
relativ
2000
0%
% total % total % engleză L5 (2001) L5 (2001)
L4
relativ
absolut
%
total
(1998)
2001
engleză
total
0,01%
0,01%
0,02%
0,03
0%
0,01%
0,01%
0,01%
22,24
42,15
6,81%
7,57%
7,33%
12,58%
220,78
335,04
67,63%
60,20%
58,27%
100 %
Arabă
0,16
0,57
0,05%
0,10%
0,10%
0,17%
Bască
0,04
0,05
0,01%
0,01%
0,01%
0,01%
0,03
0, %
0,01%
0,01%
0,01%
0,16
0,02%
0,03%
0,03%
0,05%
Germană
Engleză
Bielorusă
Bulgară
0,06
Catalană
0,52
0,75
0,16%
0,13%
0,13%
0,22%
4,9
20,57
1,50%
3,70%
3,58%
6,14%
6,30
0%
1,13%
1,10%
1,88%
9,81
1,49%
1,76%
1,71%
2,93%
0,45
0%
0,08%
0,08%
0,13%
Chineză
simplificat
ă
Chineză
trad.
Coreeană
4,87
Croată
Daneză
1,63
2,89
0,50%
0,52%
0,50%
0,86%
Spaniolă
8,92
15,98
2,73%
2,87%
2,78%
4,77%
Estonă
0,20
0,48
0,06%
0,09%
0,08%
0,14%
Feroieză
Finlandez
ă
Franceză
0,02
0, %
0%
0%
0,01%
1,33
2,64
0,41%
0,47%
0,46%
0,79%
10,66
19,15
3,27%
3,44%
3,33%
5,72%
0
0%
0%
0%
0%
Frizonă
Galiciană
0,01
0%
0%
0%
0%
Galeză
0,39
0,00%
0,07%
0,07%
0,12%
Greacă
0,31
0,66
0,09%
0,12%
0,11%
0,20%
Ebraică
0,21
0,30
0,06%
0,05%
0,05%
0,09%
Maghiară
0,57
1,36
0,17%
0,24%
0,24%
0,41%
0,76
0%
0,14%
0,13%
0,23%
0,07%
Indonezia
nă
Islandeză
0,15
0,25
0,05%
0,04%
0,04%
Italiană
5,67
10,77
1,74%
1,93%
1,87%
3,21%
19,33
37,40
5,92%
6,72%
6,50%
11,16%
0,03
0%
0,01%
0,01%
0,01%
Japoneză
Latină
Letonă
0,07
0,10
0,02%
0,02%
0,02%
0,03%
Lituaniană
0,11
0,16
0,03%
0,03%
0,03%
0,05%
0,17
0%
0,03%
0,03%
0,05%
Malaeză
35
Acest tabel nu ia în considerare paginile multilingve.
13,4%
6,97%
52%
75%
10,95%
5,69%
2,53%
8,86%
4,61%
2,81%
5,88%
3,06%
1,50%
Olandeză
3,77
6,83
1,15%
1,23%
1,19%
2,04%
Norvegian
ă
Poloneză
1,44
2,62
0,44%
0,47%
0,46%
0,78%
1,08
3,36
0,33%
0,60%
0,58%
1%
Portughez
ă
Română
5,03
9,04
1,54%
1,62%
1,57%
2,70%
5,40%
2,81%
0,82%
0,14
0,22
0,04%
0,04%
0,04%
0,07%
0,32%
0,17%
0,15%
Rusă
7,04
12,76
2,16%
2,29%
2,22%
3,81%
Slovacă
0,69
0%
0,12%
0,12%
0,21%
Slovenă
0,14
0,40
0,04%
0,07%
0,07%
0,12%
Suedeză
3,33
5,11
1,02%
0,92%
0,89%
1,53%
Cehă
1,21
3,50
0,37%
0,63%
0,61%
1,04%
0,95
0%
0,17%
0,17%
0,28%
1,15
0,16%
0,21%
0,20%
0,34%
0,30
0%
0,05%
0,05%
0,09%
0,17
0%
0,03%
0,03%
0,05%
Thai
Turcă
Ucrainean
ă
Vietnamez
ă
Total
relativ
Total
estimat
0,52
326,43
556,59
340
575
(Cifre obţinute cu Fastsearch)
Anexa 7:
Criterii de selecţie a termenilor
Tabelul de mai jos prezintă ansamblul criteriilor alese pentru selectarea termenilor
eşantionului. Este vorba de criterii de filtrare pentru acceptarea unui termen. Pentru a reţine
cei 57 de termeni au fost eliminaţi sute de termeni.
Tabelul 18: Criterii de selecţie lingvistică a termenilor eşantionului
CRITERIU
DEFINIŢIE
Neutralitate Proprietate a
culturală
unui cuvânt în
funcţie de
frecvenţa sa
de apariţie în
limbaj în
funcţie de
cultura
respectivă.
EXEMPLE
METODĂ
Vin, parfum,
Adecvată pentru
gastronomie şi obţinerea unui
termenii
eşantion cu
limbajului
coeficientul de
diplomatic nu sunt variaţie cel mai
neutri din punct
slab, sunt eliminaţi
de vedere cultural termenii care nu
în limba franceză. sunt neutri din
punct de vedere
cultural.
Omografie Ortografia
Exemple de grafie Se elimină din
interlingvistic unui termen
identică: casa în eşantion termenii
ă
într-o limbă
spaniolă şi
care prezintă
este identică portugheză
această
cu cea a altui înseamnă casă.
caracteristică (cu
termen din
Exemple de "falşi sau fără diacritice).
altă limbă.
prieteni": red în
Aceasta este spaniolă (reţea),
valabil atât
red în
pentru grafiile engleză(roşu) ;
identice, cât şi hier în franceză
“falşii
(ieri) şi hier în
prieteni”.
germană (aici).
Omografie
interlingvistic
ă prin
împrumut
Omografie cu
o abreviere
Când un
cuvânt al unei
limbi este
acceptat aşa
cum este întro altă limbă.
Anglicisme ca
business,
sandwich sau
software.
Reciproc, deja vu
în engleză
(omograf al
expresiei franceze
fără diacritice).
Sept (şapte) în
franceză cu
abrevierile pentru
septembre
(franceză)
“septembrie” şi
mai ales
COMENTARII
Sunt luate în calcul
numai omografiile
între limbile
studiului şi/sau
limbile prezente pe
Internet (cum este
germana). Pentru a
evita riscul statistic
de omografie cu
limbile neabordate
în studiu sunt
eliminate cuvintele
de mai puţin de
patru litere.
Eliminarea din
eşantion a
termenilor
împrumutaţi.
De evitat aceşti
termeni.
Suntem relativ
protejaţi prin
hotărârea noastră
de a evita cuvintele
de mai puţin de
patru litere.
Omografie cu
un nume
propriu
frecvent
Pseudoomogr
afie
interlingvistic
ă
Semnificaţii
neechivalente
Scrierea unui
termen cu o
greşeală
comună de
ortografie
corespunde
unui termen
într-o altă
limbă.
September
(engleză).
Julio, iulie în
spaniolă, şi
prenumele
respectiv, foarte
frecvent, având
acelaşi
semnificant.
Windows
înseamnă
fereastră în
engleză... dar
este şi numele
unui program
foarte citat în
spaţiul Internet.
Ambasador în
română şi
amba(s)sador în
engleză.
Prix în franceză
înseamnă şi
premio şi precio
(spaniolă), price
şi prime
(engleză).
Love în engleză
Morfosintaxă Limba
neechivalentă: engleză, foarte înseamnă şi
substantiv, diferită din
dragoste şi
verb
punct de
verbul a iubi: la
vedere
infinitiv, la
sintactic de
prezent indicativ
celelalte limbi (iubesc, iubeşti,
studiate, are iubim, iubiţi,
adesea
iubesc) etc.
aceeaşi formă
ca substantiv
şi variantă
verbală,
aceasta din
De eliminat
termenii de acest
fel
Cuvântul este
eliminat numai dacă
limba ţintă este
engleza.
De evitat aceşti
termeni, sau, dacă
este posibil, să se
urmărească
compararea lor
incluzând toţi
semnificanţii care ar
completa o
semnificaţie
echivalentă în
limbile unde este
cazul.
De evitat aceşti
Această
termeni.
caracteristică a
limbii engleze ne
determină să
eliminăm a priori
verbele
urmă fiind
echivalentă,
de altfel, cu
mai multe
forme ale
conjugării în
celelalte limbi.
Morfosintaxă Adjectivele
neechivalentă: invariabile în
adjectiv şi
engleză,
substantiv variază în gen
şi număr în
celelalte limbi
studiate.
Substantivele
care nu
variază în
general decât
în număr în
celelalte limbi
variază şi
după caz
(nominativ,
genitiv etc.) şi
diferenţa
determinat /
nedeterminat
în română.
Pluricentrism Când o limbă
lexical şi
are mai mult
semantic
de un centru
normativ
lexicosemantic.
Pluricentrism Când o limbă
ortografic
are mai mult
de un centru
normativ
ortografic.
Adjectivul din
A se urmări
engleză yellow
multiplicarea
corespunde lui
variantelor în gen,
amarillo /
număr şi caz în
amarilla /
celelalte limbi când
amarillos /
echivalenţa o cere.
amarillas în
spaniolă.
Substantivul
englez instability
/ instabilities
corespunde
variantelor
româneşti:
instabilitate /
instabilitatea /
instabilităţii /
instabilităţi /
instabilităţile /
instabilităţilor
(nu includem aici
variantele fără
semne diacritice).
După ţara
A se urmări
hispanofonă se
multiplicarea
spune nafta sau variantelor
gasolina
sinonimice
(benzină).
naţionale sau
Americano, în
regionale pentru
anumite ţări
echivalente, când
hispanofone din
este posibil.
America Latină,
nu are acelaşi
înţeles ca în
celelalte sau ca în
Spania ("care
aparţine întregului
continent" sau
"care aparţine
Statelor Unite").
Este cazul limbii A se urmări
engleze şi mai
multiplicarea
ales a limbii
variantelor
portugheze.
ortografice
Anumiţi termeni naţionale pentru
se ortografiază
echivalente, când
diferit în Statele este posibil.
Unite şi în Marea
Britanie, (theater
şi theatre), în
Portugalia şi în
Brazilia
(electricidade şi
eletricidade).