tese - Engenharia Geoespacial

Transcrição

tese - Engenharia Geoespacial
UNIVERSIDADE DE LISBOA
FACULDADE DE CIÊNCIAS
DEPARTAMENTO DE ENGENHARIA
GEOGRÁFICA, GEOFÍSICA E ENERGIA
ELEGIBILIDADE E QUALIFICAÇÃO DA REDE DE
COBRE PARA SERVIÇOS DE TELECOMUNICAÇÕES
DE BANDA LARGA
Raquel Pereira Carvalho
Programa de Estudos Pós-Graduados em Engenharia Geográfica e
GeoInformática
Especialização em Sistemas de Informação Geográfica
2008
UNIVERSIDADE DE LISBOA
FACULDADE DE CIÊNCIAS
DEPARTAMENTO DE ENGENHARIA
GEOGRÁFICA, GEOFÍSICA E ENERGIA
ELEGIBILIDADE E QUALIFICAÇÃO DA REDE DE
COBRE PARA SERVIÇOS DE TELECOMUNICAÇÕES
DE BANDA LARGA
Raquel Pereira Carvalho
Orientador: Prof. João Catalão
Programa de Estudos Pós-Graduados em Engenharia Geográfica e
GeoInformática
Especialização em Sistemas de Informação Geográfica
2008
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Resumo
No mercado das telecomunicações, a falta de informação técnica e geográfica sobre a rede
de cobre pertencente ao Operador Histórico é um dos pontos críticos que enfrentam os
Operadores Entrantes para a sua utilização. Neste contexto, apresenta-se uma metodologia
que, aproveitando a informação gerada pelas tecnologias mais recentes relativamente a
serviços de banda larga sobre esta rede, permite: (1) definir classes de elegibilidade de
serviço e (2) contribuir para a qualificação da rede de cobre.
Em termos práticos, a elegibilidade e a qualificação podem contribuir para orientar com
grande precisão a acção de uma força de vendas, desencadear campanhas de marketing
directo com ofertas personalizadas para cada casa de uma dada área onde se planeie
fornecer serviços de banda larga, prever zonas problemáticas e entender melhor o
comportamento da rede de cobre.
Para isso, propõe-se a utilização de técnicas da análise espacial e geoestatística para o
cálculo da probabilidade de fornecer um dado serviço numa dada área, com base em
medições de sinal eléctrico, georreferenciadas e distribuídas aleatoriamente numa dada
rede de acesso local nacional.
Os resultados obtidos mostram que faz sentido utilizar as técnicas geoestatística
estocásticos (normalmente aplicadas às ciências da Terra); permitem não só interpolar
valores desconhecidos em localizações não observadas, mas também calcular mapas de
erro das interpolações e a probabilidade de ocorrerem determinadas classes de serviço em
diversas áreas. A possibilidade de quantificar o grau de confiança das classes de
elegibilidade, por se acrescentar uma dimensão experimental às técnicas mais comuns para
as definir - que se baseiam em distâncias lineares ou sobre eixos de via e cujos parâmetros
derivam apenas de dados de laboratório -, permite ainda propor áreas para recolha
adicional de dados e melhoria dos modelos ajustados.
Palavras-chave
Telecomunicações, Rede de cobre, xDSL, Banda larga, Análise espacial, Geoestatística,
Elegibilidade.
iii
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Abstract
In the telecommunications market, the lack of technical and geographical information on the
copper network owned by the Historic Operator is one of the main issues that the Challenger
Operators have to deal with in order to use it as well. In this context, it is presented a
methodology which, taking advantage of the information created by the most recent
technologies regarding broadband services over this network, allows: (1) the definition of
classes of service eligibility and (2) contribute to the qualification of the copper network.
In practical terms, the eligibility and the qualification may contribute to guide with great
precision the action of a sales force, develop direct marketing campaigns with personalised
offers to each house of a given area where it is planned to distribute broadband services,
forecast problematic zones and have a better understanding of the copper network
behaviour.
For this, it is proposed the utilisation of spatial analysis and geostatistic techniques for the
calculation of the probability of offering a certain service in a given area, based on measures
of electrical signal, georreferenced and randomly distributed in an given national local
access network.
The results achieved shows that it makes sense to use stochastic geostatistical techniques
(usually applied to the Earth sciences); it allows not only interpolating unknown values in non
observed locations, but also calculating error maps for the interpolations and the probability
of occur certain classes of service in several areas. The possibility of quantifying the
confidence level of the eligibility classes, by adding an experimental dimension to the most
common techniques to define it – that are based in linear distances or on street axis and
which parameters derive only from laboratory data -, allows also to propose areas for
additional data collection and improvement of the adjusted models.
Keywords
Telecommunications, Copper network, xDSL, Broadband, Spatial analysis, Geostatistics,
Eligibility.
iv
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Agradecimentos
Um trabalho do género do que é aqui apresentado, embora seja uma responsabilidade
individual, resulta de um esforço colectivo. Esta página de agradecimentos faz honras aos
que mais contribuíram para que esta dissertação chegasse a bom porto, mesmo
envolvendo uma mudança de País, de armas e bagagens.
Agradeço ao Prof. Doutor João Catalão, a imensa paciência e disponibilidade, apoio
intelectual, confiança e visão sempre realista dos passos a tomar no meu trabalho.
Aos mentores Luís Filipe Tavares, pelo encorajamento e apoio desde o primeiro momento,
e ao Yann Guézou, Filipe Simões e Pedro Cavaca que, em momentos diferentes e de forma
crítica, rigorosa e criativa sempre estiveram disponíveis para argumentar muitas das ideias
aqui apresentadas, dando Norte a esta dissertação. Ao meu actual director, Aditya Gokhale,
pelo apoio incondicional e pelo tempo que me deu para avançar na escrita do texto.
À Catarina Rodrigues, minha amiga pessoal e colega de mestrado, com quem partilho
diversos interesses comuns, pela disponibilidade constante.
Ao Rodrigo Curado, que tive do meu lado durante a realização de praticamente todo o
mestrado e, não obstante o sacrifício que fizesse, esteve sempre próximo, a apoiar. Por
entender o significado da paciência e sempre me ter encorajado a ir mais além das minhas
fronteiras. Ao Gonçalo Curado também pela disponibilidade e paciência para me trazer a
perspectiva estatística. À restante família Curado, pelo apoio, interesse e apreciação que
sempre demonstraram.
Aos meus pais, Ilídio e Lurdes, pela sólida formação que me deram e que, especialmente
na recta final, em conjunto com a minha amiga Sara Aguiar, fornecerem a base de
sustentação que me manteve de pé em momentos mais difíceis, que andaram a par com a
responsabilidade de terminar a dissertação. Também à Paula Morais, ao Luís Ferreira e às
versões pequenas, que considero os membros mais recentes da minha família.
Ao Nelson Luna Silvestre por ter aparecido na altura certa, com experiência em abordagens
semelhantes, facilitando o alcance dos objectivos propostos (tanto a nível conceptual como
material), trazendo sempre a perspectiva da objectividade científica.
v
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Índice
I.
Introdução........................................................................................................................ 2
1. Objectivos e justificação do tema.................................................................................... 3
2. Elementos sobre o estado da arte .................................................................................. 4
3. Organização sequencial da dissertação ......................................................................... 5
II.
Enquadramento teórico ................................................................................................... 7
1. Sobre a rede de cobre................................................................................................... 12
2. Etapas de um projecto de lançamento de uma oferta de banda larga.......................... 22
3. Análise e determinação da elegibilidade....................................................................... 28
4. Dados disponíveis e ferramentas utilizadas.................................................................. 30
III.
Metodologia................................................................................................................ 32
1. Princípios da análise geoestatística .............................................................................. 34
2. Técnicas de interpolação geoestatística estocástica .................................................... 38
3. Sumário do problema a resolver com recurso à geoestatística .................................... 43
4. Representação dos dados ............................................................................................ 46
5. Procura de candidatos a outliers globais e locais ......................................................... 47
6. Criação de subconjuntos de dados: treino e teste ........................................................ 49
IV.
Análise e Resultados ................................................................................................. 51
1. Análise exploratória de dados ....................................................................................... 51
Histograma .................................................................................................................... 52
Mapas de Voronoi.......................................................................................................... 56
Gráfico de quantis normais............................................................................................ 60
Gráfico de tendência global ........................................................................................... 62
Semi-variância ............................................................................................................... 65
Conclusões da análise exploratória de dados ............................................................... 72
2. Análise estrutural........................................................................................................... 75
Variografia ..................................................................................................................... 78
Interpolação kriging ....................................................................................................... 86
3. Validação dos resultados .............................................................................................. 89
vi
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Resultados dos testes kriging........................................................................................ 92
V.
Discussão, Conclusões e Recomendações ................................................................ 100
Referências bibliográficas................................................................................................... 103
Documentos impressos................................................................................................... 103
Documentos electrónicos ................................................................................................ 104
Páginas Internet .............................................................................................................. 105
Apêndices ........................................................................................................................... 108
Anexos ................................................................................................................................ 112
vii
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Lista de Figuras
Figura 1 - Exemplo de rede de comunicações ....................................................................... 8 Figura 2 - Detalhe de uma rede de acesso local .................................................................. 10 Figura 3 - Serviços de banda larga através da rede de cobre.............................................. 13 Figura 4 - Exemplo conceptual da rede de cobre ................................................................. 14 Figura 5 - Tecnologias xDSL, capacidades e distâncias alcançadas ................................... 16 Figura 6 - Exemplos de configurações nos pares de cobre.................................................. 17 Figura 7 - Exemplos de degradação do sinal digital com impacto na imagem ..................... 20 Figura 8 - Identificação de causas e sintomas de possíveis problemas ............................... 21 Figura 9 - Exemplo da hierarquia de uma rede nacional de telecomunicações (caso
português)............................................................................................................................. 22 Figura 10 - Etapas-tipo de um projecto de prestação de serviços de telecomunicações ..... 23 Figura 11 - Equipamentos no Cliente, consoante o produto/serviço contratado .................. 26 Figura 12 - Coberturas teóricas e teórico-real para tecnologias xDSL ................................. 29 Figura 13 - Mapa de Voronoi sobre o conjunto de dados originais de observações de
atenuação ............................................................................................................................. 33 Figura 14 - Fluxograma......................................................................................................... 44 Figura 15 - Dados originais e dados de análise (sem valores de corte) ............................... 45 Figura 16 - Candidatos a outliers globais e locais ................................................................ 48 Figura 17 - Histograma dos dados de análise exploratória .................................................. 53 viii
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Figura 18 - Localização espacial das observações segundo as classes do histograma, para
identificação de candidatos a outliers ................................................................................... 56 Figura 19 - Cálculo dos polígonos de Voronoi...................................................................... 57 Figura 20 - Mapa de Voronoi, segundo o método cluster..................................................... 58 Figura 21 - Mapa de Voronoi, segundo o método entropia .................................................. 59 Figura 22 - Gráfico de quantis normais dos dados de análise exploratória .......................... 61 Figura 23 - Gráfico de tendência global dos dados de análise exploratória ......................... 64 Figura 24 - Fórmula de cálculo da semi-variância e gráfico de semi-variância empírica ..... 66 Figura 25 - Semi-variograma empírico dos dados de análise exploratória........................... 68 Figura 26 - Localização das amostras que apresentam maior semi-variância ..................... 69 Figura 27 – Exploração de influências direccionais nos dados de análise exploratória ....... 71 Figura 28 - Candidatos a outliers identificados na análise exploratória de dados ................ 74 Figura 29 - Distribuição espacial dos dados de treino e teste para a análise estrutural....... 75 Figura 30 – Processo de análise kriging............................................................................... 77 Figura 32 - Anatomia do semi-variograma............................................................................ 80 Figura 33 - Alguns dos modelos teóricos de semi-variograma possíveis ............................. 81 Figura 35 - Parâmetros de modelação da área de influência a aplicar sobre os dados de
análise estrutural................................................................................................................... 82 Figura 36 - Modelo com a 1ª melhor classificação no conjunto de 4 testes kriging realizados
para dos dados originais....................................................................................................... 94 Figura 37 - Gráficos dos erros de interpolação kriging para o melhor modelo dos dados
originais em comparação com o mesmo modelo para os dados de treino........................... 95 ix
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Figura 38 - Mapa de interpolação kriging dos valores de atenuação para o conjunto de
dados sem candidatos a outliers e para o conjunto de todos os dados (com os candidatos a
outliers) ................................................................................................................................. 96 Figura 39 - Mapa de Erro Padrão kriging dos valores de atenuação para o conjunto de
dados sem candidatos a outliers e para o conjunto total de dados (com os candidatos a
outliers) ................................................................................................................................. 97 Figura 40 - Probabilidade de elegibilidade Triple Play, com base nos dados de treino........ 98 Figura 41 - Probabilidade de elegibilidade Triple Play, com base nos dados originais ........ 99 Figura 43 - Modelo com a 1ª melhor classificação no conjunto de 21 testes kriging
realizados............................................................................................................................ 110 Figura 44 - Modelo com a 2ª melhor classificação no conjunto de 21 testes kriging
realizados............................................................................................................................ 110 Figura 45 - Modelo com a 3ª melhor classificação no conjunto de 21 testes kriging
realizados............................................................................................................................ 111 Figura 46 - Modelo com a 4ª melhor classificação no conjunto de 21 testes kriging
realizados............................................................................................................................ 111 x
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Lista de Tabelas
Tabela 1 - Meios de transmissão utilizados nos sistemas de telecomunicações ................... 9 Tabela 2 - Requisitos para lançamento de uma oferta comercial Triple Play....................... 24 Tabela 3 - Métricas teóricas de elegibilidade Triple Play...................................................... 25 Tabela 4 – Divisão do conjunto de dados da análise estrutural, utilizados para os 21 testes
de kriging .............................................................................................................................. 87 Tabela 5 - Parâmetros para os 21 testes de kriging, realizados com dados de treino e teste
.............................................................................................................................................. 87 Tabela 6 - Conjunto de dados utilizados para os segundos testes de kriging ...................... 93 Tabela 7 - Parâmetros para os segundos testes kriging, realizados com dados de treino e
teste incluindo valores candidatos a outliers ........................................................................ 93 Tabela 8 - Resultados das validações do primeiro grupo de testes Kriging, para o conjunto
de dados sem candidatos a outliers ................................................................................... 108 Tabela 9 - Resultados das validações do segundo grupo de testes kriging, para o conjunto
de dados incluindo os valores candidatos a outliers........................................................... 109 Tabela 11 - Métodos de cálculo de valores para os polígonos de Voronoi ........................ 112 Tabela 12 - Resultados por método de interpolação kriging e cokriging ............................ 113 xi
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Abreviaturas
ADSL2+
É uma das tecnologias disponíveis para a Digital Subscriber Line (DSL). O
‘A’ de ADSL2+ significa Assymetric e refere-se à assimetria entre as larguras
de banda máximas permitidas em download1 e/ou upload2, respectivamente
24Mbps e 1,4Mbps, com um único par de cobre. É uma das principais
tecnologias utilizadas para serviços Triple Play.
dB é uma abreviatura de decibel que é uma medida logarítmica que
dB
expressa a magnitude de uma quantidade física (normalmente, amplitude ou
intensidade) relativamente a um nível de referência específico ou implícito.
Representa um rácio entre dois níveis de potência, calculado segundo a
fórmula dB = log (P1/P2).
dBm
dBm é uma abreviatura para a potência em decibéis (dB), medida por
referência a 1 (um) miliWatt (mW). É utilizada em rádio, microondas e redes
ópticas ou de cobre para representar potências absolutas.
IPTV
É o acrónimo de Internet Protocol Television que consiste num sistema em
que é fornecido um serviço de televisão digital sobre uma rede baseada em
IP (Internet Protocol), suportada numa infra-estrutura de rede que suporte
ligações de banda larga.
Também se pode entender IPTV como conteúdos de televisão recebidos
pelo utilizador através de tecnologias utilizadas para redes de computadores.
Para utilizadores residenciais, a IPTV é muitas vezes entregue em conjunto
com VoD (Video on Demand), ao nível dos conteúdos de vídeo, e é
normalmente complementada com serviço de acesso à Internet e serviço de
voz (VoIP - Voice over IP, ou PSTN – Public Switched Telephone Network).
1
2
Download ou Downstream, refere-se à velocidade de transferência (por exemplo, numa ligação à Internet) na qual os
dados são enviados no sentido da rede para o Cliente. O processo que utiliza o downstream é conhecido por download.
Upstream ou Upload, refere-se à velocidade de transferência (por exemplo, numa ligação à Internet) na qual os dados são
enviados no sentido do Cliente para a rede. O processo que utiliza o upstream é conhecido por upload.
xii
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Mbps
Acrónimo de megabit per second. Em telecomunicações, a velocidade de
transmissão de dados de uma dada tecnologia é medida pelo número
máximo de bits transmitidos por unidade de tempo, conhecida por bit rate. É
tipicamente medida em múltiplos de unidades bit3 por segundo, no caso de
Mbps: 106.
SELT
Significa Single-Ended Loop Testing; é uma técnica através da qual se
obtém informação sobre o par de cobre a partir de uma medição reflectiva. É
utilizada para caracterizar e testar o par de cobre durante a fase de préactivação do serviço ou, após o serviço ter sido entregue ao Cliente, para
diagnosticar falhas no par de cobre.
STB
Uma set-top box (STB) ou set-top unit (STU) é um equipamento que se liga a
uma televisão e a uma fonte externa de sinal, cuja função é descodificar o
sinal transformando-o em conteúdos que são visualizados num monitor de
televisão.
3Play
Refere-se ao pacote comercial de um conjunto de três serviços,
denominados Triple Play: IPTV (televisão/vídeo), VoIP (voz) e acesso
Internet (dados). Actualmente, fala-se também em Quadruple Play, que é o
mesmo que 3Play mas acrescido do factor mobilidade ao pacote de serviços.
xDSL
DSL significa Digital Subscriber Line, linha de subscritor digital. A letra ‘x’
refere-se a uma série de possíveis tecnologias sobre DSL, que permitem
entregar serviços de telecomunicações a uma taxa suficiente para suportar
um conjunto de serviços digitais. As diferentes tecnologias variam entre si
consoante as diferentes técnicas de modulação de sinais eléctricos,
traduzindo-se em diferentes velocidades de transmissão de dados versus a
distância física entre o equipamento do Operador de telecomunicações e o
equipamento do Cliente.
3
Binary digit ou dígito binário, com valores possíveis de 0 ou 1. É a unidade básica de armazenamento da informação e
comunicação.
xiii
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
I. Introdução
No cenário de liberalização do mercado das telecomunicações (que em geral se revela lenta
e o caso português não é excepção), os Operadores Entrantes4 vêem-se confrontados com
falta de informação sobre a rede pertencente ao Operador Histórico5 que, necessariamente,
têm de utilizar para fornecerem parte dos seus serviços e conquistarem quota de mercado
que justifique o negócio.
Esta falta de informação (entre outros constrangimentos de carácter técnico que podem
justificar o interesse do âmbito desta dissertação também para Operadores Históricos), é
um dos pontos críticos para os Operadores Entrantes, no que diz respeito à rede de cobre
enquanto meio de transmissão de serviços de telecomunicações. Vinga assim a
necessidade de encontrar forma de suprir as lacunas de informação sobre a rede de cobre
para garantir uma melhor qualidade de serviço, seja qual for o tipo de Operador de
telecomunicações (Entrante ou Histórico).
Assim, desde o que é a rede de cobre enquanto meio de transmissão e as actuais
tecnologias xDSL6 para serviços de banda larga sobre este meio de transmissão, parte-se
para a aplicação e experimentação de técnicas avançadas de análise espacial e
geoestatística. O objectivo final desta dissertação é propor uma abordagem para a definição
de classes de elegibilidade de serviço e tentar contribuir para uma qualificação da rede de
cobre, integrando questões técnicas sempre com uma perspectiva espacial, geográfica.
Esta abordagem será um auxiliar para definir a melhor metodologia a aplicar na criação de
informação espacial relevante e com sentido estratégico-financeiro e operacional, sobre a
elegibilidade diferenciada de serviços de banda larga através da rede de cobre.
Concretamente, espera-se que os resultados possam contribuir para, por exemplo, orientar
com grande precisão a acção de uma força de vendas de um Operador de
telecomunicações, ou desencadear campanhas de marketing directo com ofertas
4
5
6
Os novos Operadores, que entram no mercado das telecomunicações aquando um processo de liberalização.
O primeiro Operador no mercado das telecomunicações, o que já está estabelecido quando surge o processo de
liberalização do mercado.
Cf. Abreviaturas.
2
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
personalizadas para cada casa de uma dada área onde se pretenda fornecer serviços de
banda larga, com o máximo de precisão.
Finalmente, pretende-se contribuir para conhecer melhor a rede, tentando contornar o
problema da falta de informação, contribuindo para uma melhor coordenação das áreas de
apoio ao Cliente e engenharia na resolução dos problemas que possam surgir no terreno.
1. Objectivos e justificação do tema
O objectivo da presente dissertação é explorar técnicas de análise espacial e geoestatística
com aplicação ao sector das telecomunicações, de forma a poder determinar classes de
elegibilidade para serviços de banda larga sobre a rede de cobre e, tentar qualificá-la para
esses serviços - estimando a probabilidade de ocorrência de problemas, de modo a evitar
custos operacionais incomportáveis.
Tanto para a elegibilidade como para a qualificação, terão de ser tidos em consideração
elementos fundamentais como:
•
As características gerais de uma rede de cobre;
•
As possibilidades tecnológicas actuais para a prestação de serviços de
telecomunicações de banda larga sobre esse tipo de redes;
•
Medições de atenuação7 de sinal, efectuadas em pontos terminais aleatórios (casas
de Clientes potenciais) numa dada rede de cobre concreta; e,
•
A localização e distribuição das medições de atenuação de sinal – com as quais se
espera poder contribuir para conhecer melhor a distribuição geográfica das
potencialidades da rede de cobre sobre a qual foram efectuadas as medições
(conhecimento essencial para a sua qualificação).
7
Que é a quantificação da redução da amplitude e intensidade de um sinal. A atenuação é uma propriedade importante em
telecomunicações, para determinar a força de um sinal em função da distância. É normalmente medida em unidades de
decibéis (dB, cf. Abreviaturas) por unidade de comprimento de um dado meio (dBm, dB/cm, dB/km, etc.).
3
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Além dos elementos apontados, a análise é realizada do ponto de vista do Operador
Entrante no mercado de liberalização das telecomunicações; portanto, é realizada a partir
de um conjunto discreto de valores de atenuação de sinal numa dada área de estudo.
2. Elementos sobre o estado da arte
A escolha do tema não foi alheia ao motivo habitual da identificação de um problema
relevante (sobretudo a nível profissional, neste caso) e que ainda não tenha sido
investigado.
Após a escolha do tema, com uma pesquisa mais aprofundada sobre o que existe, não foi
encontrado nada do género do que é proposto realizar, aplicado ao mesmo âmbito.
Existe muita informação e investigação quer sobre redes de telecomunicações, bem como
sobre análise espacial e geoestatística mas sempre aplicadas a estudos de fenómenos
naturais (geológicos, etc.) e/ou sociais (propagação de doenças, etc.), entre outros que não
de telecomunicações - embora se encontrem problemas de complexidade relativamente
semelhante.
São exemplos destas observações as Referências Bibliográficas desta dissertação. Nas
referências de telecomunicações não se encontram referências a técnicas da análise
espacial e geoestatística aplicadas aos vários tipos de rede; nas referências de análise
espacial e geoestatística, não se encontram referências a aplicações no campo das
telecomunicações.
Uma das razões poderá ser a origem relativamente recente da análise espacial e muito em
particular da geoestatística (década de 1960 – SOARES, 2006), dinamizada pela
necessidade inicial de resolução de problemas típicos da geologia e, mais tarde, do foro
ambiental, em sentido lato. Por outro lado, tem-se a origem também relativamente recente
das tecnologias xDSL nas telecomunicações, cujas primeiras referências relativamente à
tecnologia que aqui se irá analisar (o ADSL2+8) são posteriores ao ano de 20009.
8
9
Cf, Abreviaturas.
http://www.dslprime.com/a/adsl21.pdf
4
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Em termos de proposta e soluções, a inovação prende-se com a aplicação de técnicas já
conhecidas e experimentadas no âmbito da análise espacial e da geoestatística às
telecomunicações, em particular, a medições realizadas sobre a rede de cobre enquanto
meio de transmissão.
No ambiente de trabalho empresarial, é comum aplicarem-se técnicas determinísticas da
análise espacial no dia-a-dia das operações, ou na definição de estratégias de negócio no
âmbito do mercado das telecomunicações; mas não a aplicação de técnicas de análise
espacial estocásticas, em conjunto com a engenharia e operação de tecnologias de banda
larga sobre a rede de cobre. Com a evolução tecnológica acelerada, com o aumento da
diversificação (2Play, 3Play ou 4Play), a concorrência a aumentar (cujos exemplos
portugueses são: Sapo, Meo, ClixSmartv, Vodafone Casa) e os consumidores cada vez
mais exigentes, a necessidade de prever correctamente que tipo de serviço se pode
fornecer em dada localização é fulcral para ir de encontro à promessa efectuada pelos
Operadores bem como para minimizar os custos de operação de forma a conseguir
maximizar as receitas de um Operador de telecomunicações.
No âmbito da parte curricular do mestrado, para o qual se apresenta esta dissertação, foram
realizados estudos e testes experimentais das contribuições que a análise espacial de
superfícies e a geoestatística podem dar aos problemas de definição da elegibilidade e
qualificação da rede de cobre. A hipótese colocada, que serviu de alavanca para a presente
dissertação, era explorar a possibilidade de quantificar a probabilidade de fornecer um dado
serviço de banda larga, permitindo identificar claramente quem são os Clientes ou possíveis
Clientes, numa dada área delimitada.
Por questões de confidencialidade profissional, não é possível referenciar sempre todas as
fontes das afirmações presentes neste documento; nos casos em que isso acontece, os
resultados expostos devem-se a experiências realizadas e conhecimento adquirido no
âmbito da experiência profissional. Estão, no entanto, devidamente assinaladas as fontes
nas Referências Bibliográficas, ainda que em sentido genérico.
3. Organização sequencial da dissertação
A presente dissertação está estruturada em quatro partes:
5
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
1. Enquadramento teórico,
Onde se pretende familiarizar o leitor com a problemática em questão e auxiliar a
compreender melhor o estudo apresentado, fornecendo elementos sobre as redes
de cobre e as questões ligadas à definição da elegibilidade e qualificação dessa rede
para serviços de telecomunicações de banda larga;
2. Metodologia,
Características mais marcantes do problema em análise, com descrição dos passos
dados para a sua resolução;
3. Análise e Resultados,
Análise
exploratória
de
dados
com
apresentação
dos
resultados
obtidos
(quantitativos e/ou qualitativos) e avaliação do desempenho dos modelos aplicados;
e,
4. Discussão, Conclusões e Recomendações,
Síntese de resposta aos objectivos estipulados, salientando as limitações do
trabalho elaborado, recomendações para estudos futuros e as implicações dos
resultados obtidos para um Operador de telecomunicações.
6
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
II. Enquadramento teórico
O processo de liberalização na Europa tem vindo a ser imposto e supervisionado pela União
Europeia, desde 1987, promovendo a reestruturação e privatização dos monopólios
estatais, através da liberalização dos respectivos mercados do sector das infra-estruturas –
onde se incluem as telecomunicações.
Além do Mercado Único, outro objectivo geral deste processo é o de melhorar o acesso à
Sociedade da Informação; uma sociedade em que a vida económica e cultural está
dependente da informação e das tecnologias para a comunicação (BANGEMANN, 2004).
Em Portugal, o processo de liberalização tem sido levado a cabo em diferentes fases e para
diferentes tipos de rede; decorre desde 1 de Janeiro de 2000, data da liberalização total do
mercado das telecomunicações português e altura em que as expectativas relativamente à
liberalização eram a de uma melhoria da qualidade e/ou preço10. Relativamente à rede de
cobre, o processo teve início operacional em 200111.
Mesmo num cenário de liberalização das redes de telecomunicações, os Operadores
Históricos continuam tradicionalmente a monopolizar o mercado, mantendo as suas
posições dominantes desde o primeiro momento. São eles que controlam o acesso às redes
que detêm, o que determina que a liberalização seja lenta, embora estes mercados sejam
vigiados e regulados por entidades nacionais independentes12 criadas para esse efeito:
regular o mercado e assegurar que as condições de concorrência são iguais para todas as
partes.
Embora os Operadores Entrantes consigam ter capacidade financeira para implementar
uma rede nacional de transporte13, é financeiramente impraticável para um Operador
(sobretudo um Entrante) construir uma rede de acesso14, de carácter nacional e alternativa
à rede de cobre de um Operador Histórico. Isto deve-se principalmente devido à
capilaridade da rede de cobre que tradicionalmente é a que chega a cada casa. Para
compreender melhor a questão financeira veja-se o seguinte exemplo:
10
11
12
13
14
http://www.icp.pt/render.jsp?categoryId=17849.
Ano da primeira versão da Oferta de Regulação do Acesso ao Lacete Local (ORALL); lacete local ou par de cobre.
No caso português é a ANACOM, a Autoridade Nacional das Comunicações.
À qual estão associadas as redes de acesso, que podem ser de cobre, fibra óptica, rádio, etc.
Seja de cobre, fibra, etc.
7
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
3. Redes
Metropolitanas
1. Os Clientes
2. Rede de
transporte
4. Rede de
acesso local
Figura 1 - Exemplo de rede de comunicações
Utilizando a rede viária nacional portuguesa como metáfora de uma rede de
telecomunicações para ligar os seus Clientes (os habitantes das sedes de Concelho, neste
exemplo), verifica-se que: em primeiro lugar o Operador tem de construir uma rede nacional
de transporte. Numa primeira fase, liga apenas algumas das cidades mais importantes a
nível nacional (por exemplo: Porto, Lisboa e Faro). De seguida, o Operador começa a
capilarizar a sua rede para alcançar mais cidades, agora capitais de Distrito, onde se
concentre um maior número de habitantes, potenciais Clientes, e finalmente desenvolve
uma rede de acesso de tal modo capilar que chegue não só a todas as cidades sede de
Concelho mas também a cada uma das suas freguesias, a cada um dos seus arruamentos,
até à casa de cada habitante.
Tudo isto representa tempo e um esforço financeiro muito grande para implementar, por
isso se compreende facilmente porque é que os Operadores Históricos, no início de um
processo de liberalização, são detidos pela entidade Estado.
Ora, um Operador Entrante terá capacidade financeira para investir numa rede de
transporte, algumas redes metropolitanas e, dentro dessas redes metropolitanas, em
8
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
algumas áreas mais localizadas (utilizando ou não a rede já instalada do Operador
Histórico). Parte da rede dos Operadores Entrantes é invariavelmente alugada ao Operador
Histórico, por questões de custo. Como indica a Tabela 1, essa parte da rede, devido à sua
capilaridade é precisamente a rede de cobre (cabos metálicos); aliás, é esse o objectivo da
liberalização, partilhar uma rede que já existe com mais concorrentes, para fornecer
serviços diferenciados num mercado de livre concorrência, regulado por uma entidade
independente.
Tabela 1 - Meios de transmissão utilizados nos sistemas de telecomunicações
Vantagens e Desvantagens
Cabos metálicos
Sistemas via rádio
Fibra óptica
• Cobrem curtas
distâncias;
• Largura de banda
média;
• Difíceis de
implantar e
manter;
• Alto custo de
implantação
• Cobrem longas
distâncias;
• Largura de banda
não é de alta
capacidade;
• Facilidade de
instalação e
expansão;
• Custo baixo
• Cobrem longas
distâncias;
• Largura de banda
elevada;
• Difíceis de
implantar e
expandir;
• Custo elevado
Fenómenos
X
atmosféricos
Dificuldades
Mão-de-obra
X
X
X
X
X
X
Custo
X
X
Expansão
X
X
Infra-estrutura do
sistema
Manutenção do
sistema
Fonte: Adaptado de RODRIGUES; SOBRAL (2002).
A liberalização em Portugal tem tido novidades sobretudo ao nível das redes de acesso
local. Actualmente, podem-se fornecer serviços xDSL recorrendo:
1. Directamente à rede de cobre do Operador Histórico15;
15
Opção regulada pela Oferta de Acesso ao Lacete Local (ORALL).
9
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
2. Indirectamente16; ou
3. Implantando novo cobre até à casa dos Clientes.
A opção do acesso directo permite diferenciação nas ofertas, sinergias entre os vários
negócios ou produtos de um Operador e o custo é mais apelativo. A opção de recorrer
indirectamente ao cobre do Operador Histórico não é interessante pelas limitações impostas
pela própria oferta do Operador Histórico, bem como pelo seu custo elevado. Na opção de
implantar novo cobre coloca-se a questão de porquê não implantar antes uma rede de fibra
óptica, que permite larguras de banda maiores; tem também um custo elevado, uma vez
que envolve construção civil, por exemplo.
Portanto, a opção mais simples é aceder directamente à rede de cobre. Ao nível desta rede,
a liberalização consiste no fornecimento de serviços grossistas e retalhistas a Operadores
Entrantes, através do arrendamento dos pares de cobre que chegam à casa dos seus
Clientes finais.
Figura 2 - Detalhe de uma rede de acesso local
16
Opção regulada pela Oferta de Acesso Indirecto: Rede ADSL PT.
10
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Nesta opção, para aceder à rede de cobre é necessário aceder à Central17 da Área Local18
(Figura 2); a partir daí, a possibilidade de serviço depende da distância do Cliente à
respectiva Central na respectiva Área Local. Em Portugal, a informação detalhada das
Áreas Locais não é partilhada pelo Operador Histórico com os outros Operadores; a
informação que é disponibilizada, para caracterização da rede de cobre, é muito vaga sendo impossível saber a priori qual o serviço que é possível fornecer num dado par de
cobre.
Em termos práticos, o Operador Entrante tem de colocar os seus equipamentos na Central
do Operador Histórico, pedir a desagregação dos pares de cobre que servem os seus
Clientes, ou seja, arrendar aqueles pares de cobre, para os poder utilizar como meio de
transporte dos serviços que os seus Clientes contrataram - na casa dos quais são
instalados equipamentos específicos que entregam esses serviços.
Regra geral, a liberalização é particularmente lenta, com os Operadores Históricos a
colocarem entraves mais ou menos explícitos, principalmente a nível:
ƒ
Da interoperabilidade (trabalhar em conjunto sem problemas);
ƒ
Dos preços de revenda (venda dos serviços grossistas com as mesmas condições
contratuais que pratica com os seus serviços de retalho; mudar de rede pode ser
caro; etc.)19; e,
ƒ
Da disponibilização de informação (relativamente ao desenho real da rede que liga
os Clientes finais e respectivas características técnicas; por exemplo: o calibre dos
cabos de cobre). Este caso é muito relevante no panorama nacional.
Por estes motivos e olhando para as especificidades do caso português:
•
Os Operadores, na condição de Entrantes, não conhecem a localização dos cabos
da rede de cobre do Operador Histórico nem as suas características técnicas
específicas
17
18
19
(apenas
são
conhecidas
características-tipo
e
frequências
de
Edifício onde terminam as ligações físicas dos pares de cobre, vindos directamente da casa dos Clientes.
Área delimitada onde se localizam todos os Clientes e possíveis Clientes caracterizados por pertencerem ao mesmo bloco
de numeração telefónica (conjunto discreto de possíveis números de telefone, definido de forma geográfica) que
normalmente está associado a uma Central específica.
Por exemplo, devido aos preços de revenda praticados pela Portugal Telecom, demasiado elevados, o Clix suspendeu a
venda dos seus serviços ADSL em Janeiro de 2004 (http://www.sonaecom.pt/channelDetail.aspx?channelId=EA0B77899D90-4116-863C-7D8E9200C48D).
11
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
distribuição sem qualquer correlação geográfica), que podem facilitar ou não a
propagação do sinal através desses cabos;
•
Assumindo a condição de Operador Entrante, acresce a utilidade e necessidade do
recurso às técnicas de análise espacial e geoestatística estocástica para aferir
classes de serviço elegíveis para diferentes tipos de serviços de banda larga; e,
•
É uma necessidade, para aumentar a taxa de penetração, qualificar o melhor
possível as características da rede de cobre para as várias possibilidades de
serviços de telecomunicações de banda larga (qualquer que seja a tecnologia
utilizada) e conhecer a probabilidade de erro que lhes está associada.
Banda larga por definição é todo o suporte de transmissão digital superior a 1Mbps20. Nesta
dissertação, para a análise proposta considerar-se-ão serviços que requeiram larguras de
banda até 24Mbps21 (ADSL2+), onde se incluem serviços não só de voz e dados, mas
também de vídeo.
1. Sobre a rede de cobre
A necessidade de larguras de banda cada vez maiores e o crescimento da Internet, por
exemplo, têm influenciado desenvolvimentos fundamentais na natureza das redes de
telecomunicações.
Tradicionalmente, o acesso fixo à rede de telecomunicações é suportado por redes de
pares de cobre, tendo em conta que outros tipos de rede podem ser financeiramente mais
exigentes (por exemplo, redes de fibra óptica, que exigem na sua implementação custos
mais elevados devido a implicarem não só trabalhos de construção civil, mas também
licenciamentos e equipamentos especiais). A tecnologia tem evoluído também no sentido de
desenvolver equipamentos capazes de potenciar a utilização da rede de cobre para
serviços de banda (cada vez mais) larga, incluindo cada vez mais serviços de
telecomunicações.
20
21
Cf. Abreviaturas.
Cf. Abreviaturas.
12
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Do ponto de vista do Cliente de serviços de telecomunicações, aceder à rede de
telecomunicações através de pares de cobre, fibra óptica ou outro meio, deve continuar a
ser indiferente. O que não é indiferente para o Cliente é a possibilidade de aceder aos
serviços de banda larga através de uma única ligação (Figura 3); esse é um factor muito
apelativo para o Cliente e nenhum Operador quer inviabilizar a hipótese de ser a primeira
escolha de um potencial Cliente.
1 ligação = n serviços
Ponto de acesso
DSL
• Jogos
• Video on demand
• Sistemas de
vigilância
• Som digital
Ligação com cabo
Ligação
sem fios
Telefone
IP
• Streaming de vídeo
• Impressões e
partilha de ficheiros
• Ensino à
distância
• Chamadas
de vídeo
• Downloads
de mp3
Re
ce
ita
• Acesso
Internet
Impressora
Acesso
Internet
DSL
Jogos sem
fios
• Várias linhas
de voz
• Impressão sem
fios
• Telefone IP sem
fios
A casa digital baseia-se num
acesso DSL que distribui um
conjunto avançado de
conteúdos e serviços de rede
numa casa
Fonte: Adaptado de DSL Forum.
Figura 3 - Serviços de banda larga através da rede de cobre
Em termos conceptuais, numa rede de cobre, o terminal do Cliente está ligado a pelo
menos um par de cobre, que chega até ao Cliente a partir de um ponto de distribuição
(Central) onde o Operador está presente – Figura 4.
13
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Cliente1
Cliente2
Cliente…
Central
Rede de
transporte
Clienten
Rede de acesso local
Figura 4 - Exemplo conceptual da rede de cobre
Em termos simples, aparte uma série de outras variáveis e implementações que podem
variar de rede para rede, o equipamento localizado no Cliente comunica com os
equipamentos localizados na Central. Por sua vez, os equipamentos na Central convertem
os sinais eléctricos recebidos do Cliente, separando as baixas frequências, normalmente
utilizadas pelos serviços de banda larga, e envia-os para a rede de transporte – onde, se se
tratar de uma chamada de voz, ela é encaminhada para o respectivo destino através da
rede de voz; e, se se tratar de um pedido de acesso a uma página Internet, por exemplo, o
pedido é encaminhado pela rede de dados para os servidores que lhe dão acesso e de
novo para o Cliente através do mesmo par de cobre.
O Cliente é ligado à rede de telecomunicações pelo interface par de cobre (o meio de
transmissão) e a comunicação faz-se através de sinais eléctricos; depois, na rede, pode
passar por outros suportes ou meios de transmissão, sejam outros pares de cobre, microondas, fibra óptica ou sistemas de acesso rádio, etc., até chegar ao seu destino.
Actualmente, as tecnologias xDSL utilizam técnicas digitais de processamento de sinais
eléctricos com frequências que são capazes de potenciar a largura de banda do par de
14
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
cobre para serviços integrados de voz, dados e vídeo (serviços de banda larga) –
dependendo apenas do comprimento do par de cobre e da frequência do sinal eléctrico.
As razões mais relevantes para implementar tecnologias do tipo xDSL passam:
•
Pelo facto de não exigirem grandes investimentos em novas infra-estruturas de
telecomunicações, uma vez que aproveitam e reutilizam completamente a infraestrutura instalada de transmissão de voz (a tradicional rede de cobre);
•
Por se tratar de um sistema que se adapta às variações de procura de serviços de
telecomunicações por parte dos respectivos Clientes que, actualmente, exigem
larguras de banda cada vez maiores - o que é permitido pelos avanços tecnológicos
mais recentes que, através da modulação do sinal eléctrico nos pares de cobre,
suportam a entrega de serviços mais diversificados e novas aplicações (vídeoconferência, vídeo on demand - VoD, etc.) a esses Cliente finais;
•
Por, tecnicamente, ser simples de implementar; e,
•
Por ser uma rede tecnologicamente flexível e sobre a qual a tecnologia tem
permitido dar uma resposta à exigência de levar débitos superiores a distâncias
cada vez maiores.
Como qualquer outra tecnologia, tem também desvantagens; em particular, devido ao facto
de se forçar a rede a suportar serviços de largura de banda elevada e da falta de
informação cadastral sobre as redes implementadas, das quais se destacam:
•
As limitações físicas do alcance dos sinais eléctricos (têm um alcance limitado e
estão sujeitos a interferências que podem não ser de fácil e correcto diagnóstico e
classificação); e,
•
A restrição da largura de banda em função da distância (com impacto nos serviços a
disponibilizar), que varia consoante a tecnologia – Figura 5.
15
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Velocidade/Largura de banda
Tecnologia
Downstream
Upstream
Suporta dados e
voz?
Pares de cobre
necessários
ADSL
HDSL
RADSL
SDSL
SHDSL
VDSL
1,5 a 6,1Mbps
1,5Mbps
1 a 7Mbps
2,3Mbps
2,3Mbps
Até 52Mbps
64 a 640Kbps
1,5Mbps
128Kbps to 1Mbps
2,3Mbps
2,3Mbps
Acima de 1,5Mbps
Sim
Não
Sim
Não
Não
Sim
1
2a3
1
1
1a2
1
Alcance de
transmissão,
com 1 par de cobre
Æ
3 km
2 km
ADSL
1 km
SDSL/SHDSL
RADSL
VDSL
Fonte: Adaptado de NEXTEP Broadband, 2001, p.8.
Figura 5 - Tecnologias xDSL, capacidades e distâncias alcançadas
Relativamente aos problemas que podem ocorrer na rede de cobre, de entre alguns dos
principais factores de perturbação a considerar, que têm influência na largura de banda
passível de ser entregue num dado Cliente, podem listar-se os seguintes como mais
frequentes:
•
Perdas de transmissão por atenuação (qualquer meio de transmissão tem perda em
vez de ganho; refere-se à interacção frequência/distância);
•
Ruído (de interferência - por indução de uma porção de sinal de um par adjacente;
térmica; de humidade; etc.);
•
Distorção (devido à transmissão de ondas de diversos comprimentos no mesmo
suporte físico, por exemplo);
•
A presença de bridged taps (mostrados na Figura 6; caso prático: quando um
operador liga um Cliente A, que entretanto deixa de ser Cliente; surgindo um novo
pedido de ligação, do Cliente B, relativamente próximo do ex-Cliente A, o Operador
pode optar por derivar o cabo de cobre do ex-Cliente A para ligar o Cliente B. Neste
16
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
exemplo, se a configuração da rede se mantiver assim e o Cliente B contratar um
serviço xDSL a outro Operador que utilize a rede do primeiro, esse serviço irá
percorrer pelos cabos a distância até ao ex-Cliente A e, adicionalmente, a distância
desse ex-Cliente A até ao Cliente B – isto é, uma distância superior à que teria de
percorrer se fosse directamente para o Cliente B, o que tem impacto na qualidade do
serviço);
•
Filtros colocados nas linhas de cobre que impedem a bi-direccionalidade;
•
O calibre das linhas de cobre (impedância); entre outros problemas.
Perdas de transmissão por atenuação
comprimentos diferentes
Cliente A
Cliente B
Bridged taps
Æ
Cliente n
Impedância
Cabo de calibre X
Cabo de calibre Y
Emendas nos cabos de cobre para estender o alcance, por exemplo
Fonte: Adaptado de COURTNEY (2000).
Figura 6 - Exemplos de configurações nos pares de cobre
Os departamentos de Engenharia dos Operadores têm formas de contornar estes
problemas-tipo, por exemplo:
•
Com mecanismos de gestão dinâmica do espectro, tentando melhorar a estabilidade
do sistema e imunidade às alterações do meio físico;
•
Aproveitando as capacidades do meio físico, adaptando a capacidade de cada canal
e a taxa de transmissão de dados; e,
17
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
•
Optimizando a gestão da potência e redução do ruído em pares de cobre vizinhos.
O Regulador tem também um papel importante a desempenhar, no sentido de estabelecer
regras para o meio de transmissão rede de cobre que, podendo ser partilhado e utilizado
por mais do que um Operador (por exemplo, com a definição de máscaras espectrais,
incluídas no documento da Oferta de Regulação do Acesso ao Lacete Local - ORALL),
impõe que sejam estabelecidas limitações ao seu uso para evitar problemas. Estes, estão
genericamente identificados mas as combinações aleatórias de possíveis problemas podem
ser difíceis de prever e, inevitavelmente, causar prejuízo na imagem do Operador junto do
Cliente final (por exemplo, atrasos na implementação das mais recentes tecnologias como o
VDSL2 que implica alterações na topologia da rede que podem ter impacto na qualidade de
serviços de outras tecnologias como o ADSL2+).
Em termos de engenharia de telecomunicações, a qualidade da experiência dos serviços de
banda larga é um esforço que está sobretudo entre a parte final da rede (ao nível da rede
de acesso) e o Cliente. As redes xDSL não têm um comportamento constante e dependem
em grande parte do ruído criado pelo meio ambiente envolvente bem como pelo
comprimento dos pares de cobre e seus dados intrínsecos, em conjugação com a topologia
da própria rede.
A elegibilidade dos Clientes depende deterministicamente de todas estas fontes de erro e a
forma como a engenharia contorna os problemas técnicos, sendo resultado de um equilíbrio
entre técnicas de codificação e descodificação de sinal associadas às características da
rede e a mecanismos de qualidade de serviço (qualidade da linha, monitorização e
adaptação).
Como exemplo prático, da vida profissional, considere-se um serviço 3Play22 a fornecer com
a tecnologia ADSL2+, portanto um serviço de voz, dados e vídeo em que a parte de vídeo é
a mais sensível aos problemas de rede que podem surgir.
Os sintomas mais frequentes de problemas na rede, derivados do envio do sinal, no
transporte e/ou na comutação são:
•
22
Degradação do sinal digital com impacto na imagem (Figura 7):
Cf. Abreviaturas.
18
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
o Blockiness, que acontece quando imagens em movimento rápido são
codificadas, é um efeito também conhecido por ‘arrasto’ (mais visível em
programas de desporto);
o Efeito Gibbs, que é notório através de sombras que aparecem à volta dos
objectos, tais como texto e figuras geométricas ou mesmo à volta de
contornos de pessoas;
o Aliasing, que ocorre normalmente na codificação quando o sinal original
contém frequências que são demasiado altas para serem digitalizadas
correctamente dada a limitação imposta pelo bit rate desejado; pode ser
reduzido aplicando um filtro passa-baixo antes da codificação;
o Filtro passa-baixo, que aplicado em demasia faz com que a imagem
apresente contornos menos nítidos (esta é uma técnica que pode ser
utilizada pelos Operadores para reduzir os ritmos de codificação por remoção
das componentes de alta frequência);
•
Degradação do sinal digital com impacto no áudio e teletexto;
•
Problemas com a performance do Vídeo on Demand (VoD) e funcionalidades
comuns de play, stop, forward, backward, etc.; e,
•
Tempos elevados de mudança de canal.
19
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Imagem original
Degradação do sinal digital
Blockiness
Aliasing
Filtro passa-baixas
Imagem original
Efeito Gibbs
Figura 7 - Exemplos de degradação do sinal digital com impacto na imagem
Como sugere a Figura 8, que resume as ligações entre algumas das causas e sintomas dos
problemas passíveis de serem detectados num serviço 3Play relativo à televisão, a variação
das causas e sintomas dos problemas pode ter flutuações ao longo do tempo e variar
dependendo da configuração da rede de acesso local em que se encontra um dado Cliente.
20
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Causas
Erros de transmissão nas linhas ADSL2+
Sintomas
Degradação do sinal digital
Codificação com pouca qualidade
Streaming com problemas
Qualidade da imagem codificada
Problemas na rede de transporte
Atrasos na rede
Performance do VoD
(play, stop, forward, backward, etc.)
Recepção defeituosa da fonte de sinal
Sensibilidade do receptor
Tempos elevados de mudança de canal
Figura 8 - Identificação de causas e sintomas de possíveis problemas
Finalmente, voltando à analogia do exemplo já dado da rede viária, em termos de
telecomunicações, e no que diz respeito à organização da rede de cobre, esta divide-se
genericamente nas chamadas Áreas Locais, que são servidas por uma Central23 Principal (e
eventualmente uma ou mais Centrais Remotas), e estão integradas em Grupos de Rede
(Figura 9).
Os Grupos de Rede são áreas delimitadas que agrupam todos os blocos de numeração que
começam por um dado indicativo de rede, por exemplo: o Grupo de Redes de Lisboa
abrange todos os blocos de numeração24 que começam por 21, etc.. Por sua vez, cada
Grupo de Redes subdivide-se noutras áreas mais pequenas, cada uma identificada por um
certo intervalo de blocos de numeração; a divisão de maior granularidade corresponde as
Áreas Locais e é dentro de cada Área Local que o Operador fornece os serviços de
telecomunicações aos seus Clientes.
23
24
O ponto de distribuição do serviço do lado da rede do Operador ate ao Cliente que esta na mesma Área Local.
Teoricamente, uma dada Central só serve o conjunto de Clientes situados dentro da sua respectiva Área Local.
Números de telefone atribuídos aos Clientes daquela(s) área(s).
21
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Grupos de Rede
Conjunto de Áreas Locais
Área Local
Fonte: Portugal Telecom.
Figura 9 - Exemplo da hierarquia de uma rede nacional de telecomunicações (caso português)
Esta configuração pode levantar outra questão adicional ao ponto de vista do Operador
Entrante: que áreas escolher para fornecer um serviço de telecomunicações de banda larga
sobre a rede de cobre? A capacidade de investimento e retorno desse investimento difere
de Área Local para Área Local, dependendo do tipo de Clientes ou potenciais Clientes nelas
estabelecidos.
2. Etapas de um projecto de lançamento de uma oferta de banda larga
Para compreender melhor a questão da elegibilidade e da necessidade de a aferir o mais
correctamente possível, é útil pensar-se nas várias fases do que pode ser um projecto de
lançamento de serviços de banda larga.
Para um projecto de implantação de uma rede de telecomunicações que envolva análise
espacial, a experiência mostra que existem 4 fases distintas mas interligadas entre si, que
ciclicamente devem ser revistas e acompanhadas, ou em função de se pretender
22
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
implementar uma nova tecnologia ou para acompanhar o desenvolvimento de uma dada
tecnologia já em fase de implementação ou implementada (Figura 10).
2.
Potencial de
mercado
(análise de
custo/benefício)
1.
Características
técnicas da
solução
3.
Preparação
do
lançamento
da oferta
Ajuste de
parâmetros
engenharia,
planeamento
e estratégia
Implementação e
acção comercial
4. Acompanhamento
pós-implementação
Figura 10 - Etapas-tipo de um projecto de prestação de serviços de telecomunicações
Para o problema em análise nesta dissertação, os parâmetros de um projecto de
lançamento de uma oferta de banda larga utilizando ADSL2+ são os seguintes:
Projecto: lançar uma oferta de banda larga, com a possibilidade de fornecer um pacote
integrado de serviços de voz, acesso Internet e televisão.
23
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Requisitos:
Tabela 2 - Requisitos para lançamento de uma oferta comercial Triple Play
Requisito
Descrição
Satisfação do Cliente
Instalação simples. Equipamentos fiáveis, com design
apelativo e fáceis de utilizar.
Custo competitivo
Custo de instalação e manutenção competitivo.
Reutilização da rede
Instalação não intrusiva, utilizando a rede existente em cada
existente (minimização de
casa (telefone ou eléctrica, por exemplo) ou alternativas sem
custos)
fios.
Grandes larguras de banda
Preparação para o futuro com procuras entre 50 a 100Mbps
ou mais.
Bom desempenho
Latência reduzida e perda de pacotes reduzida a um mínimo
para serviços de multimédia em tempo real.
Qualidade de serviço
Manter qualidade de serviço para canais múltiplos e
coexistência de vários tipos de serviços (IPTV, VoIP, etc.).
Incluir gestão remota do serviço.
Interoperabilidade
Compatibilidade com os padrões estabelecidos e os
equipamentos em casa do Cliente.
1. Características técnicas da solução:
•
Tecnologia: ADSL2+;
•
Meio de transmissão: rede de cobre;
•
Larguras de banda: até 24Mbps downstream e até 1,4Mbps upstream;
•
Constrangimentos:
24
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
o
Sensibilidade à distância (funciona de forma razoável para Clientes
situados até 3Km de rede de cobre da Central respectiva);
o
Não estar acessível em qualquer Área Local (restrição imposta pelo
Operador Histórico);
•
Métricas teóricas de elegibilidade/desempenho (em laboratório) para o conjunto
dos 3 serviços (voz, acesso Internet e televisão):
Tabela 3 - Métricas teóricas de elegibilidade Triple Play
Atenuação
Distância
Elegibilidade
< 11dBm
± até 270m
11dBm < < 25dBm
± entre 270 e 1150m
Elegível para até 2 STB
25dBm < < 40dBm
± entre 1150 e 2100m
Elegível para 1 STB
> 40dBm
Acima de 2100m
Elegível para até 3 STB25
Não elegível para o serviço
de televisão
25
Cf. Abreviaturas.
25
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Voz
Televisão
Acesso
Internet
1 STB
1 STB
1 STB
Porta de
acesso DSL
Figura 11 - Equipamentos no Cliente, consoante o produto/serviço contratado
•
Métricas de avaliação de desempenho após a implementação:
o
Testes de atenuação downstream, em dBm, desde a Central até ao
equipamento de Cliente, para linhas sincronizadas com protocolo
ADSL2+, e recolha da distância SELT26. Os dados recolhidos devem
obedecer aos seguintes critérios de exclusão:
o
ƒ
2,5dBm < atenuação < 90dBm; ou,
ƒ
250m < SELT < 2800m.
Queixas dos Clientes.
2. Avaliação do potencial de mercado (análise custo/beneficio):
26
Cf. Abreviaturas.
26
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
•
Georreferenciar Clientes, existentes e potenciais;
•
Estimar o comprimento dos pares de cobre a partir do cálculo da distância pelos
eixos viários de cada número de polícia até à respectiva Central de uma dada
Área Local;
•
Construir um modelo de elegibilidade, por tipo de serviço, com estimativa do erro
associado a cada classe de elegibilidade;
•
Segmentar os Clientes existentes e potenciais por tipo de mercado, serviços,
etc.;
•
Estabelecer estratégias de penetração, fazendo corresponder produtos e
serviços com o perfil de Cliente;
•
Prever o volume de vendas;
•
Prever acções dos Operadores concorrentes e dos Clientes;
•
Prever problemas operacionais (áreas de indisponibilidade de serviço, etc.).
3. Preparação do lançamento da oferta:
•
Preparar a campanha de Marketing de acordo com as características dos
produtos ou serviços (por exemplo, comunicar larguras de banda ‘até 24Mbps’
em vez de ‘24Mbps’; deixar em aberto uma margem para possíveis erros,
protegendo a imagem junto do Cliente ou possível Cliente);
•
Preparação da força de vendas e áreas de suporte (aprovisionamento, centro de
apoio ao Cliente, etc.);
•
Preparar material para operações de Marketing Directo com o objectivo de
aumentar a rentabilidade das campanhas e reforçar o lado personalizado da
acção de Marketing, para fidelizar o Cliente; distribuir promoções, etc.;
•
Planear a alocação de recursos para angariar, promover e receber os Clientes.
27
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
4. Pós-implementação
•
Analisar a aceitabilidade, fidelidade e satisfação dos Clientes relativamente aos
produtos ou serviços;
•
Estudar e ajustar a parametrização das áreas de influência dos produtos ou
serviços fornecidos;
•
Avaliar resultados técnicos;
•
Refinar a rede de distribuição: decidir sobre novas localizações, identificar áreas
não cobertas/exploradas, razões, etc.; e,
•
Propor áreas para recolha de dados adicionais.
3. Análise e determinação da elegibilidade
Na fase de análise custo/benefício do projecto, um dos passos importantes é aferir a
elegibilidade dos Clientes e possíveis Clientes para os vários tipos de produtos ou serviços.
Não existindo medições de atenuação para as áreas em avaliação, a única solução é
recorrer-se aos parâmetros de elegibilidade teórica de serviço para produzir mapas de
cobertura teórica, com base em eixos de via (Figura 12, Cobertura teórica 2) ou ainda, numa
versão mais simplista mas por vezes a única possível, com zonas concêntricas de
distâncias lineares em torno da Central27 (Figura 12, Cobertura teórica 1). Ambos os
métodos consideram, em função da tecnologia, intervalos de distâncias pré-definidos em
laboratório a cada Central numa dada Área Local.
Estes tipos de classificação da elegibilidade permitem efectuar cálculos para aferir o
potencial de cada Área Local, ainda que grosseiros.
Na fase de implementação da tecnologia, começam a recolher-se informações sobre os
pares de cobre dos vários Clientes angariados que sugerem outro tipo de aproximações de
27
Adequada a casos de redes locais para as quais não exista cartografia e como modelo de estudo teórico, por exemplo.
28
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
análise espacial, mais complexas, que não só permitem aumentar a precisão da
elegibilidade como determinar qual o grau de confiança atribuído às classes de elegibilidade
interpoladas, sendo possível calcular coberturas teórico-reais de elegibilidade, isto é, com
base em valores reais medidos no campo interpolar valores para áreas não conhecidas
(Figura 12, Cobertura teórico-real).
Cobertura teórica 1
Cobertura teórico-real
Cobertura teórica 2
Figura 12 - Coberturas teóricas e teórico-real para tecnologias xDSL
A técnica utilizada para produzir a cobertura teórico-real apresentada na Figura 12 foi um
estimador
estocástico,
denominado
kriging.
Sendo
um
método
de
interpolação
geoestatístico, tenta quantificar não só a estrutura espacial da atenuação mas também
avaliar a incerteza ligada à caracterização espacial da atenuação, ambos fundamentais
para a definição da elegibilidade e qualificação de uma dada rede de cobre.
Se na fase de análise custo/benefício já existirem medições de atenuação de Clientes de
teste pode-se, por exemplo, com esses dados começar a explorar estimadores estocásticos
e interpolar classes de atenuação à Central, criando mapas de valores interpolados em
função dos valores amostrados, que podem contribuir para uma melhor caracterização do
terreno da respectiva Área Local.
29
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Com os resultados deste tipo de análise espera-se poder contribuir para orientar com um
grande grau de precisão as operações de um Operador face aos seus Clientes e potenciais
Clientes, chegando até eles consoante o perfil do Cliente, segundo a sua localização
geográfica, e com a menor margem de erro possível.
A determinação das áreas de influência e da melhor cobertura são essenciais para o
sucesso de um Operador de telecomunicações, com impacto ao nível das vendas e,
consequentemente, no alargamento da sua rede de operação e sucesso no mercado
liberalizado, onde o objectivo é conquistar quota de mercado.
4. Dados disponíveis e ferramentas utilizadas
Para a investigação sobre o tema proposto, conta-se com a seguinte informação:
ƒ
Medições de atenuação média máxima mensal, georreferenciadas e distribuídas
aleatoriamente numa dada área de rede de acesso local nacional;
ƒ
Cartografia de base à escala 1/2000 (rede viária, edifícios e números de polícia); e,
ƒ
Informação geográfica do INE, dos Censos 2001 (com informação sobre a data de
construção dos edifícios).
A área de estudo é real mas por questões de confidencialidade será sempre designada de
Área Local, bem como a Central, que será apenas designada de Central.
O software utilizado, para os cálculos de análise espacial que se apresentam a seguir, é o
ArcGIS 9.2 (com a extensão Geostatistical Analyst), por uma questão de disponibilidade e
por ser um software comercial, partindo-se do pressuposto de que num qualquer Operador
de telecomunicações este será uma das possibilidades disponíveis para o tipo de
abordagens que se propõe.
Existem, no entanto, outras opções de software comercial e não-comercial para realizar a
mesma análise aqui apresentada. Os algoritmos podem apresentar algumas variações de
ajuste de software para software, assim como a forma de apresentação dos dados pode
apresentar algumas diferenças. A título de exemplo, não exaustivo, a escolha do software
para este tipo de análises poderia de igual modo passar pelos seguintes, entre outros:
30
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
•
GEOEAS, não-comercial,
http://www.epa.gov/ada/csmos/models/geoeas.html;
•
SURFER, comercial,
http://www.ssg-surfer.com/ssg/detailed_description.php?products_id=135#features;
•
KGRASS, não-comercial,
http://www.institutoecos.org.br/br/software/geolinux/kgrass.htm
•
R, não-comercial
http://www.r-project.org/
•
TerraLib, não-comercial,
http://www.terralib.org/index.php
31
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
III. Metodologia
Esta parte da dissertação compreende os conceitos teóricos que justificam a escolha da
análise geoestatística estocástica para tentar definir a elegibilidade e qualificação da rede
de cobre para serviços de telecomunicações de banda larga, conforme os parâmetros
definidos no capítulo anterior.
Abordam-se as características mais marcantes do problema em análise e da sua resolução,
incluindo a descrição dos passos dados e conceitos teóricos inerentes.
Os métodos geoestatísticos são suficientemente gerais para poderem ser aplicados em
vários domínios onde se pretenda tratar numericamente variáveis que medem fenómenos
espaciais, como é o caso das telecomunicações.
Este tipo de variáveis dependem fortemente da localização espacial e neste cenário
coexistem aspectos:
•
Aleatórios, que reflectem a variação imprevisível entre os valores observados em
localizações diferentes; e,
•
Estruturais, que traduzem correlações existentes entre diversas observações na
área onde o fenómeno espacial ocorre.28
Apesar dos aspectos aleatórios – que podem determinar eventuais comportamentos
anisotrópicos segundo a direcção em que o fenómeno se observa -, pode dizer-se que
existe, regra geral, uma certa continuidade espacial que é global ao fenómeno em análise.
Poderão identificar-se direcções preferenciais de continuidade espacial ao longo de redes
de
cobre
de
diferentes
idades,
por
exemplo,
onde
é
plausível
registarem-se
comportamentos igualmente diferentes.
Estas características, que se adequam à variável dos valores de atenuação aqui analisada
justificam a escolha metodológica dos métodos estocásticos da geoestatística para a tratar.
Como se pretende extrair conclusões quantitativas acerca da atenuação, torna-se
necessário encontrar um modelo capaz de descrever da forma mais rigorosa possível o seu
28
SOUSA; MUGE (1990).
32
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
comportamento. Estes modelos, como apresentado no capítulo anterior, podem assumir
várias formas, consoante a fase de projecto em que se estiver.
Os esquemas apresentados de elegibilidade teórica são simplistas e constituem uma
aproximação
grosseira
da
realidade.
Mesmo
utilizando
métodos
geoestatísticos
determinísticos, baseados em malhas de polígonos, como o caso do polígonos de Voronoi29
conforme Figura 13, continua-se no grau de aproximação grosseira à realidade, pelo que não
é a solução ideal para descrever o fenómeno da atenuação e ser utilizado como medida de
elegibilidade.
Figura 13 - Mapa de Voronoi sobre o conjunto de dados originais de observações de atenuação
A complexidade da atenuação é de tal ordem que se apresenta com um comportamento de
aspecto errático, não podendo ser modelado por uma função matemática simples (como
ilustra a Figura 13). Neste caso, o modelo que se sugere consiste em admitir um
comportamento semelhante ao das variáveis aleatórias30.
29
30
Método explicado em detalhe no próximo capítulo desta dissertação.
Grandeza que pode tomar uma série de valores numéricos, a cada um dos quais está associado uma certa probabilidade
de ocorrência. SOUSA; MUGE (1990).
33
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Este tipo de variáveis, que apresentam aspectos aleatórios e estruturados, estão descritas
no modelo das funções aleatórias introduzido pelo Professor Georges Matheron (19302000), que é o mentor do kriging, sendo considerado o fundador da Geoestatística.
Entre 1954 e 1963, enquanto trabalhava com o Instituto de Pesquisa de Geologia francês,
na Argélia (e também em França), descobriu o trabalho pioneiro de uma escola Sul Africana
sobre depósitos de ouro, dos engenheiros de minas Krige, Sichel e Wijs, e construiu os
conceitos da teoria a que ele chamou Geoestatística.
Matheron denominou esta análise de kriging em honra a um dos engenheiros de minas sulafricanos, responsável pelo trabalho em que se inspirou: Krige.
Em termos genéricos, a técnica de kriging assume que os dados recolhidos de um
determinado universo se encontram auto-correlacionados no espaço:
•
Se num dado ponto observado a atenuação é x, é muito provável que se encontrem
resultados muito próximos de x quanto mais próximo se estiver desse ponto
observado (princípio da geoestatística); e,
•
A partir de determinada distância do ponto onde se observou x, não se encontrarão
valores aproximados de x porque a auto-correlação espacial pode ter deixado de
existir.
O kriging é uma técnica BLUE (Best Linear Unbiased Estimator - BAILY; GATRELL, 1995):
•
Linear (linear) porque as suas estimativas são combinações lineares ponderadas
das observações conhecidas;
•
Unbiased (não enviesada) porque procura que a média dos erros (os desvios entre
os valores reais e os valores interpolados) seja nula; e,
•
Best (melhor) porque os erros de interpolação apresentam uma variância mínima.
1. Princípios da análise geoestatística
A geoestatística na sua concepção original, referia-se às estatísticas das ciências da Terra,
como em geografia ou geologia. Hoje em dia, conceptualmente, a geoestatística é utilizada
34
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
de forma mais abrangente, em mais campos do saber, e compreende um conjunto de
estatísticas que se caracterizam pelas suas propriedades espaciais. Originalmente, nestas
estatísticas espaciais, a geoestatística era sinónimo de kriging. Actualmente, inclui não só
as técnicas kriging mas também muitas outras técnicas de interpolação, onde se incluem as
técnicas determinísticas (JOHNSTON; HOEF; KRIVORUCHKO; LUCAS - 2003).
No campo da análise espacial de superfícies, as técnicas da análise geoestatística
subdividem-se em dois grupos:
•
As determinísticas, que se baseiam em parâmetros que controlam quer a extensão
da semelhança dos valores quer o grau de suavização na interpolação, isto é,
baseiam-se directamente nos valores observados mais próximos (vizinhos) e em
fórmulas matemáticas específicas para determinar a suavidade da interpolação
resultante. Baseiam-se, no entanto, apenas em fórmulas matemáticas e não
modelam os processos aleatórios espaciais; e, por outro lado,
•
As técnicas estocásticas, que combinam métodos determinísticos e estatísticos,
incluindo a noção de auto-correlação (relações estatísticas entre os valores
observados), modelando os processos aleatórios espaciais de uma dada variável.
Permitem não só para criar mapas de valores interpolados mas também avaliar a
incerteza dessas interpolações.
Seja qual for o tipo de técnicas geoestatísticas que se considere, em termos gerais, parte-se
sempre do princípio de que eventos mais próximos, geograficamente, tendem a ser mais
semelhantes do que os que estão mais afastados.31
Na decisão de utilizar técnicas geoestatísticas estocásticas, um dos maiores desafios para o
analista de informação espacial é gerar a interpolação mais precisa possível, a partir dos
valores observados no campo e a partir daí poder caracterizar o erro e variabilidade da
interpolação calculada.
31
Este é um princípio geográfico fundamental, postulado pelo Professor Waldo Tobler (1930-...), influente geógrafo e
cartógrafo contemporâneo. A sua ideia de que tudo está relacionado com tudo o resto, mas que as coisas mais próximas
estão mais relacionadas entre si é comummente aceite como a primeira lei da Geografia.
35
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
A geoestatística estocástica assume que, pelo menos, alguma da variabilidade espacial de
um dado fenómeno, pode ser modelada por processos aleatórios que têm como
característica a auto-correlação espacial.
A correlação é a tendência de duas variáveis se relacionarem. A auto-correlação verifica-se
quando uma variável tem correlação em si própria. Isto significa que nas observações de
atenuação, duas observações tendem a ser mais semelhantes se estiverem espacialmente
próximas do que se estiverem espacialmente afastadas. O grau em que essa autocorrelação diminui pode ser expresso em função da distância, logo a auto-correlação é uma
função da distância, que é um princípio intrínseco à geoestatística.
As técnicas de geoestatística estocástica podem ser utilizadas para:
•
Descrever e modelar padrões espaciais – através da variografia;
•
Estimar valores em localizações não amostradas – através das técnicas kriging; e,
•
Avaliar a incerteza associada a um valor estimado numa localização não amostrada
– também através das técnicas kriging.
As várias técnicas disponíveis de kriging podem ser utilizadas para produzir vários tipos de
interpolações:
•
Mapas de valores interpolados;
•
Mapas de erro padrão (relativamente aos valores interpolados);
•
Mapas de probabilidade (que indicam se um valor de corte pré-definido foi excedido
ou não); e,
•
Mapas de quantis (para um nível pré-determinado de probabilidade).
Na geoestatística estocástica assume-se que todos os valores na área em análise são
resultado de processos aleatórios com dependência, embora as regras dessa dependência
sejam desconhecidas. Isto faz com que a geoestatística estocástica tenha dois grandes
objectivos:
36
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
1. Revelar as regras de dependência de uma dada área de estudo; e,
2. Calcular estimativas de valores para localizações não observadas.
As técnicas kriging baseiam-se nestes dois objectivos:
1. Primeiro, quantificar a estrutura espacial dos dados (técnica denominada de
variografia), para ajustar um modelo de dependência espacial aos dados em análise
através de funções de semi-variância ou co-variância (auto-correlação espacial),
estabelecendo as regras de dependência da área em análise; e,
2. Estimar os valores desconhecidos, pelo ajuste de um modelo teórico que melhor
descreva as funções de semi-variância ou co-variância encontradas para a variável
analisada. Para produzir uma estimativa para um valor desconhecido numa
localização específica, o kriging utiliza o modelo ajustado encontrado na fase da
variografia, a configuração espacial dos dados amostrados e os valores das
observações mais próximas.
Na realidade, apenas com um conjunto de dados não há qualquer esperança de se poder
vir a conhecer as regras de dependência dos valores observados nesse conjunto. Tem que
se partir do pressuposto de que essas regras de dependência existem, embora através da
observação e análise exploratória de dados, as dependências começam a evidenciar-se.
A estatística geral assenta sobre a noção de replicação dos fenómenos, isto é: as
interpolações podem ser derivadas e a sua variação e incerteza pode ser compreendida a
partir de observações repetidas.
No cenário espacial, o pressuposto da estacionaridade é utilizado para obter a replicação
necessária para a quantificação estatística.
A estacionaridade é um pressuposto aplicável a dados espaciais. Podem-se considerar três
tipos de estacionaridade:
1. Estacionaridade da média; assume-se que a média é constante entre observações,
sendo independente da sua localização espacial;
37
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
2. Estacionaridade de 2ª ordem; que se aplica à co-variância (da média e da variância).
É o pressuposto de que a co-variância é a mesma entre quaisquer duas
observações, à mesma distância e direcção, independentemente do par de
observações escolhido. A co-variância depende da distância entre quaisquer dois
valores observados e não das suas localizações; e,
3. Estacionaridade ou hipótese intrínseca; que se aplica à semi-variância. É o
pressuposto de que a variância da diferença entre pares de valores observados é a
mesma entre quaisquer duas observações, à mesma distância e direcção,
independentemente do par de observações escolhido.
A estacionaridade de 2ª ordem e a hipótese intrínseca constituem os pressupostos mínimos
para obter a igualmente necessária à replicação, de forma a estimar as regras de
dependência espacial, que por sua vez vão permitir interpolar valores não amostrados e
avaliar a incerteza dessas interpolações.
Note-se que é a informação espacial contida em cada observação, que à partida tem a
particularidade de ser georreferenciada (ter, portanto, um par de coordenadas x, y), que
permite a avaliação da replicação do fenómeno - permitindo realizar cálculos sobre pares de
observações a distâncias semelhantes.
As variáveis passíveis de serem analisadas pela geoestatística estocástica, apesar de se
tratarem de variáveis únicas, possuem características espaciais, pares de coordenadas
espaciais para cada observação, a partir das quais se pode aferir a auto-correlação
espacial.
A informação contida nas localizações das observações permite calcular as distâncias entre
eventos e modelar a auto-correlação em função dessas distâncias. O mesmo se aplica à
atenuação; alem disso, sabe-se que aumenta com a distância.
2. Técnicas de interpolação geoestatística estocástica
Como o nome indica, estas técnicas criam mapas de interpolação que incorporam as
propriedades estatísticas dos dados amostrados. Porque se tratam de técnicas de
38
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
geoestatística estocástica, produzem não só mapas de valores estimados (interpolados a
partir de valores reais) e de erro, mas também mapas de probabilidades e quantis
dependendo do método escolhido, em função dos objectivos da análise e modelação.
Existem vários métodos associados à geoestatística estocástica, da família das técnicas
kriging:
•
Para casos em que se analise apenas uma variável aleatória pode-se considerar o
kriging ordinário (ou normal), simples, universal, probabilístico, indicador e disjuntivo;
•
Para casos em que se utilize simultaneamente mais do que uma variável, pode-se
utilizar as técnicas de cokriging, com as mesmas variantes de método do kriging.
Uma das características essenciais da geoestatística é que o fenómeno em análise assume
um dado valor (não necessariamente medido) seja qual for a localização dentro da área de
estudo. Da mesma forma, o kriging assume que existe sempre um valor observado ou
estimado para qualquer localização na área de estudo. Os eventos são registados como
pontos mas os valores, na realidade, podem ocorrer em qualquer parte da área de estudo;
portanto, são espacialmente contínuos.
As técnicas de kriging dependem de uma combinação de modelos matemáticos e
estatísticos. Os modelos estatísticos associam um grau de probabilidade às estimativas
calculadas, sendo que os valores a interpolar não são nunca perfeitamente estimáveis. Por
exemplo, mesmo com uma grande amostra de valores de atenuação não será possível
prever o valor exacto de atenuação numa dada localização não observada. Daí que, além
da interpolação, se avalie o seu erro.
Os dados geoestatísticos estocásticos expressam-se pela seguinte fórmula:
•
Z(x) = µ(x) - ε(x)
Z(x) é a variável em análise, decomposta num tendência determinística global µ(x),
e numa tendência aleatória local, erros auto-correlacionados que formam ε(x).32
32
O símbolo x apenas indica a localização. Cada valor amostrado contém um par de coordenadas espaciais.
39
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Independentemente do grau de complexidade da tendência determinística global no
modelo, o termo µ(x) nunca será perfeitamente estimado. Em relação ao termo ε(x), têm de
se assumir alguns pressupostos tais como: esperar-se que seja 0 (zero), em média, e que a
auto-correlação entre cada par de valores amostrados ε(x) e ε(x + h) não seja dependente
da localização x mas sim da distância entre a localização x e a localização h. Trata-se da
hipótese de estacionaridade intrínseca (relativa à semi-variância) ou a hipótese de
estacionaridade de 2ª ordem, em que todos os erros aleatórios tem média 0 (zero) e a covariância entre quaisquer dois erros aleatórios depende somente da distância e direcção
que os separa, não das suas localizações.
Com estas hipóteses, assume-se a mesma auto-correlação para os erros aleatórios entre
pares de observações no mesmo intervalo de distância, assegurando-se a replicação
necessária para estimar a função de auto-correlação da variável aleatória Z(x).
Variações na fórmula apresentada formam a base para os diferentes tipos de kriging
(JOHNSTON; HOEF; KRIVORUCHKO; LUCAS - 2003).
O termo relativo à tendência determinística global pode ser uma constante; isto é, µ(x) = µ
para todas as localizações x, e se µ for desconhecida, então é nesse modelo que se baseia
o kriging ordinário ou normal. Este modelo é composto também de uma função linear das
coordenadas espaciais dos valores amostrados, por exemplo:
•
µ(x) = β0 + β1x + β2y + β3x2 + β4y2 + β5xy
Esta fórmula traduz uma superfície de tendência global polinomial de 2ª ordem, a
partir da regressão linear das coordenadas espaciais x e y.
Tendências determinísticas globais que variam, e para as quais os coeficientes de
regressão são desconhecidos, formam o modelo para o kriging universal.
40
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Ainda relativamente ao termo de tendência global, µ(x), sempre que esta seja
completamente conhecida33, constante ou não, então tem-se o modelo para o kriging
simples.
Assim como se podem alterar as condições dos termos relativos quer à tendência
determinística global, µ(x), quer à tendência aleatória local, ε(x), também se pode alterar o
termo Z(x), a variável em análise.
Por exemplo, pode-se alterar a variável Z(x) para uma variável do tipo ‘indicador’, isto é,
obter 1 (um) sempre que Z(x) estiver abaixo de um dado valor34 ou 0 (zero) sempre que
Z(x) estiver acima desse valor. Considerando a definição de um valor de corte deste tipo,
pode-se estimar a probabilidade de Z(x) estar acima ou abaixo do limiar definido; as
estimativas calculadas segundo este modelo estão na base da técnica de kriging indicador.
Também se pode dar o caso de se pretender utilizar transformações gerais da variável Z(x),
denominando-as de ƒi(Z(xi)), para a
i
ésima
variável; isto é, pode-se pretender interpolar
funções de variáveis. Por exemplo, se se pretender estimar a localização x0, então tem-se o
modelo para a técnica de kriging disjuntivo de g(Z(x0)), utilizando os dados da ƒi(Z(xi))35.
Finalmente, considere-se o caso em que se tem mais do que uma variável e se obtêm os
modelos Zj(x) = µj(x) - εj(x) para a
ésima
j
variável, podendo-se considerar diferentes tipos de
tendência global e local para cada variável e adicionalmente a existência de correlação
cruzada entre as tendências aleatórias εj(x) e εk(x), para o caso em que se considerem duas
variáveis. Por exemplo, em termos de hipótese, poder-se-ía considerar a correlação
cruzada entre duas variáveis dos dados disponíveis no âmbito desta dissertação:
1. A atenuação, registada a uma dada distância de uma Central, pelos pares de cobre,
até à casa de um Cliente; e,
33
34
35
Todos os parâmetros e co-variâncias conhecidas.
Por exemplo, 40 dBm de atenuação.
No Geostatistical Analyst, a função g pode ser tanto uma transformação para uma variável do tipo ‘indicador’ como não ter
qualquer transformação. JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003).
41
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
2. A distância real mínima, pelos eixos de via, a que ficam todos os edifícios (possíveis
Clientes) que se incluem na Área Local da mesma Central considerada para os
valores de atenuação.
Esta hipótese poder-se-ía colocar dado que uma rede de cobre segue, naturalmente, o
percurso dos eixos de via e não distâncias euclidianas (em linha recta). Para este modelo
não é exigido que as variáveis sejam observadas nas mesmas localizações. Os modelos de
kriging com mais do que uma variável constituem a base das técnicas de cokriging.
Por exemplo, criando uma variável indicadora de Z(x) e utilizando-a em conjunto com os
dados Z(x) originais não transformados num modelo de cokriging, obtém-se kriging
probabilístico.
Tendo mais do que uma variável para analisar e que faça sentido analisar em conjunto com
outra(s) podem-se considerar utilizar técnicas de cokriging ordinário, universal, simples,
indicador, probabilístico e/ou disjuntivo como extensões multivariadas36 dos diferentes tipos
de kriging descritos anteriormente.
Ambos kriging e cokriging são técnicas de interpolação cujo objectivo principal é produzir
um mapa de valores interpolados, espacialmente contínuo. Ambas as técnicas permitem
criar, pelo menos, três tipos de mapas de valores interpolados, dois dos quais relativamente
aos erros padrão da interpolação respectiva.
O kriging enquanto interpolador não requer que os dados estejam normalmente distribuídos.
No entanto, a normalidade é necessária para obter mapas de quantis e probabilidade para
os métodos kriging ordinário, simples e universal.
Entre as técnicas de interpolação que consideram médias ponderadas, o kriging é o melhor
estimador não enviesado, estejam ou não os dados normalmente distribuídos. No entanto,
se os dados estiverem normalmente distribuídos, o kriging passa a ser o melhor estimador
de todos os estimadores não enviesados que se possam considerar, e não só entre aqueles
que consideram médias ponderadas (JOHNSTON; HOEF; KRIVORUCHKO; LUCAS 2003).
36
Para mais do que uma variável.
42
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
3. Sumário do problema a resolver com recurso à geoestatística
O Operador de telecomunicações pretende calcular relações custo/benefício de penetrar em
determinada Área Local para fornecer serviços de banda larga, bem como controlar o
serviço que disponibiliza. Para isso, mede a atenuação máxima do sinal eléctrico, enviado a
partir de uma Central numa dada Área Local, em n pontos nela distribuídos aleatoriamente
(dependendo esta das localizações geográficas dos Clientes que aderiram ao serviço).
As localizações das observações e os valores de atenuação observados são conhecidos.
Por questões práticas, relacionadas por exemplo com questões de custo e o facto de não se
estar na posição de proprietário da rede37, não é possível ter medições de atenuação para
todas as casas (pares de cobre) de uma dada Área Local.
O que se pretende é estimar diferentes níveis de atenuação em qualquer localização da
Área Local em análise.
Recorrer-se-á para tal, a técnicas do campo da geoestatística estocástica para calcular a
melhor interpolação possível de valores de atenuação para as localizações cujo valor é
desconhecido, examinando as relações entre todas as observações tendo como resultado,
pelo menos, um mapa contínuo de valores de atenuação e um outro relativo ao grau de
incerteza ou probabilidade dos valores estimados.
O enfoque é não só na interpolação de classes de distribuição da atenuação
(correspondentes
a
diferentes
classes
de
produtos
ou
serviços)
mas
também,
especialmente, em determinar se os valores esperados numa dada área estão acima ou
abaixo do expectável e por isso possam impedir o fornecimento do serviço ou fazer com
que o Operador incorra no risco de incumprimento perante o Cliente final, ao fazer uma
oferta que não pode entregar.
A experiência profissional e a análise de dados de laboratório, diz que acima de 40dBm não
é possível fornecer um serviço de banda larga Triple Play fiável; o mesmo para atenuações
37
O problema é analisado do ponto de vista do Operador Entrante.
43
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
abaixo de 9dBm. Se entre estes intervalos de valores se encontrarem observações que
estejam fora destes limiares máximo e mínimo então dever-se-á recolher mais amostras ou
ter em conta esses valores na distribuição, de modo a não enviesar os resultados e por
consequência a imagem do Operador junto do Cliente final. Fora deste intervalo de valores
de atenuação é possível fornecer um serviço de telecomunicações mas sem incluir a
componente televisão, com a tecnologia ADSL2+. No limite, o Operador poderá sempre
fornecer, pelo menos, um serviço de voz.
Com estes objectivos e a informação disponível, elaborou-se o seguinte esquema de
trabalho:
Dados
disponíveis
Preparação
dos dados
Analise exploratória de dados
Kriging e Validação
cruzada
Validação
simples
Dados
originais 1
515 registos
k = 9,95
Dados de
análise
exploratória
[2,5 – 90 dBm]
[250 – 2800m]
364 registos
k = 9,45
Dados de
análise
estrutural 1
Histograma
Sem candidatos a outliers
324 registos
k = 9,28
Mapas de
Voronoi
Cluster
Entropia
Gráfico de
quantis
normais
Dados de
análise
estrutural 2
(treino)
Dados de
análise
estrutural 2
(teste)
Sem candidatos a outliers
90% de 324 registos = 291
k = 9,13
Sem candidatos a outliers
10% de 324 registos = 33
Análise de
tendência
global
Semivariância
Dados
originais 2
(treino)
Dados
originais 2
(teste)
Todos os dados
90% de 515 registos = 463
k = 9,80
Todos os dados
10% de 515 registos = 52
Nota: k corresponde ao número de classes para representação dos dados, segundo a Regra de Sturges.
Figura 14 - Fluxograma
O primeiro passo do fluxograma apresentado (Figura 14) é retirar da amostra os valores
inválidos para a elegibilidade de serviços Triple Play com base em tecnologias ADSL2+,
segundo as seguintes regras de engenharia:
•
As observações com valor de distância SELT menor que 250m e maior que 2800m;
44
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
•
As observações com valor de distância, pelos eixos de via (quando o SELT é
omisso), também menor que 250m e maior que 2800m; e,
•
As observações com valor de atenuação menor que 2,5dBm e maior que 90dBm.
Com estes valores de corte para o conjunto de observações original, de um total inicial de
515 observações resta um subconjunto de dados para análise exploratória de 364
observações de campo (Figura 15).
Figura 15 - Dados originais e dados de análise (sem valores de corte)
Definido conjunto de dados para análise exploratória, as fases seguintes no processo de
modelação espacial que propõe são:
•
A análise exploratória de dados, de forma a investigar as propriedades estatísticas e
espaciais do conjunto de valores observados seleccionado, segundo os parâmetros
acima descritos, para esta análise;
•
A análise estrutural, que será realizada sobre um novo subconjunto de dados sem
candidatos a outliers; corresponde à fase de ajuste de modelos teóricos que melhor
45
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
se adaptem aos valores observados, com a ajuda do conhecimento adquirido na
fase da análise exploratória de dados, para finalmente criar um mapa contínuo de
valores de atenuação interpolados e reais;
•
A avaliação dos resultados obtidos, utilizando as técnicas tanto da validação cruzada
(utilizando todos os dados) como da validação simples (através da divisão da
amostra em subconjunto de teste e subconjunto de validação). Nesta fase, ir-se-á
perceber qual o desempenho dos modelos teóricos face aos valores experimentais
(reais); e,
•
A comparação entre os modelos encontrados com melhor ajuste, para os dados sem
candidatos a outliers, e a aplicação dos mesmos melhores modelos à totalidade dos
dados de atenuação (o conjunto original de dados) - para verificar quão robusto é o
conjunto de dados inicial ou se, pelo contrário, é relativamente permeável a dados
‘anormais’.
4. Representação dos dados
Antes de se pensar na cor ou símbolo para representar valores, deve-se pensar no número
de classes e no tipo dos intervalos de classes. Maiores volumes de dados tipicamente
necessitam de mais classes.
Nesta dissertação, para definir o número de classes necessário para representar os dados
de atenuação, segue-se a Regra de Sturges (BAILY; GATRELL - 1995) que é definida por:
•
k = 1 + 3,3 * log n
k é o número de classes e n o número total de observações.
Para o tipo de intervalos de classes segue-se o método natural breaks (quebras naturais) do
geógrafo George F. Jenks (1916 - 1996), que se dedicou ao estudo de métodos de
representação de dados geográficos (JENKS, 1963).
46
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
A classificação segundo o método das ‘quebras naturais’, determina o melhor arranjo dos
valores em classes, através da comparação da soma do quadrado das diferenças dos
valores de uma dada classe em relação à média da respectiva classe.
A melhor classificação minimiza numa dada classe a soma do quadrado das diferenças dos
valores dessa classe, encontrando-se desta forma o melhor ponto de quebra ou separação
entre classes entre conjuntos de dados relativamente semelhantes.
Esta técnica, começa por ordenar os valores por ordem crescente, calculando em seguida a
soma do quadrado das diferenças para vários conjuntos de possíveis quebras de intervalos
de classes, guardando os intervalos com os melhores valores obtidos, resultando no melhor
conjunto de classes possível tendo em conta todo o conjunto de dados.38
5. Procura de candidatos a outliers39 globais e locais
Um outlier global é uma observação que tem um valor demasiado elevado ou reduzido
relativamente a todos os restantes valores de um conjunto de dados, face ao intervalo onde
situam a maior parte dos restantes valores.
Um outlier local é uma observação que tem um valor que se inclui no intervalo onde situam
a maior parte dos restantes valores do conjunto de dados mas que, quando comparado com
os valores vizinhos, apresenta-se anormalmente elevado ou reduzido.
Não estando na posse dos dados de todo o universo de valores de atenuação da Área
Local em análise, nada pode garantir que os valores eventualmente classificáveis como
outliers são de facto outliers, embora seja possível identificar candidatos a outliers através
da análise exploratória de dados, segundo os parâmetros que definem o que é um outlier
global e/local.
Como exemplo, ordenando os valores de atenuação do conjunto de dados de análise
exploratória, segundo a distância a que foram registados, veja-se o resultado obtido na
seguinte Figura, onde é possível identificar alguns candidatos:
38
39
http://www.biomedware.com/software/Atlas_WebHelp/interface/map/classify/About_natural_breaks.htm
Valores isolados ou anormais.
47
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
80
70
Candidatos a outliers
globais
Atenuação (dBm)
60
50
Candidatos a outliers
locais
40
30
Candidatos a outliers
locais
20
10
400
350
300
250
200
150
100
50
0
0
Dados de análise, ordenados por distância crescente à Central
Figura 16 - Candidatos a outliers globais e locais
É importante identificar candidatos a outliers por duas razões:
1. Podem tratar-se de valores anormais do fenómeno em análise; ou,
2. Podem ter sido medidos incorrectamente (erros de medição).
Dependendo do fenómeno em análise, se o candidato a outlier se tratar de um valor
anormal, pode tratar-se do valor mais significativo da análise, para compreender o
fenómeno. No caso da atenuação os valores anormais podem por exemplo ajudar a
averiguar quais são as áreas que podem dar problemas e com isso prevenir a priori custos
de marketing em áreas onde que não existe um grau de confiança aceitável sobre a
disponibilização deste tipo de produtos ou serviços sobre a rede de cobre.
Se, por outro lado, os candidatos a outliers são causados por erros no registo dos dados,
então deverão ser corrigidos ou retirados antes de se criar um mapa de interpolação. Este
tipo de candidatos a outliers pode enviesar a interpolação, devido à influência que terão
sobre outros valores espacialmente próximos (vizinhos).
48
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
6. Criação de subconjuntos de dados: treino e teste
Alem da identificação de candidatos a candidatos a outliers, há que pensar na validação dos
resultados.
A forma mais rigorosa de se avaliar a qualidade de uma interpolação é comparar os valores
estimados em localizações cujo valor não foi observado no campo, com os valores reais,
medidos no campo, para as mesmas localizações.
Não sendo possível regressar à área de estudo para recolher um novo conjunto de dados
independente, para efeitos de validação, uma solução possível é dividir o conjunto de dados
original em dois subconjuntos. Um para modelar a estrutura espacial e produzir um mapa de
valores interpolados (subconjunto de dados de treino) e outro para comparar e validar a
qualidade da interpolação (subconjunto de dados de teste).
O subconjunto de dados de treino contém os valores observados sobre os quais se irá
realizar a interpolação. O subconjunto de dados de teste é depois utilizado para validar as
estimativas obtidas na fase de interpolação, por comparação com valores reais para as
mesmas localizações.
Levanta-se agora uma questão importante relativamente à forma de dividir o conjunto de
dados para criar os dois subconjuntos referidos. O software utilizado permite fazer esta
divisão, criando de forma aleatória os dois subconjuntos, desde que o analista indique qual
a percentagem de valores a atribuir para treino e teste, respectivamente.
Na pesquisa realizada não foi encontrado um método único e inequívoco para a divisão do
conjunto de dados. A preocupação principal deve ser garantir que existem observações
suficientes, especialmente no subconjunto de dados de treino, para a representação mais
precisa possível da realidade na interpolação dos valores em localizações não medidas.
Se o subconjunto de dados de treino for demasiado reduzido, valores candidatos a outliers
podem deformar os parâmetros do modelo geoestatístico estocástico a aplicar e, por
consequência, os resultados finais.
49
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
As percentagens relativas às quais o conjunto de dados deve ser subdividido deverão ter
como base o número de amostras disponíveis. É necessário um número de observações
suficiente para criar uma interpolação e fazer a sua validação de forma significativa. Pode
dar-se o caso de quando o conjunto de dados inicial é pequeno, ser inapropriado dividir o
conjunto de dados.
Nesta dissertação ir-se-ão utilizar os seguintes conjuntos de dados e abordagens:
Análise exploratória:
•
Prosseguir com um subconjunto dos dados originais para a análise exploratória de
dados, onde se prevê encontrar candidatos a outliers (após aplicados os valores de
corte sugeridos pela engenharia, relativos a valores de atenuação e distâncias à
Central, o que resulta num conjunto de 364 observações);
•
Identificar os candidatos a outliers que se justificarem como tal no decorrer da
análise e retirá-los do conjunto de dados da análise exploratória, criando o conjunto
de dados para a análise estrutural; e,
Análise estrutural e interpolação:
•
Prosseguir para a análise estrutural e interpolação com dois conjuntos de dados:
1. Um único conjunto de dados para a análise estrutural, sem os valores
identificados como candidatos a outliers, cujas interpolações deverão ser
validadas através de técnicas de validação cruzada; e,
2. Uma divisão do conjunto de dados para a análise estrutural, em dados de treino
e teste, para se poder aplicar o método de validação simples, pelo que os dados
serão subdivididos com base nas seguintes proporções:
o 90% para o subconjunto de treino; e,
o 10% para o subconjunto de teste.
50
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
IV. Análise e Resultados
Nesta parte da dissertação pretende-se criar uma superfície estatisticamente válida e
quantificar a qualidade dos modelos utilizados medindo o erro estatístico das interpolações.
O processo de visualização, análise e compreensão do fenómeno espacial compreende
quatro passos-chave, sendo o último opcional, consoante os resultados obtidos:
1. Análise exploratória de dados, para avaliar as propriedades estatísticas dos dados
tais como a variabilidade e a dependência espacial além das tendências globais e
locais;
2. Análise estrutural, para calcular e modelar os parâmetros necessários para a
interpolação. Esta parte divide-se em duas partes:
a. Variografia ou modelação do semi-variograma: para analisar os parâmetros a
utilizar na interpolação; e,
b. Interpolação kriging: escolha de, pelo menos, uma técnica de kriging, com
base nas características dos dados e nos objectivos traçados para interpolar
mapas contínuos de valores de atenuação e definir classes de elegibilidade
espacial.
3. Validação dos resultados e diagnóstico, através da divisão da amostra sem
candidatos a outliers, em subconjunto de treino e de teste, e através da validação
cruzada (utilizando todos os dados); e,
4. Modelação do erro e interpolação de novos mapas para melhorar as interpolações,
nos casos em que se aplique. Por exemplo, interpolação de novos mapas utilizando
técnicas de co-kriging, para melhorar as interpolações de uma variável primária
tendo em conta variáveis secundárias, desde que ambas variável primária e
secundária estejam correlacionadas espacialmente.
1. Análise exploratória de dados
51
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
A análise exploratória de dados é fundamental para ajudar a tomar decisões relativamente
às transformações (se necessárias) e os efeitos de observações anormais em modelos de
semi-variância confirmando-se, posteriormente, na fase de validação a validade das
decisões tomadas.
Antes de se passar à utilização das técnicas de interpolação kriging, é necessário adquirir
conhecimento sobre os dados disponíveis, de forma a fazer a escolha mais acertada dos
parâmetros necessários para melhor ajuste do modelo teórico de interpolação. Por exemplo,
se se optar por utilizar a técnica de kriging ordinário para produzir um mapa de quantis os
dados precisam, necessariamente, de ter uma distribuição normal - este conhecimento é
adquirido na fase da análise exploratória de dados.
Ir-se-á de seguida explorar a distribuição dos dados, procurando candidatos a outliers
globais e/ou locais, tendências globais, analisar a auto-correlação espacial e compreender a
semi-variância. As ferramentas disponíveis são:
•
O histograma, para explorar a distribuição univariada do conjunto de dados;
•
Os mapas de Voronoi, para analisar a estacionaridade e variabilidade espacial dos
valores de atenuação;
•
O gráfico de quantis normais, para verificar a normalidade da distribuição dos dados;
•
A análise de tendência, para identificar a presença de tendências determinísticas
globais; e,
•
A análise das dependências espaciais, para identificar a auto-correlação espacial e
as eventuais influências direccionais, através do semi-variograma experimental.
Histograma
Os métodos de interpolação que são utilizados em geoestatística estocástica para criar um
mapa de interpolação dão melhores resultados se os dados estiverem distribuídos
normalmente – uma curva em forma de sino, simétrica. Se a distribuição dos dados for
52
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
assimétrica, pode ser necessário transformar os dados de forma a tornar a distribuição
normal.
O histograma regista a frequência de um atributo do conjunto de dados observados,
possibilitando analisar imediatamente, por simples inspecção visual, a forma da distribuição
univariada40,
Observações:
364
Skewness:
-0,0011959
Min.:
4,3
Curtose:
2,4
Máx.:
71,9
1º quantil:
23,0
Média:
33,8
Mediana:
33,7
Desvio Padrão:
13,7
3º quantil:
45,0
Figura 17 - Histograma dos dados de análise exploratória
Juntamente com alguns dados estatísticos, que descrevem a localização, dispersão e
forma, é possível avaliar algumas das características importantes na distribuição dos
valores de atenuação.
As medidas de localização (a média41, a mediana42 e os 1º e 3º quantis43) dão uma ideia de
onde o centro e outras partes da distribuição estão:
40
41
42
De uma variável.
A média é uma medida do centro da distribuição.
A mediana corresponde à proporção cumulativa de 0,5. Se os dados estivessem organizados por ordem crescente, 50%
dos valores estariam abaixo da mediana e a restante parte acima da mediana. A mediana é outra medida do centro da
distribuição.
53
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
•
Para o conjunto de dados de análise exploratória, o valor da média e da mediana
são bastante próximos o que indica que a distribuição deste conjunto de dados é
muito próxima de uma distribuição normal (em que média e mediana são iguais),
mas não perfeitamente normal. Sendo a média ligeiramente superior à mediana, a
distribuição dos valores de atenuação está um pouco enviesada para a esquerda do
centro da distribuição;
•
Os valores do 1º e 3º quantis indicam o intervalo onde se encontra a maioria dos
dados (50%) pelo que é possível que fora desse intervalo se encontrem
observações que constituam candidatos a outliers globais e/ou locais e que devem
ser investigados do ponto de vista espacial.
As medidas de dispersão (o desvio padrão44 e a variância45) revelam a distribuição das
amostras em torno da média, sendo outra característica da frequência da distribuição
representada no histograma:
•
O valor de desvio padrão confirma o que o 1º e 3º quantis informam: que a
distribuição dispersa-se em torno da média ± 13,7 valores de atenuação; é nesse
intervalo de valores que se concentra a maioria da amostra;
•
A variância para os mesmos dados é de 187,26. Esta variância constitui a variância
a priori do conjunto de dados, a qual, verificando-se as hipóteses de estacionaridade
de 2ª ordem e/ou intrínseca, deverá ser igual à variabilidade total dos dados
representada no semi-variograma (SOUSA; MUGE - 1990), que será abordado num
capítulo subsequente.
As medidas de forma (skewness46 e curtose47) caracterizam o histograma pela sua forma:
43
O 1º e 3º quantis correspondem a uma proporção cumulativa de 0,25 e 0,75, respectivamente. Se os dados estivessem
organizados por ordem crescente, 25% dos valores estariam abaixo do 1º quantil, e 25% estariam acima do 3º quantil.
44
• O desvio padrão é a raiz quadrada da variância. Descreve a dispersão dos dados em torno da média nas mesmas
unidades que os dados originais. Quanto menor o valor da variância e desvio padrão, maior a concentração de amostras
em torno do valor médio da distribuição.
45
• A variância dos dados é o desvio médio quadrado de todos os valores desde a média. As unidades são o quadrado das
unidades das observações e, porque envolve diferenças quadradas, a variância calculada é normalmente sensível a
valores excepcionalmente muito elevados ou muito reduzidos.
46
• O coeficiente de enviesamento (skewness) é uma medida da simetria de uma distribuição. Para distribuições simétricas, o
coeficiente de skewness é 0 (zero). Se a distribuição tem uma longa cauda para a direita, de valores elevados, esta é
54
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
•
O coeficiente de enviesamento (skewness) confirma a diferença entre a média e a
mediana, a distribuição da amostra de atenuação está negativamente enviesada.
•
A curtose revela que a distribuição é mais achatada e com caudas mais estreitas
que as da curva de uma distribuição normal. Isto significa, por exemplo, uma
probabilidade menor de acontecerem valores extremos face à mesma probabilidade
numa distribuição normal. A existirem candidatos a outliers deverão ser sobretudo
locais.
O software utilizado permite investigar espacialmente os candidatos a outliers através do
histograma. É possível ver a distribuição espacial das observações de cada classe do
histograma - se os valores extremos estiverem rodeados de valores muito diferentes, então
é necessário investigar esses pontos e, se necessário, removê-los.
Os candidatos a outliers mais evidentes, tendo em conta a localização espacial dos valores
de cada classe do histograma (classes e observações indicadas a azul cien na Figura 18)
estão localizados próximos da Central e misturados espacialmente entre observações de
classes de valores menores.
É possível identificar, por inspecção visual, que os valores das classes 7, 9 e 10 mais
próximos da Central são candidatos a outliers - uma vez que segundo os seus valores de
atenuação elevados, seria de esperar serem encontrados nas localizações mais afastadas
da Central e não o inverso. Nas fases subsequentes da análise exploratória, se os mesmos
candidatos forem identificados pelos restantes métodos de análise, serão retirados do
conjunto de dados, antes da fase de análise exploratória e interpolação.
47
positivamente enviesada (skewed). Se tem, pelo contrário, uma longa cauda para esquerda, de valores mais reduzidos,
está negativamente enviesada (skewed).
O valor de curtose baseia-se no tamanho das caudas de uma distribuição e pode indicar a provável existência de
candidatos a outliers na distribuição. O valor de curtose de uma distribuição normal é 3 (três). Distribuições com caudas
mais largas são leptocúrticas e têm valor de curtose maior que 3 (três). Distribuições com caudas relativamente mais finas
são platicúrticas (mais achatadas) e têm valor de curtose menor que 3 (três).
55
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
3ª classe
2ª classe
1ª classe
5ª classe
4ª classe
6ª classe
Candidatos a outliers
7ª classe
8ª classe
9ª classe
10ª classe
Figura 18 - Localização espacial das observações segundo as classes do histograma, para
identificação de candidatos a outliers
Mapas de Voronoi
Os mapas de Voronoi são um dos métodos de interpolação baseados em malhas de
polígonos48. Uma dada área é dividida em polígonos que são determinados pela distribuição
dos pontos relativos às observações nela recolhidas. Os polígonos obedecem a certos
critérios:
•
São formados por linhas que unem localizações contíguas e que formam uma
triangulação;
•
48
Cada polígono adquire o valor observado nele centrado; e,
Outros exemplos: triangulação de Delauney; polígonos de Thiessen.
56
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
•
Cada um está associado a uma função matemática, utilizada para interpolar valores
em localizações onde se desconhece um dado valor, dentro de cada polígono.
É um método robusto, mas que não tem inteligência acerca do fenómeno que está a ser
analisado. Os polígonos podem apresentar alterações abruptas nas suas fronteiras, por
representarem um valor absoluto, como exemplificado na Figura 19:
Ponto de partida
Pontos com atributos
Passo 1
Unir todos os pares de
pontos com segmentos de
recta
Passo 2
Traçar a perpendicular a
cada segmento de recta
Polígono
de
Voronoi
10
10dBm
dBm
14
14dBm
dBm
25
25dBm
dBm
25
25dBm
dBm
Valor interpolado
Valor conhecido
Figura 19 - Cálculo dos polígonos de Voronoi
Os polígonos de Voronoi são criados de modo a que cada localização dentro de um dado
polígono seja mais próxima da localização observada (o valor conhecido) nesse polígono do
que de qualquer outra localização observada.
Criados os polígonos, os vizinhos de cada valor observado são definidos como qualquer
outro valor cujos polígonos partilham a mesma fronteira. Com base nesta definição de
vizinhança, podem ser calculadas uma série de estatísticas locais que permitem atribuir aos
57
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
vários polígonos, diferentes medidas de variabilidade local com base nos valores
observados que estão na sua origem49.
Das possibilidades estatísticas associadas ao mapa de Voronoi interessa aqui avaliar se os
dados apresentam candidatos a outliers pelo que os métodos cluster e entropia foram
escolhidos para ajudar a identificá-los:
•
Com o método cluster, todos os polígonos são agrupados em 5 classes de
intervalos. Se o intervalo de um dado polígono é diferente dos intervalos dos seus
vizinhos, esse polígono é assinalado, diferenciando-se dos restantes. É um bom
método para identificar candidatos a outliers locais. Os candidatos a outliers estão
indicados pelos polígonos de cor azul cien, na seguinte figura:
Histograma
Distribuição
espacial das
observações
Figura 20 - Mapa de Voronoi, segundo o método cluster
•
Para o cálculo da entropia, todos os polígonos são agrupados também em 5 classes
de intervalos. O valor atribuído a um polígono é a entropia que é calculada entre
49
Cf. Tabela 10, p.112.
58
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
esse polígono e os seus vizinhos. A entropia mínima ocorre quando os valores de
um polígono e seus vizinhos estão todos na mesma classe. A entropia máxima
ocorre quando cada polígono e os seus vizinhos estão em classes de intervalos
diferentes. É um bom método para avaliar a variação local dos valores observados.
A entropia é, assim, uma medida da dissemelhança entre polígonos vizinhos.
Partindo-se do princípio de que para observações mais próximas é mais provável
haver semelhanças do que para observações mais afastadas, o cálculo da entropia
pode ajudar também a identificar candidatos a outliers locais, assinalados a azul cien
na seguinte figura:
Histograma
Distribuição
espacial das
observações
Figura 21 - Mapa de Voronoi, segundo o método entropia
Da mesma forma que se fez para o Histograma, foram assinalados os candidatos a outliers
encontrados pelos dois métodos de mapas de Voronoi apresentados. Os polígonos que
registaram um valor de cluster de -1 (menos um) e os polígonos que registaram um valor de
entropia superior ou igual a 2 (dois) foram assinalados como candidatos a outliers. Alguns
dos candidatos identificados pelos mapas de Voronoi coincidem com candidatos
identificados na análise do Histograma. Nas fases subsequentes da análise exploratória, se
59
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
os mesmos candidatos forem identificados pelos restantes métodos de análise, serão
retirados do conjunto de dados, antes da fase de análise exploratória e interpolação.
O software permite escolher uma de entre varias opções para lidar com duas ou mais
observações que existam na mesma localização (por exemplo, amostras recolhidas no
mesmo edifício). Para ambos os mapas de Voronoi foi escolhida a opção de manter o valor
máximo, uma vez que se pretende encontrar candidatos a outliers locais.
Gráfico de quantis normais
Os gráficos de quantis são gráficos nos quais quantis de duas distribuições são comparados
e representados uns em relação aos outros.
Na construção de um gráfico de quantis normais, é realizada uma distribuição acumulada,
ordenando os dados e produzindo um gráfico dos valores observados e ordenados por
comparação a uma distribuição acumulada de uma distribuição normal. Cada valor dos
dados é representado em oposição ao respectivo valor numa distribuição normal onde
ambas as distribuições acumuladas são iguais.
O gráfico de quantis normais permite comparar a distribuição dos dados com uma
distribuição normal, constituindo também uma medida do tipo de distribuição - do grau de
normalidade dos dados. Quanto mais próximos as observações estiverem de criarem uma
linha recta, mais próxima é a distribuição de ser normalmente distribuída.
Para duas distribuições idênticas o gráfico de quantis é uma linha recta. Representando os
quantis do conjunto de dados de atenuação para análise exploratória num gráfico de quantis
normais, comparando-os com os quantis de uma distribuição normal, obtém-se o gráfico da
Figura 22:
60
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Figura 22 - Gráfico de quantis normais dos dados de análise exploratória
A distribuição dos quantis é relativamente próxima da linha recta (especialmente nos
valores de atenuação mais baixos). A maior discrepância aparece nos valores mais
elevados de atenuação (que se evidenciam também no histograma bem como no mapa de
Voronoi, segundo o método cluster).
Se os dados não exibirem uma distribuição normal ou próxima, tanto no histograma como
no gráfico de quantis normais, poderá ser necessário transformar os dados de forma a
torná-los conformes a uma distribuição normal, antes de utilizar as técnicas de interpolação
kriging que exigem distribuições normais50.
50
Cf. Tabela 11, p.113.
61
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Gráfico de tendência global
Como já se referiu, existem dois tipos de componentes direccionais que podem afectar a
interpolação de um mapa de superfície:
1. Uma tendência global (modelada no gráfico de tendência global); e/ou,
2. Uma variação local (modelada no semi-variograma).
A possibilidade de poder identificar e modelar as tendências globais e as estruturas locais
da superfície a interpolar pode aumentar a sua precisão.
Uma tendência global é um processo que se impõe e afecta todas as medições de uma
forma determinística. Pode ser descrita por um processo físico (por exemplo, a atenuação
esperada de um sinal eléctrico à medida que a distância percorrida aumenta) e
representada por uma fórmula matemática51. Pode ser removida da fase de análise dos
valores observados sendo, no entanto, sempre considerada de novo na fase da
interpolação propriamente dita. A principal razão para remover uma tendência em
geoestatística estocástica é satisfazer os pressupostos de estacionaridade.
Além disso, a forma do modelo teórico de ajuste ao semi-variograma pode também variar
com a direcção (nos casos em que existe anisotropia) depois de a tendência global ter sido
removida – e é necessário modelar essa variação, no caso de existir.
Normalmente, a causa da anisotropia (influências direccionais) no semi-variograma não é
conhecida, por isso é modelada como erro aleatório. No entanto, o desconhecimento da
causa não impede que as influências direccionais sejam quantificadas e tidas em conta.
A anisotropia é normalmente um processo não determinístico, não sendo descrito apenas
por fórmulas matemáticas. Não tem uma única fonte de influência que previsivelmente
afecte todos os valores observados. A anisotropia é a característica de um processo
aleatório que mostra maior auto-correlação numa direcção do que noutra e é observada no
semi-variograma (explicado adiante).
51
Por exemplo, um polinómio.
62
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Se a auto-correlação espacial depender apenas da distância entre duas localizações, nesse
caso é isotrópica. Os dados da atenuação são teoricamente isotrópicos, em termos
conceptuais.
Decompondo os dados em tendência global e variação local, assume-se que a primeira é
fixa e que a segunda é aleatória, onde a variação é determinada por regras de
probabilidade que incluem dependência nos valores vizinhos, isto é, auto-correlação. A
interpolação final é a soma das superfícies fixa (tendência global) e aleatória (tendências de
variabilidade local).
Se se puder identificar e quantificar a tendência global, ganhar-se-á um conhecimento mais
profundo dos dados e por consequência tomar-se-ão melhores decisões sobre a sua
análise. Removendo a tendência global, poder-se-á modelar com maior precisão a
variabilidade local, garantindo que a tendência global não influencie a análise espacial local.
Parte-se do princípio de que se existir uma tendência nos dados, será a componente não
aleatória (determinística), que pode ser representada por uma função matemática.
Por exemplo, uma encosta com pouco declive pode ser representada por um plano. Um
vale poderia ser representado por uma função mais complexa (uma polinomial de 2ª
ordem), que crie uma forma em U. No entanto, pode acontecer que a função seja ainda
assim demasiado geral para reproduzir com precisão a superfície - não existem encostas
que sejam um plano perfeito ou vales que tenham uma forma em U perfeita. Se a superfície
de tendência não representar adequadamente os dados, pode-se optar por ignorá-la e
continuar a análise, modelando a variabilidade local - que é o que permanece quando a
tendência global é removida.
A análise de tendências globais permite identificar a presença ou ausência de tendências
nos dados disponíveis. Para identificar uma tendência global, deve ser evidente uma curva
que não seja recta nos planos projectados do gráfico de tendências, que é o caso do
conjunto de dados da análise exploratória, na Figura 23:
63
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Figura 23 - Gráfico de tendência global dos dados de análise exploratória
Cada semi-recta vertical (a preto) representa a localização e valor (altura, em z) de cada
ponto amostrado de atenuação (ponto verde mais claro). Estes pontos estão projectados
em cada um dos dois planos perpendiculares, numa direcção Este-Oeste (pontos verde
escuro) e direcção Norte-Sul (pontos azuis).
A curva de melhor ajuste (polinomial de 2ª ordem, em forma de U) é desenhada entre
pontos projectados nos planos perpendiculares, cujo modelo tende para direcções
específicas.
Ambas as projecções nas direcções Este-Oeste e Norte-Sul das curvas de tendência
movem-se para cima à medida que os valores de atenuação aumentam, sendo que a parte
que descreve os valores mais baixos de atenuação situa-se próximo da localização da
Central, evoluindo tendencialmente para valores mais elevados à medida que se afasta da
Central, em qualquer direcção - embora a tendência seja mais forte para Oeste e para Sul
da Central.
64
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Semi-variância
O que se impõe a seguir é avaliar as diferenças entre os valores observados, que pode ser
medida estatisticamente pela semi-variância entre pares de observações.
Conhecendo a distância e direcção entre cada par de observações e assumindo que a
diferença entre os valores de cada par de observações depende somente dessa distância e
orientação, em termos estatísticos, a distribuição das diferenças entre os valores dependerá
igualmente e apenas, da distância e orientação de cada par de observações.
Se isto se verificar para toda as observações, então verificar-se-á também para a sua média
e variância. Ou seja, tendo a diferença média dos valores observados e a variância dessas
diferenças, podem-se estimar valores para localizações cujo valor se desconhece - as
diferenças médias esperadas entre pares de observações nas várias direcções (CLARK,
2001).
Isto significa que se a distância entre duas observações for igual a 0 (zero), então não se
espera nenhuma diferença entre essas observações. Nesta lógica, espera-se que os
valores estimados sejam da mesma ordem de grandeza das observações de uma dada
área, sendo que localmente (à escala de cada par de observações avaliado) não se observa
qualquer tendência.
A continuidade espacial pode ser medida pela variância das diferenças dos valores
observados e é designada por semi-variância. A semi-variância é uma medida do grau de
dependência espacial entre os valores observados. A função que traduz a semi-variância,
em função das distâncias entre os valores observados, designa-se por variograma.
Veja-se a função apresentada na Figura 24.
65
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
valor da diferença de um par
de observações que distam h
entre eles
1
γ*(h) =
2 N(h)
Σ
N(h)
[ Z(xi + h) – Z(xi)]2
i -1
número de pares de
dados que distam h
entre eles
Valor de semi-variância
Semi-variância
para o intervalo h
γ
Valores empíricos de
semi-variância
γ*
0
h
Distância entre pares de
observações
h = distância entre observações e a sua orientação relativa
Z(x) = Observações
xi = Posição de uma das observações do par de dados
xi + h = Posição da segunda observação do par de dados
Figura 24 - Fórmula de cálculo da semi-variância e gráfico de semi-variância empírica
Tendo o valor do quadrado das diferenças para cada par de observações com uma dada
distância e orientação entre si (h), obtém-se um valor experimental de semi-variância (γ*)
para todas as distâncias e orientações possíveis nos dados disponíveis. A melhor forma
para apresentar estes valores é através de um gráfico, o semi-variograma (Figura 24). Cada
valor do semi-variograma (a semi-variância) corresponde a metade da diferença quadrada
entre os valores de cada par de observações, em função da distância que os separa.
O semi-variograma empírico expressa a variabilidade espacial entre as amostras, sendo
uma função que só depende de h, da distância entre pares de valores observados. Quando
h cresce, o semi-variograma aproxima-se da variabilidade total dos dados (patamar), e
havendo estacionaridade de 2ª ordem, expressa o grau de dependência entre os valores
observados. Mesmo que a dependência não se verifique para a totalidade dos dados deve,
pelo menos, verificar-se para áreas pequenas.
Se se considerar o caso em que h é igual a 0 (zero), a diferença entre duas observações é
também 0 (zero), pelo que o semi-variograma (γ) e os valores experimentais da semivariância (γ*) terão de passar pela origem do gráfico. Supondo que duas observações se
66
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
distanciam um pouco, é de esperar alguma diferença entre os dois valores, pelo que o semivariograma vai apresentar um pequeno valor positivo. À medida que as amostras se
distanciam entre si as diferenças devem aumentar. Em termos de modelo, quando a
distância se torna muito grande os valores observados tornam-se independentes uns dos
outros - o valor da semi-variância torna-se mais ou menos constante (atingindo um
patamar), uma vez que estará a calcular a diferença entre pares de observações
independentes (sem auto-correlação).
Na auto-correlação espacial é assumido que pontos amostrados mais próximos são mais
semelhantes que os mais distantes, assumindo as hipóteses de estacionaridade52. O semivariograma permite analisar esta auto-correlação, podendo ser utilizado para analisar as
características locais da auto-correlação espacial de um conjunto de dados e procurar
também candidatos a candidatos a outliers.
Analisar a estrutura espacial permite investigar não só a auto-correlação espacial dos dados
observados mas também explorar a existência de influências direccionais (anisotropias).
Se os dados forem espacialmente dependentes, os pares de observações que estão mais
próximos (valores mais à esquerda do eixo h) deveriam ter diferenças menores (valores
mais reduzidos no eixo γ). à medida que os pontos se vão afastando (mais para a direita do
eixo h), em geral a diferença quadrada deveria ser maior (aumentar no eixo γ).
Frequentemente, existe uma certa distância a partir da qual os valores dos quadrados das
diferenças atingem um patamar; os pares de localizações acima desta distância
consideram-se não auto-correlacionados. Esta informação pode ser utilizada para definir a
distância máxima sobre a qual faz sentido analisar a semi-variância.
É importante também avaliar a existência de anisotropias, para que no caso de se
detectarem diferencias direccionais na auto-correlação espacial, as mesmas possam ser
tidas em conta na fase de ajuste de um modelo teórico de semi-variância – o que tem
efeitos práticos nos resultados da interpolação.
52
Quaisquer duas localizações que estão a uma distância e direcção semelhante uma da outra deverão ter diferenças
quadradas semelhantes.
67
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Semi-variograma empírico
Superfície de semi-variância
N
O
E
Comprimento de lag: 448,23
Número de lags: 10
S
Figura 25 - Semi-variograma empírico dos dados de análise exploratória
O semi-variograma empírico da Figura 25 representa a totalidade das semi-variâncias de
cada par de observações possível para todo o conjunto de dados de análise exploratória,
daí a sua configuração.
Cada ponto vermelho do semi-variograma empírico representa um par de observações.
Uma vez que localizações mais próximas (pontos mais a esquerda no eixo γ) deveriam ter
valores de semi-variância menores (valores baixos no eixo γ), à medida que a distância
entre observações aumenta (valores mais elevados no eixo h), os valores de semi-variância
deveriam também aumentar (valores mais elevados no eixo γ). No entanto, quando
determinada distância é atingida, os valores de semi-variância atingem um patamar ou
voltam a diminuir, indicando que a relação entre os pares de localizações além dessa
distância deixam de estar auto-correlacionados.
Na superfície de semi-variância o tamanho das células é chamado de tamanho lag, e o
número de células é chamado de número de lags, e ambos podem ser ajustados. O número
de lags conta-se a partir do centro da superfície de semi-variância para uma das suas
extremidades, horizontal ou verticalmente.
68
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Observando o semi-variograma dos valores de atenuação, algumas das localizações que
estão mais próximas (mais a esquerda no eixo h) apresentam valores de semi-variância
muito elevados (valores maiores no eixo γ), acima do que seria de esperar. Estes pares
devem ser investigados podendo dar-se o caso de os dados não serem precisos (por
exemplo, medições erradas derivadas de pares de cobre em piores condições) e
eventualmente tratarem-se candidatos a outliers.
Semi-variograma empírico
Histograma
Distribuição espacial das
observações
Figura 26 - Localização das amostras que apresentam maior semi-variância
Na Figura 26 os pontos seleccionados (a azul cien) no semi-variograma, são os mesmos
valores seleccionados nas classes do histograma na mesma cor, bem como as localizações
seleccionadas no mapa da distribuição espacial das observações.
Podem ser várias as razões para que pares de observações registem semi-variâncias tão
elevadas a distâncias menores e, como se vê na Figura 26, relativamente próximo da
Central. Uma das possibilidades é existirem maior número de observações em torno da
Central, que os edifícios mais próximos da Central sejam mais antigos e portanto, os
respectivos pares de cobre estejam potencialmente em pior estado, originando medições
erradas.
69
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Independentemente das causas, se no conjunto de dados existir um candidato a outlier
global, com um valor anormalmente elevado em relação ao intervalo médio de valores da
distribuição, todas as semi-variâncias das observações que fazem par com esse candidato
a outlier terão valores elevados, independentemente da distância.
O histograma evidencia essa situação, da diferença de valores entre observações naquela
zona. No conjunto de valores de semi-variância seleccionados no semi-variograma,
encontram-se pontos com valores anormalmente elevados (valores mais à direita no
histograma) para a maioria dos valores registados naquele intervalo de distância, daí os
valores elevados de semi-variância. A localização dos valores evidenciados na última classe
do histograma (valores elevados) está a fazer par com valores mais baixos (evidenciados
nas classes mais à esquerda do histograma). Estes valores correspondem a candidatos a
outliers globais, devendo ser retirados da amostra. No caso dos candidatos a outliers locais,
cujo valor não está fora do intervalo de valores mais comum da distribuição mas que se
evidenciam em relação aos valores vizinhos, é possível utilizar o semi-variograma para os
identificar, no entanto, os métodos utilizados com os mapas de Voronoi são melhores para
identificar mais facilmente eventuais candidatos a outliers locais.
Para identificar um outlier global, é necessário procurar valores anormalmente elevados ou
reduzidos no histograma e dois agrupamentos distintos de pontos no semi-variograma. Para
Candidatos a outliers locais, existirão valores elevados de semi-variância associados a um
único ponto em distâncias curtas no semi-variograma empírico.
A par com as tendências globais dos dados observados, podem também existir influências
direccionais que afectem os dados. Estas influências direccionais podem ser quantificadas
estatisticamente e representadas num mapa de superfície do semi-variograma, como
apresentado na Figura 25, p.68. Os valores empíricos de semi-variância são agrupados em
células/classes (lags) com base na direcção e distância entre pares de localizações. Para
cada célula/classe é calculada a média para o conjunto de valores que inclui, sendo depois
multiplicados por 0,5 de modo a obter-se um único valor de semi-variância para cada
célula/classe, produzindo uma superfície de semi-variância (onde cada célula corresponde a
um conjunto de valores de semi-variância a determinada distância). A extensão da
superfície de semi-variância, bem como a dimensão das células é controlada pelo tamanho
de lag e o número de lags considerados.
70
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
As cores frias (azul e verde) correspondem a valores baixos de semi-variância e as cores
quentes (vermelho e laranja) aos valores mais elevados. Como se pode observar, em geral,
os valores empíricos de semi-variância aumentam à medida que as células se afastam do
centro da superfície de semi-variância (à medida que a distância aumenta). Os valores são
mais dissemelhantes à medida que a distância aumenta e na superfície de semi-variância
este facto é mais óbvio do que no gráfico semi-variograma empírico.
Adicionalmente, os valores de semi-variância para distâncias iguais podem variar segundo
direcções diferentes, ou seja, podem conter influências direccionais (denominadas de
anisotropia), que afectem o grau de precisão do mapa a interpolar se não forem
correctamente modeladas na fase de parametrização das relações de vizinhança.
Há que explorar, portanto, várias direcções para avaliar a existência ou não de anisotropia:
Azimute:
12º
Azimute:
81,4º
Azimute:
170,2º
Azimute:
222,4º
Figura 27 – Exploração de influências direccionais nos dados de análise exploratória
Diferentes azimutes mostram diferentes pares de observações representados no semivariograma (Figura 27). Entre aproximadamente 1700m e 2200m da Central, deixa de haver
auto-correlação espacial, nas diferentes direcções. Quando a variação muda mais
71
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
rapidamente de uma direcção para outra o fenómeno é anisotrópico, que é o caso dos
valores do conjunto de dados de análise exploratória, visível nas diferentes configurações
do semi-variograma empíricos segundo as direcções seleccionadas.
As diferentes cores da superfície de semi-variância da Figura 27 indicam, mesmo sem uma
observação do comportamento da amostra nas várias direcções consideradas, a existência
de anisotropias (diferentes valores de semi-variância a diferentes distâncias e com
diferentes manchas espaciais) quando se considera a totalidade dos dados e todas as
possíveis distâncias.
Conclusões da análise exploratória de dados
Os dados de atenuação da amostra de análise estão próximos de uma distribuição normal.
São unimodais e quase simétricos em torno da média. Analisando a distribuição espacial
das várias classes do histograma foi possível identificar 8 valores candidatos a outliers, dos
quais 5 apareceram identificados também no mapa de Voronoi segundo o método cluster.
Os mapas de Voronoi calculados (segundos os métodos cluster e entropia) foram
escolhidos com o objectivo de evidenciar candidatos a outliers locais. Dos resultados
obtidos foram identificados 32 (trinta e dois) valores candidatos a outliers no mapa realizado
com o método cluster; destes, 5 (cinco) valores são coincidentes com os candidatos
identificados pelo histograma e 1 (um) coincidente com os identificados pelo método
entropia que, no total, permitiu identificar 6 (seis) candidatos a outliers.
O gráfico de quantis normais revelou que os dados têm algumas coincidências com uma
distribuição normal, uma vez que os pontos representados criaram uma linha relativamente
aproximada a uma recta, pelo que não se procederá a qualquer transformação dos dados.
A análise de tendência global mostrou que se verifica que a atenuação aumenta com a
distância, e especialmente em duas direcções, para Este e Sul, com o mesmo tipo de
progressão.
No semi-variograma empírico da totalidade das observações utilizadas para a análise
exploratória de dados é bastante evidente a existência de candidatos a outliers globais,
72
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
devido à semi-variância elevada a distâncias pequenas, indicando pares de observações
com valores muito elevados e valores muito reduzidos.
A análise da superfície de semi-variância evidenciou a presença de maior anisotropia nas
direcções Este-Oeste, e em pares de pontos que estão mais distantes entre si. A distâncias
menores, que serão modeladas com maior precisão na fase de parametrização das
relações de vizinhança, a anisotropia é bastante menor. Identifica-se claramente uma zona
central na superfície de semi-variância que é relativamente isotrópica (em tons de azul e
verde), com valores de semi-variância menores que 235,2. Relembrando que a variância a
priori para este conjunto de dados é de 187,26 e sabendo que, verificando-se as hipóteses
de estacionaridade de 2ª ordem e/ou intrínseca, esta variância corresponde à variabilidade
total dos dados representados no semi-variograma (SOUSA; MUGE - 1990), isto é, à escala
em que faz sentido analisar a auto-correlação, este conjunto de considerações parece
sugerir que na realidade o fenómeno da atenuação é mais isotrópico que anisotrópico.
Havendo dependência espacial verificada pelo semi-variograma podem ser estimados
valores da variável em estudo em locais onde ela não foi observada, por recurso à
interpolação kriging. Como “O conceito de estacionaridade do modelo das funções
aleatórias, apesar de ser teoricamente imprescindível para qualquer acto de inferência
estatística, não é validável ou refutável a priori, uma vez que se conhece uma só realização
da função aleatória – o conjunto de dados espacialmente distribuídos.” (SOARES - 2000,
p.7) assume-se que há dependência espacial no fenómeno de atenuação pelo que faz
sentido prosseguir a análise e avançar para a interpolação recorrendo a técnicas kriging.
Segundo os resultados obtidos na análise exploratória de dados justifica-se a utilização da
técnica de kriging ordinário para modelar a elegibilidade. A tendência global no modelo
teórico a ajustar aos dados nunca será perfeitamente estimada, independentemente do seu
grau de complexidade (JOHNSTON; HOEF; KRIVORUCHKO; LUCAS - 2003), pelo que a
tendência global pode ser uma constante; ser igual para qualquer localização da Área Local.
Como a tendência é desconhecida pode-se utilizar o kriging ordinário, que é um modelo
também composto de uma função linear das coordenadas espaciais dos valores
amostrados, tal como: µ(x) = β0 + β1x + β2y + β3x2 + β4y2 + β5xy, traduzindo uma superfície
de tendência global polinomial de 2ª ordem, a partir da regressão linear das coordenadas
73
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
espaciais x e y, que é precisamente a que se verificou no momento de análise desta
tendência.
Relativamente aos candidatos a outliers identificados com a análise exploratória de dados,
encontraram-se 40 valores candidatos na amostra de análise exploratória, como
apresentado na Figura 28. Representando o conjunto de dados de análise por classes de
atenuação verifica-se que fazem sentido os candidatos a outliers assinalados.
Figura 28 - Candidatos a outliers identificados na análise exploratória de dados
Tendo-se identificado os candidatos a outliers apresentados, criou-se um novo conjunto de
valores observados, sem esses candidatos a outliers globais e locais, a que se passará a
chamar de dados de análise estrutural, com 324 observações. Para a análise estrutural irse-á utilizar a totalidade do novo conjunto de dados e também o mesmo conjunto de dados
dividido em dados de treino e dados de teste, com base em valores de corte de 90-10%,
respectivamente 291 e 33 valores observados (Figura 29).
74
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Figura 29 - Distribuição espacial dos dados de treino e teste para a análise estrutural
2. Análise estrutural
O conhecimento que a amostra de análise transmitiu é ainda limitado para uma completa
caracterização e quantificação dos fenómenos espaciais subjacentes ao comportamento de
uma rede de cobre; mas, é suficiente para o passo seguinte: obter estimativas de valores
em localizações não observadas em função dos valores observados.
À natural estrutura das observações, sobrepõem-se aspectos de variabilidade resultantes
do conjunto de factores desconhecidos que nele interferem - derivados do próprio meio de
transmissão do sinal eléctrico, por exemplo. Portanto, há sempre um grau de incerteza
associado ao conhecimento que as observações de atenuação fornecem mas que pode ser
quantificado, a partir do conjunto discreto e limitado de dados disponíveis.
Para estimar um valor numa nova localização, é necessário ir mais além do pressuposto de
que a relação entre o valor a estimar e os valores conhecidos depende da distância e/ou da
direcção entre essas posições conhecidas e desconhecidas. As primeiras questões a
75
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
surgirem são, por exemplo, sobre que peso atribuir aos diferentes valores conhecidos, qual
a fiabilidade da estimativa calculada e saber se se pode aplicar o mesmo método/modelo a
outras áreas de características semelhantes.
A primeira parte da análise estrutural é a variografia, com que se pretende modelar a
tendência global, encontrar o modelo teórico de variância de melhor ajuste ao semivariograma empírico, definir o melhor tamanho de lag, parametrizar a anisotropia e a as
regras de vizinhança (pesos atribuídos à influência das observações vizinhas).
Este processo é moroso, ajustado por tentativa e erro, parâmetro a parâmetro e analisando
os erros até se chegar à parametrização que faça mais sentido para os dados em análise.
Ajustado o modelo teórico, o passo seguinte é produzir os mapas de valores interpolados e
avaliar a qualidade das interpolações, analisando os erros e comparando modelos.
Passos geoestatísticos estocásticos utilizando o kriging ordinário:
•
O kriging atribui pesos a observações mais próximas para derivar uma estimativa
para cada localização cujo valor se desconhece. No entanto, os pesos não se
baseiam apenas na distância entre valores observados e a localização a estimar
mas também no arranjo espacial global dos valores observados. Para utilizar o
arranjo espacial nos pesos, a auto-correlação espacial tem de ser quantificada. Para
resolver o problema geoestatístico estocástico, tem de se passar por quatro passos:
1. Calcular o semi-variograma empírico. O kriging, como na maioria das técnicas de
interpolação, foi pensado com base no pressuposto de que ocorrências mais
próximas são mais semelhantes que ocorrências mais distantes (quantificadas
nesta fase como auto-correlação espacial). O semi-variograma empírico é um
meio de explorar esta relação. Pares que estão mais próximos deverão ter
menores diferenças do que pares de amostras mais afastadas. A extensão, em
termos de distância, na qual este pressuposto se verifica pode ser analisada no
semi-variograma empírico;
2. Ajustar um modelo teórico. Este ajuste é realizado pela definição de uma curva
que dá o melhor ajuste através dos pontos amostrados no semi-variograma
76
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
empírico. É necessário encontrar um ajuste tal que o quadrado das diferenças
entre cada valor de semi-variância e a curva do modelo seja o menor possível.
Trata-se do ajuste dos mínimos quadrados, considerado o modelo que quantifica
a auto-correlação espacial nos dados disponíveis;
3. Criar matrizes. As equações do kriging ordinário são contidas em matrizes e
vectores que dependem da auto-correlação espacial entre localizações
observadas e localizações estimadas. Os valores que descrevem a autocorrelação são resultado da modelação do semi-variograma (do ajuste de um
modelo teórico aos dados). As matrizes e vectores determinam os pesos kriging
atribuídos a cada valor observado (que, grosso modo, são o inverso da
distância); e,
4. Produzir uma estimativa. A partir dos pesos kriging para os valores conhecidos,
podem-se estimar os valores das localizações cujo valor se desconhece.
Z(x1)
Z(x2)
1.Análise da correlação espacial com
base no semi-variograma empírico
Z(x0)?
2.Ajuste do semi-variograma
empírico
Z(x4)
Z(x3)
3.Escolha e ajuste de um modelo
teórico ao semi-variograma
4.Validação do modelo ajustado
5.Mapas de kriging
Figura 30 – Processo de análise kriging
77
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Variografia53
A estimação do variograma começa tipicamente com um semi-variograma empírico,
omnidireccional. É um bom ponto de partida para examinar a estrutura e força da autocorrelação, permitindo o cálculo dos parâmetros envolvidos no modelo e a suas interrelações.
A importância de uma boa modelação do semi-variograma é que os pesos kriging são
calculados tendo em conta a estrutura de auto-correlação espacial imposta pelo modelo de
semi-variograma adoptado.
Não existe uma regra simples para escolher o melhor modelo de variograma. Deve-se
observar o semi-variograma empírico e escolher o modelo que pareça mais apropriado.
Pode-se utilizar os resultados da validação simples e da validação cruzada como guias de
ajuste do modelo teórico até chegar-se a resultados satisfatórios. O objectivo é ajustar o
melhor modelo ao semi-variograma empírico sobre os dados. O modelo que melhor se
ajustar irá ser utilizado na interpolação.
Para investigar a auto-correlação nos dados é necessário observar a dispersão dos pontos
no semi-variograma em torno da curva do modelo teórico. Se os pontos estão próximos à
curva do modelo numa direcção e estão espalhados noutra direcção então pode haver autocorrelação direccional nos dados em análise. Em todos os casos, a curva de ajuste do
modelo teórico é um melhor ajuste (best fit) teórico ao semi-variograma empírico.
É preciso também escolher o tamanho de lag adequado aos dados. Uma regra consensual
é que o tamanho de lag multiplicado pelo número de lags seja menor que metade da
distância maior no conjunto dos dados em análise.
Para explorar a auto-correlação direccional nos dados, as características mais importantes
do modelo são três, conforme ilustrado na Figura 32:
1. A distância da dependência espacial (a). Conhecida como alcance máximo (range)
da dependência espacial. Indica a distância a partir da qual deixa de se verificar
dependência entre as observações. A uma certa distância o modelo estaciona;
53
Investigação da estrutura espacial.
78
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
observações que estão separadas por distâncias menores que o alcance máximo
estão espacialmente auto-correlacionadas e localizações mais afastadas que o
alcance máximo não estão;
2. O efeito de pepita (nugget effect). É o valor da semi-variância à distância 0 (zero).
Teoricamente, a uma distância de lag = 0 (zero), o valor de semi-variância deveria
ser também 0 (zero). No entanto, a uma escala infinitesimalmente pequena de
distâncias de separação (lag), a diferença entre amostras não tende para 0 (zero).
Isto é chamado de efeito de pepita. Na prática, se o modelo de semi-variograma
interceptar o eixo γ no valor 2, então o efeito de pepita é 2. Este efeito pode ser
atribuído a erros de medição ou fontes de variação espacial a distâncias inferiores
ao intervalo de amostragem, ou a ambos. Antes de recolher os dados é importante
compreender as escalas a que ocorre a variação espacial que se irá analisar; e,
3. A altura (C) ou sill. Altura que o semi-variograma alcança o seu patamar. É
frequentemente composto por uma descontinuidade na origem, o efeito de pepita, e
pela altura parcial, que adicionada ao efeito de pepita resulta na altura total. O
patamar representa a altura na qual o semi-variograma se estabiliza, aproximandose da variabilidade total dos valores amostrados (que teoricamente é equivalente à
variância a priori).
79
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
γ*
Altura parcial
ou
Sill parcial (C)
Altura ou Sill
Efeito de pepita
(nugget)
a
0
h
Alcance ou Range (a)
Figura 31 - Anatomia do semi-variograma
Além destes parâmetros há ainda a considerar as influências direccionais, que determinam
se um dado conjunto de observações, descreve um processo isotrópico ou anisotrópico. Se
for isotrópico, a dependência é apenas função da distância e não da direcção. Quando se
verifica anisotropia, esta pode ser geométrica (quando o alcance (a) muda com a direcção
mas a altura (C) permanece constante) ou zonal (quando a altura muda com a direcção mas
o alcance permanece constante).
O modelo teórico ideal para o semi-variograma é o modelo esférico (Figura 32), que é o mais
simples. Existem mais modelos e cada um é desenhado para se ajustar a diferentes tipos
de fenómenos espaciais.
80
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
γ
γ
Esférico
Altura
parcial
(C)
Exponencial
C
Efeito Æ
de
0
pepita
Altura
parcial
(C)
a
h
Alcance
Efeito Æ
0
de
pepita
γ
Alcance
γ
Linear
Gaussiano
Altura
parcial
(C)
Efeito Æ
0
de
pepita
h
Altura
parcial
(C)
h
Alcance
Efeito Æ
0
de
pepita
h
Alcance
Figura 32 - Alguns dos modelos teóricos de semi-variograma possíveis
O modelo de melhor ajuste ao conjunto de dados influência a interpolação dos valores não
amostrados, particularmente, quando a forma da curva próximo da origem se altera
significativamente. Quanto mais acentuada for a curva próximo da origem, maior a
influência dos vizinhos mais próximos na estimativa dos valores não observados.
Para o cálculo do semi-variograma, sobretudo quando se têm observações irregularmente
espaçadas no campo, é necessário considerar parâmetros como a distância lag (distância
entre dois pontos de valores observados - Figura 32). Sabe-se que a estimativa do
variograma é menos precisa com maiores lags, pelo que se utiliza a convenção de estimar o
variograma para um lag menor que a metade do lag máximo – SOARES (2006).
81
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Largura de banda
(bandwidth)
Ângulo
Lag
h
Lag
Lag
Fonte: Adaptado de JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003).
Figura 33 - Parâmetros de modelação da área de influência a aplicar sobre os dados de análise
estrutural
O ângulo determina que valores próximos serão incluídos ou excluídos até ser alcançada a
abertura do ângulo definida (bandwidth), que especifica quão abrangente será a procura na
determinação de que pares de observações serão representados no semi-variograma.
A selecção do tamanho de lag, tem efeitos importantes no semi-variograma empírico. Por
exemplo, se o tamanho de lag for demasiado grande (caso do semi-variograma
apresentado na análise exploratória de dados) a auto-correlação de curta distância irá ser
mascarada. Por outro lado, se o tamanho de lag for demasiado pequeno, poderão surgir
demasiados grupos de semi-variância vazios, não sendo possível representar essas classes
devido ao número de observações ser demasiado pequeno para ser considerado
representativo (facto especialmente evidente na superfície do semi-variograma).
Se os dados foram adquiridos utilizando um esquema de amostragem irregular ou aleatório,
a selecção do lag adequado não é assim tão simples. Como regras, tem-se que se o
alcance (range) do modelo ajustado de semi-variograma for demasiado pequeno,
relativamente à extensão do semi-variograma empírico, então pode-se diminuir o tamanho
82
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
de lag (a distância a considerar). Inversamente, se o alcance do modelo ajustado ao semivariograma for grande relativamente à extensão do semi-variograma empírico então podese aumentar o tamanho de lag.
Para os dados aqui analisados, a análise exploratória ajudou a verificar que entre,
aproximadamente, 1700m e 2200m da Central deixa de haver auto-correlação espacial, em
diferentes direcções, pelo que a multiplicação do tamanho de lag com o número de lags
deve resultar num valor dentro deste intervalo de distância no ajuste do modelo final se não
se remover o parâmetro da tendência global.
Erros de medição
Existindo erros de medição nos dados, por exemplo: se existirem medições múltiplas por
localização, devem-se utilizar modelos de erros de medição.
Três dos métodos kriging (ordinário, simples e universal) permitem a modelação de modelos
de erros de medição, que podem ter ocorrido quando se encontram várias medições na
mesma localização que diferem entre si. Neste caso, pode-se dividir a amostra em vários
subconjuntos e avaliá-la assim – se for sabido que o instrumento de medição pode ter
variações de precisão.
Quando não existem erros de medição, o kriging é um interpolador exacto, isto é, se uma
estimativa é calculada para uma localização onde se recolheu uma observação, o valor
estimado será igual ao valor medido. O efeito de escolher modelos com erros de medição é
um mapa final mais suavizado e com menores erros padrão que a versão de kriging exacto.
Para os dados de atenuação, porque os valores anormais se devem em média a 90% de
problemas na casa do Cliente (com as tomadas, interferências electromagnéticas, etc.)54 e
não a problemas do lado da rede, os aparentes ‘erros de medição’ ou candidatos a outliers
dos dados poderão dar importantes informações para a intervenção técnica por parte do
54
Segundo comunicação pessoal do Eng. Luís Filipe Tavares, Director de Engenharia de Acesso e Transporte da
Sonaecom.
83
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Operador na casa do Cliente aquando a instalação do serviço corrigindo os problemas, com
o menor impacto no Cliente.
Influências direccionais
Por se estar a trabalhar num espaço bidimensional, é expectável que as funções de semivariância se alterem não só com a distância mas também com a direcção. Este fenómeno, a
ocorrer, é denominado de anisotropia e pode ser modelado antes da interpolação
propriamente dita.
Enquanto o modelo isotrópico é o mesmo qualquer que seja a direcção, o modelo
anisotrópico alcança o patamar (sill) mais rapidamente numas direcções do que noutra(s). O
comprimento do eixo maior a alcançar o patamar é chamado de maior alcance e o do eixo
menor a alcançá-lo é chamado de menor alcance. Além dos eixos maior e menor, há ainda
a ter em conta o ângulo de rotação do eixo de maior alcance.
Nas primeiras experiências empíricas com a modelação das influências direccionais para os
dados de atenuação, revelou-se indiferente a modelação não automática da inclusão ou não
de anisotropias no modelo ajustado, pelo que na fase de testes desta dissertação ir-se-á
experimentar as influências direccionais em modo automático apenas.
Relações de vizinhança
Partindo do princípio de que eventos mais próximos são mais semelhantes, a certa
distância, os valores deixarão de ter correlação com a localização a estimar e é possível
que até possam já estar localizados numa zona de características muito diferentes da
localização não observada, que se pretende estimar. Por estas razões, deve-se
parametrizar a vizinhança. Existem dois mecanismos de controlo para limitar os valores a
utilizar, nomeadamente, definir a forma do polígono de pesquisa de valores localizados na
vizinhança de uma dada localização e estabelecer os constrangimentos aos valores que se
incluírem dentro desse polígono (por exemplo, os pesos que cada um terá na estimativa do
valor desconhecido).
84
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
O polígono de procura de vizinhança é definido pelos dados existentes. Por exemplo, se os
dados estão distribuídos espacialmente de forma estruturada, como no caso de as
observações estarem espaçadas sempre à mesma distância qualquer que seja a direcção,
e não existirem influências direccionais (anisotropia), podem-se incluir pontos distribuídos
da mesma forma em todas as direcções desde a localização desconhecida. No entanto,
sabendo que existem influências direccionais, pode utilizar-se um polígono de forma elíptica
para procura dos vizinhos, com o seu eixo maior paralelo ao eixo de maior auto-correlação
para interpolar a superfície estimada. Desta forma, garante-se o valor da localização a
estimar irá ter em conta mais valores observados na mesma direcção de auto-correlação
preferencial do fenómeno - nesta direcção os pontos observados apresentam maior autocorrelação até maiores distâncias com a localização que se desconhece o valor do que
noutras direcções.
Portanto, a forma do polígono de procura de vizinhança deve basear-se no entendimento
das localizações espaciais e das influências direccionais da auto-correlação espacial do
conjunto de dados.
Antes da selecção dos modelos a testar para os dados de atenuação experimentaram-se,
empiricamente, vários tipos de formas geométricas e número de sectores, verificando-se
que uma forma elíptica, com quatro sectores, com um limite máximo de 5 e limite mínimo de
2 observações por sector é suficiente para descrever as relações de vizinhança dos dados,
com ou sem influências direccionais. Como se decidiu modelar as influências direccionais
em modo automático, da mesma forma não se ajustaram as distâncias calculadas
automaticamente pelo software para os semi-eixos maior e menor, nos casos em que se
considerou anisotropia.
Tendências determinísticas globais
Conceptualmente, a tendência global é fixa, o que significa que simulando os dados vez
após vez, a tendência nunca se deverá alterar. No entanto, observam-se flutuações nas
superfícies simuladas devido aos erros aleatórios de auto-correlação (tendências locais).
Normalmente, a tendência global altera-se gradualmente através do espaço enquanto os
erros aleatórios se alteram mais rapidamente.
85
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Se se optar por remover a tendência, prossegue-se com a modelação kriging para os
residuais, tendências locais, embora antes da interpolação final ser calculada, a tendência
global seja adicionada de novo para o cálculo da interpolação final.
A ordem polinomial da tendência global deve ser mantida o mais baixa possível a menos
que se tenham boas razoes para o contrário, para manter a simplicidade do modelo e
introduzir menos fontes de suavização na interpolação final.
Sendo o fenómeno em análise mais propenso a tendências locais, pode fazer sentido
remover a tendência global para se ajustar o modelo teórico a uma escala de análise
menor. Para os dados de atenuação experimentaram-se ambas as situações, com e sem
consideração da tendência global.
Interpolação kriging
Para o conjunto de dados de análise estrutural, sem candidatos a outliers, divididos em
dados de treino e teste (numa proporção de 90%-10%), decidiu-se testar um conjunto de 21
variações de kriging ordinário utilizando as seguintes parametrizações:
•
Com e sem tendência global;
•
Três modelos de ajuste teórico: esférico, exponencial e gaussiano;
•
Com e sem influências direccionais;
•
Com dois tipos de patamar:
um automático, calculado pelo software, e outro equivalente à variância a priori do
conjunto de dados considerado (cujo valor é de 165,65);
•
Também com dois tipos de tamanho e número de lags:
com tamanho de lag e número de lags automáticos e com tamanho de lag e número
de lags ajustados para 220 e 10, respectivamente; e, finalmente,
•
Parametrização da vizinhança automática.
86
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Tabela 4 – Divisão do conjunto de dados da análise estrutural, utilizados para os 21 testes de kriging
Dados
Observações
Treino
291
Teste
33
Tabela 5 - Parâmetros para os 21 testes de kriging, realizados com dados de treino e teste
Parâmetros
Teste
Tendência global
Modelo
teórico
1
detr_anis_stdsill_sph
Não (100% global; 2a ordem)
Esférico
Automático
Sim
Automático
2
detr_anis_stdsill_exp
Não (100% global; 2a ordem)
Exponencial
Automático
Sim
Automático
3
detr_anis_stdsill_gau
Não (100% global; 2a ordem)
Gaussiano
Automático
Sim
Automático
4
detr_isot_varsill_sph
Não (100% global; 2a ordem)
Esférico
Automático
Não
Ajustado (var = 165,65)
5
detr_isot_varsill_exp
Não (100% global; 2a ordem)
Exponencial
Automático
Não
Ajustado (var = 165,65)
6
detr_isot_varsill_gau
Não (100% global; 2a ordem)
Gaussiano
Automático
Não
Ajustado (var = 165,65)
7
detr_isot_stdsill_sph
Não (100% global; 2a ordem)
Esférico
Automático
Não
Automático
ID
Lag
Influências
direccionais
Patamar
87
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
8
detr_isot_stdsill_exp
Não (100% global; 2a ordem)
Exponencial
Automático
Não
Automático
9
detr_isot_stdsill_gau
Não (100% global; 2a ordem)
Gaussiano
Não
Automático
10
ndetr_anis_varsill_sph
Sim
Esférico
Sim
Ajustado (var = 165,65)
11
ndetr_anis_varsill_exp
Sim
Exponencial
Sim
Ajustado (var = 165,65)
12
ndetr_anis_varsill_gau
Sim
Gaussiano
Sim
Ajustado (var = 165,65)
13
ndetr_anis_stdsill_sph
Sim
Esférico
Sim
Automático
14
ndetr_anis_stdsill_exp
Sim
Exponencial
Sim
Automático
15
ndetr_anis_stdsill_gau
Sim
Gaussiano
Sim
Automático
16
ndetr_isot_varsill_sph
Sim
Esférico
Não
Ajustado (var = 165,65)
17
ndetr_isot_varsill_exp
Sim
Exponencial
Não
Ajustado (var = 165,65)
18
ndetr_isot_varsill_gau
Sim
Gaussiano
Não
Ajustado (var = 165,65)
19
ndetr_isot_stdsill_sph
Sim
Esférico
Não
Automático
20
ndetr_isot_stdsill_exp
Sim
Exponencial
Não
Automático
21
ndetr_isot_stdsill_gau
Sim
Gaussiano
Automático
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Ajustado (tamanho de
lag = 220; Lags = 10)
Não
Automático
88
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Dos 21 testes de kriging propostos, ir-se-á testas os que obtiverem melhores resultados no
conjunto de dados original, incluindo todos os valores e candidatos a outliers, de forma a
testar se os dados originais são um conjunto de dados robusto ou relativamente permeável
a dados anormais. Este passo permitirá aferir se os candidatos a outliers têm um grande
impacto no resultado da interpolação ou não.
3. Validação dos resultados
O software utilizado permite avaliar os resultados da interpolação a partir de duas técnicas
de validação: (1) a validação simples e (2) a validação cruzada.
Ambas as validações são utilizadas nesta dissertação para avaliar os resultados dos testes
realizados e ter uma ideia de quão bem os modelos testados interpolam os valores de
localizações cujo valor se desconhece.
No caso da validação simples, antes de se realizar os testes propostos, uma parte dos
dados deve ser retirada do conjunto total de dados iniciais; o conjunto retirado passa a ser o
subconjunto de dados de teste. Utilizam-se os restantes dados, o subconjunto de dados de
treino, para parametrizar o modelo teórico a utilizar para a interpolação. Ao ajustar-se um
modelo teórico sobre o subconjunto de dados de treino, não se verifica directamente o
modelo final (que deveria incluir todos os dados disponíveis) mas, na impossibilidade de
obter um conjunto adicional de observações para validação, este tipo de validação simples
serve para verificar se os ajustes realizados são válidos55. Se a parametrização funcionar
para o subconjunto de dados de validação (dados de teste), é esperado que também se
aplique à totalidade dos dados.
Na validação cruzada, todos os dados são utilizados para a interpolação. Após a aplicação
do modelo ajustado aos dados, na fase de validação cruzada, cada valor observado (um de
cada vez) vai sendo omisso do conjunto de dados, sendo interpolado o seu valor de acordo
com o modelo parametrizado. O valor observado para aquela localização é adicionado de
novo ao conjunto de dados e ambos os valores, estimados e observados, para cada
55
Escolha do modelo teórico de semi-variograma, escolha do tamanho de lag, escolha dos parâmetros de vizinhança, etc..
89
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
localização para o qual se efectuou validação cruzada são comparados. Este processo é
repetido para cada valor observado do conjunto de dados. Para todos os valores do
conjunto de dados, a validação cruzada compara o valor estimado com o valor observado.
O tipo de gráficos e estatísticas utilizadas para comparar valores estimados e observados
são semelhantes para ambas as validações.
No caso do software utilizado nesta dissertação, estão disponíveis quatro tipos de gráficos:
1. Gráfico de valores estimados face a valores observados;
2. Gráfico de erros;
3. Gráfico de erro padrão; e,
4. Gráfico de quantis normais.
Os primeiros três gráficos, em particular, ajudam a evidenciar a qualidade do estimador
kriging parametrizado para a interpolação dos valores desconhecidos. Seja qual for o
gráfico, quanto mais próxima a distribuição de valores em torno das respectivas rectas de
regressão melhor.
Além dos gráficos, são calculadas estatísticas sobre os erros de interpolação:
•
Erro Médio (Mean), que deverá ser o mais próximo possível de 0 (zero);
•
Erro Quadrático Médio (Root-Mean-Square) e Erro Padrão da Média (Average
Standard Error), que deverão ser o mais próximos possível um do outro;
•
Erro Relativo Médio (Mean Standardized), que deverá ser o mais próximo possível
de 0 (zero); e,
•
Erro Relativo Quadrático Médio (Root-Mean-Square Standardized), que deverá ser o
mais próximo possível de 1 (um).56
56
SOUSA; MUGE (1990) e JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003).
90
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Um dos objectivos finais da interpolação é que esta seja centrada nos valores observados
(portanto, não enviesada), pelo que o Erro Médio deverá ser próximo de 0 (zero). No
entanto, este valor depende da escala dos dados, pelo que devem ser normalizados; daqui
obtêm-se o Erro Relativo Médio (Erro Médio dividido pelo Erro Padrão da Média), cujo
resultado deverá ser também próximo de 0 (zero).
Outro objectivo é que a interpolação seja a mais próxima possível dos valores observados.
O Erro Quadrático Médio é a raiz quadrada da média dos quadrados das distâncias dos
valores interpolados e observados. Quanto mais próximos os valores interpolados dos
valores observados menor será este erro, que é particularmente útil na comparação de
diferentes modelos. Regra geral, quando menor for o Erro Quadrático Médio dos valores
interpolados, melhor.
Finalmente, pretende-se que a avaliação da incerteza seja válida. Cada modelo de kriging
dá uma estimativa do Erro Padrão kriging para os valores interpolados. Além de se fazer
uma interpolação, pretende-se estimar a sua variabilidade, com a informação dos valores
observados. Se o Erro Padrão da Média estiver próximo do Erro Quadrático Médio, então
está-se correctamente a avaliar a variabilidade no modelo ajustado e, nesse caso, se o Erro
Padrão da Média for maior que o Erro Quadrático Médio, então está-se a sobrestimar a
variabilidade no modelo ajustado; caso contrário, está-se a subestimar a sua variabilidade.
O Erro Relativo Quadrático Médio dos valores interpolados deve ser próximo de 1 (um) se o
Erro Padrão da Media for válido. Se o Erro Relativo Quadrático Médio for maior que 1 (um),
então está-se a subestimar a variabilidade da interpolação no modelo ajustado; caso
contrário, estar-se-á a sobrestimar essa variabilidade.
Outra forma de avaliar a qualidade de um modelo de interpolação é através da comparação
entre modelos, podendo assim determinar-se quão bons são os modelos utilizados para
criar duas interpolações. Podem-se comparar interpolações com modelos diferentes (para
avaliar qual o que melhor se aplica aos dados) ou interpolações criadas a partir do mesmo
modelo, mas com parametrizações diferentes (avaliando o efeito de diferentes
parametrizações na interpolação final).
91
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Na comparação entre modelos utilizam-se as mesmas estatísticas. O melhor modelo será
aquele que tem o Erro Relativo Médio mais próximo de 0 (zero), o menor Erro Quadrático
Médio e o Erro Relativo Quadrático Médio mais próximo de 1 (um).
Nesta comparação entre modelos podem levantar-se duas questões: (1) a da optimalidade
e (2) a da validade. O Erro Quadrático Médio pode ser menor para um dos modelos,
podendo por isso concluir-se que esse é o modelo óptimo. Mas, quando comparado com
outro modelo, o Erro Quadrático Médio pode estar mais próximo do Erro Padrão Médio, o
que faz desse um modelo mais válido porque quando se interpola um valor numa
localização desconhecida, só existe o Erro Padrão para avaliar a incerteza dessa
interpolação. Quando o Erro Padrão Médio está próximo do Erro Quadrático Médio da
validação, então pode-se confiar na validade do Erro Padrão Médio.
Resultados dos testes kriging
Do conjunto de 21 testes realizados, dos quais se apresentam os resultados obtidos nas
respectivas validações (simples e cruzada) em Apêndice, Tabela 8, destacam-se 4 modelos.
O método utilizado para encontrar os melhores modelos foi o de classificar o primeiro e o
segundo melhor valor para cada erro calculado, tanto na validação simples como na
validação cruzada, e contabilizar para cada modelo testado quantas vezes teve o melhor ou
o segundo melhor erro. Quando um dado modelo teve o melhor valor para um dado erro
somaram-se 2 valores e quando teve o segundo melhor valor para um dado erro somou-se
1 valor. O maior somatório do número de melhores primeiro e segundo valores de erro em
cada modelo permitiu seleccionar 4 modelos com comportamentos aceitáveis:
1. O número 12, um modelo gaussiano (Apêndice, Figura 40);
2. O número 9, também um modelo gaussiano (Apêndice, Figura 41);
3. O número 5, um modelo exponencial (Apêndice, Figura 42); e,
4. O número 10, um modelo esférico (Apêndice, Figura 43).
92
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Com os parâmetros destes 4 modelos que apresentaram os melhores comportamentos para
os dados de treino e teste sem os candidatos a outliers identificados na análise exploratória
de dados, decidiu-se experimentar os mesmos 4 modelos para o conjunto inicial de dados
(incluindo os candidatos a outliers) de modo a determinar se o conjunto de dados inicial é
muito sensível ou não a valores anormais; se é um conjunto de dados robusto ou
relativamente permeável a esse tipo de valores.
Tabela 6 - Conjunto de dados utilizados para os segundos testes de kriging
Dados
Observações
Treino
463
Teste
52
Tabela 7 - Parâmetros para os segundos testes kriging, realizados com dados de treino e teste
incluindo valores candidatos a outliers
Parâmetros
ID
12
9
5
10
Teste
ndetr_anis_varsill_gau
detr_isot_stdsill_gau
detr_isot_varsill_exp
ndetr_anis_varsill_sph
Tendência
global
Sim
Não
(100%
global; 2a
ordem)
Não
(100%
global; 2a
ordem)
Sim
Modelo
teórico
Gaussiano
Gaussiano
Exponencial
Esférico
Lag
Ajustado
(tamanho de
lag = 220;
lags = 10)
Ajustado
(tamanho de
lag = 92,385;
lags = 12)
Ajustado
(tamanho de
lag = 92,385;
lags = 12)
Ajustado
(tamanho de
lag = 220;
lags = 10)
Influências
direccionais
Patamar
Sim
Ajustado
(var =
165,65)
Não
Ajustado
(var =
30,713)
Não
Ajustado
(var =
165,65)
Sim
Ajustado
(var =
165,65)
Do conjunto de 4 testes realizados, dos quais se apresentam os resultados obtidos nas
respectivas validações (simples e cruzada) em Apêndice, Tabela 9, destaca-se 1 de entre os
4 modelos. O método utilizado para encontrar o melhor modelo foi o mesmo utilizado para o
93
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
primeiro grupo de testes kriging. Para o conjunto de dados original, incluindo candidatos a
outliers, o modelo com melhor desempenho é o número 9, um modelo gaussiano.
Figura 34 - Modelo com a 1ª melhor classificação no conjunto de 4 testes kriging realizados para dos
dados originais
Quando comparados os resultados do modelo 9 – dados de treino (sem candidatos a
outliers) com os do modelo 9 - dados originais (com todos os valores observados), o
segundo apresenta-se com um comportamento robusto, não muito sensível à presença de
valores anormais, eventualmente candidatos a outliers, conforme demonstram os dados da
Figura 35.
94
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Gráfico de valores Interpolados/Observados
Gráfico de Erro
Gráfico de Erro Padrão
Gráfico de Quantis Normais do Erro Padrão
Resumo Dados originais
Resumo Dados de treino
Figura 35 - Gráficos dos erros de interpolação kriging para o melhor modelo dos dados originais em
comparação com o mesmo modelo para os dados de treino
Em termos gerais, para os gráficos de valores interpolados e observados, Erro e Erro
Padrão, os valores devem dispersar-se idealmente junto da recta de regressão. A inclinação
é normalmente menor que 1 (um), porque a técnica kriging tende a subestimar valores
maiores e sobrestimar valores menores.
O gráfico de valores interpolados face aos observados mostra os valores de cada conjunto;
o gráfico de Erro é o mesmo, excepto que os valores observados são subtraídos aos
valores interpolados. No gráfico de Erro Padrão os valores observados são subtraídos aos
valores interpolados e divididos pelos erros padrão kriging interpolados. Finalmente, o
gráfico de quantis normais mostra os quantis das diferenças entre os valores interpolados e
observados, divididos pelos Erros Padrão kriging interpolados e os correspondentes quantis
de uma distribuição normal. Se os erros dos valores interpolados em relação aos valores
observados estão normalmente distribuídos, podem-se utilizar os métodos kriging que
partem do pressuposto da normalidade (por exemplo, mapas de probabilidade do kriging
ordinário).
95
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
A dispersão de valores nos vários gráficos é menor para os dados originais, o que sugere
uma melhor interpolação com os dados originais do que com os dados de treino. Ambas as
distribuições estão próximas da normal.
Em termos estatísticos, os erros calculados para o modelo 9 – dados originais, mostram que
é um modelo válido dado que a diferença entre Erro Quadrático Médio e Erro Padrão Médio
é menor nesse modelo (0,008) que no mesmo modelo 9 mas aplicado aos dados de treino
(0,149). Quando o Erro Padrão Médio está próximo do Erro Quadrático Médio da validação,
pode-se confiar na validade do Erro Padrão Médio.
Visualmente, a interpolação utilizando o modelo 9 para cada um dos conjuntos de dados
resulta nos mapas da Figura 36.
Dados sem candidatos a outliers
Dados com candidatos a outliers
Figura 36 - Mapa de interpolação kriging dos valores de atenuação para o conjunto de dados sem
candidatos a outliers e para o conjunto de todos os dados (com os candidatos a outliers)
Utilizando os mesmo valores de corte para as classes de atenuação, o mapa de valores de
atenuação interpolado para os dados de treino é mais grosseiro, mais suavizado que o
96
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
mapa para os dados originais. As influências direccionais são relativamente semelhantes,
seguindo um eixo SSW-NNE.
Calcularam-se também os mapas de Erro Padrão para os dois conjuntos de dados.
Novamente, e sem utilizar as mesmas classes para ambos os conjuntos de dados, a
variabilidade do Erro Padrão do mapa dos dados originais é maior que a apresentada no
mapa dos dados de treino, embora o Erro Padrão dos dados originais seja mais elevado
que o Erro Padrão dos dados de treino.
Dados sem candidatos a outliers
Dados com candidatos a outliers
Figura 37 - Mapa de Erro Padrão kriging dos valores de atenuação para o conjunto de dados sem
candidatos a outliers e para o conjunto total de dados (com os candidatos a outliers)
Dado que ambos os conjuntos de dados se aproximam de uma distribuição normal,
calcularam-se, com base no mesmo modelo 9 (o kriging que melhor resultados apresentou),
mapas de probabilidade para os vários níveis de corte da atenuação para os quais se
conhecem as classes de elegibilidade com os resultados apresentados na Figura 38 e na
Figura 39.
97
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Ambas as figuras mostram uma superfície muito suavizada nos mapas realizados com base
nos dados de treino, devido a terem-se retirado os valores candidatos a outliers, enquanto
os mapas realizados com base nos dados originais, incluindo candidatos a outliers mostram
superfícies com uma granularidade de probabilidade maior.
3 STB
2 STB
1 STB
Figura 38 - Probabilidade de elegibilidade Triple Play, com base nos dados de treino
98
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
3 STB
2 STB
1 STB
Figura 39 - Probabilidade de elegibilidade Triple Play, com base nos dados originais
99
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
V. Discussão, Conclusões e Recomendações
Ao longo da investigação apresentada pretendeu-se não só dar uma nova interpretação aos
dados geográficos, e não geográficos, de que dispõe habitualmente um Operador Entrante
de telecomunicações, bem como utilizar metodologias e técnicas da análise espacial e da
geoestatística que, embora conhecidas, normalmente não são utilizadas no campo das
telecomunicações.
Os resultados obtidos trouxeram novas provas para sustentar um assunto já conhecido: os
problemas em determinar, com precisão, a elegibilidade para serviços de banda larga sobre
a rede de cobre. Com estimadores kriging pode-se melhorar substancialmente o que são
apenas coberturas teóricas de serviço grosseiras57, em termos de aproximação à realidade
e à atenção que a análise do fenómeno da atenuação requer.
A ideia foi explorar um tratamento conhecido da geoestatística estocástica, que pode ser
discutida a vários níveis de complexidade matemática, para entender como se pode utilizar
técnicas da geoestatística para o problema de conseguir a melhor estimativa de valores
desconhecidos dentro de uma região, para poder prever classes de serviço e respectivos
níveis de confiança com base em amostras pontuais.
À medida que as telecomunicações se vão tornando mais complexas em termos de
tecnologias que aproveitam redes existentes mais antigas e que ao mesmo tempo em
lógicas de mercado aberto se partilham as infra-estruturas existentes, o grau de
conhecimento que se tem da infra-estrutura tende a conter cada vez mais factores
aleatórios a ter em conta e que podem interferir na forma como se faz uma oferta de
serviços, como se faz estratégica, controle de custos, dimensionamento de uma força de
vendas, etc..
Os próximos passos deverão passar por testar a relevância e aplicabilidade dos modelos
aqui apresentados para ajudar a classificar a elegibilidade para outras Áreas Locais a fim de
verificar se o comportamento é independente da localização geográfica e se faz sentido
falar de um modelo de elegibilidade global, que se aplique a todas as Áreas Locais ou, pelo
menos, a Áreas Locais integradas num mesmo Grupo de Redes.
57
Baseadas quer em distâncias lineares a partir de uma dada Central ou em distâncias através dos eixos de via.
100
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Os modelos identificados como melhores deveriam ser testados com informação adicional
de campo, o que pode ser realizado com um acompanhamento da implementação deste
tipo de tecnologias dado que à medida que a rede de Clientes cresce é possível completar a
análise e reformulá-la, de forma a completar a precisão das previsões de elegibilidade para
serviços de telecomunicações de banda larga.
Em termos de contributos para a qualificação da rede, poder-se.á explorar e tentar chegar à
configuração da rede de cobre a partir da análise realizada para a elegibilidade, ter uma
ideia da implementação territorial da rede de cobre. Um dos pontos de partida,
geograficamente falando, poderá ser utilizar a informação disponível do INE, relativamente
à idade dos edifícios que, relacionada com os eixos viários (para além das medições de
sinal georreferenciadas), poderão contribuir com pistas sobre o desenvolvimento da rede de
cobre na Área Local em estudo.
No decorrer da realização da presente dissertação fizeram-se alguns testes com os dados
disponíveis, inconclusivos. A informação disponível no INE não tem a granularidade
necessária para avaliar se esta ideia pode ser verificada apenas com esses dados (eixos de
via, idade dos edifícios e observações de atenuação). Pode ser um caminho a explorar, com
informação de mais detalhe ao nível da idade dos edifícios, não apenas ao nível macro de
uma subsecção mas sim para cada edifício, individualmente.
Independentemente dos estudos adicionais que se sugerem como necessários, com uma
análise do tipo da apresentada, o Operador de telecomunicações poderá gerar informação
para responder adequadamente a questões relativas:
1. Ao potencial de mercado;
2. À segmentação de Clientes e possíveis Clientes (por tipo de mercado, serviços,
etc.);
3. Ao estabelecimento de estratégias de penetração (fazer corresponder novos
produtos e serviços com o perfil de Cliente);
4. A melhorar a precisão de operações de Marketing Directo (aumentar a rentabilidade
das campanhas e reforçar o lado personalizado da acção de Marketing, para
fidelizar o Cliente; distribuir promoções);
101
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
5. A prever acções dos concorrentes;
6. A preparar acções de Marketing;
7. A avaliações de pós-implementação:
•
Analisar a aceitabilidade, fidelidade e satisfação de cada produto e/ou
serviço;
•
Estudar as áreas de influência de cada produto e/ou serviço;
•
Avaliar resultados técnicos;
•
Refinar a rede de distribuição (identificar áreas não cobertas ou exploradas).
A resposta a estes pontos são fundamentais para avaliar o desempenho técnico bem como
comercial de um Operador e justificar o seu negócio.
102
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Referências bibliográficas
Documentos impressos
BAILY, Trevor C.; GATRELL, Anthony C. (1995) - Interactive Spatial Data Analysis,
Longman, 413pp..
BURROUGH, Peter A.; MCDONNELL, Rachel A. (2006) – Principles of Geographical
Information Systems, Oxford University Press, 333pp..
CEIA, Carlos (2005) – Normas para Apresentação de Trabalhos Científicos, Editorial
Presença, 5ª edição, Lisboa, 77pp..
COURTNEY, Steven (2000) – Understanding xDSL loop testing in the physical copper layer,
Spirent Communications.
Documentos técnicos e comerciais internos à du – Emirates Integrated Telecommunications
Company (2007 – 2008), Policop., Dubai, Emirados Árabes Unidos.
Documentos técnicos e comerciais internos à Sonaecom (2000 – 2007), Policop., Lisboa,
Portugal.
ECO, Umberto (2005) – Como se faz uma tese em ciências humanas, Editorial Presença,
12ª edição, Lisboa, 238pp..
JOHNSTON, Kevin; HOEF, Jay M. Ver; KRIVORUCHKO, Konstantin; LUCAS, Neil (2003) –
ArcGIS 9, Using ArcGIS Geostatistical Analyst, ESRI, 300pp..
LONGLEY, Paul A.; GOODCHILD, Michael F.; MAGUIRE, David J.; RHIND, David W.
(2007) – Geographic Information Systems and Science, John Wiley & Sons Ltd., 517pp..
POLÈSE, Mario (1998) – Economia Urbana e Regional – Lógica espacial das
transformações económicas, Colecção APDR, Coimbra, 377pp..
RODRIGUES, Pedro Luís Dias; SOBRAL, Pedro Nuno Gonçalves (2002) – “Fixed Wireless
Access”, FEUP - Departamento de Engenharia Electrotécnica e de Computadores,
103
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Licenciatura em Engenharia Electrotécnica e de Computadores, cadeira de SISTEMAS DE
TELECOMUNICAÇÕES II – 2002/2003, Prof. Mário Jorge Leitão.
SOARES, Amílcar (2006) – Geoestatística para as ciências da terra e do ambiente, Instituto
Superior Técnico Press, Lisboa, 214pp..
SOUSA, António; MUGE, Fernando (1990) – Elementos de geoestatística, Laboratório de
Mineralurgia e Planeamento Mineiro, Janeiro, policop., 58pp..
TANENBAUM, Andrew S. (1996) – Computer Networks, Prentice Hall, Third Edition, United
States of America, 813pp..
Documentos electrónicos
APDSI. Glossário da Sociedade da Informação. 2005.
Disponível no URL:
http://purl.pt/426/1/
AWARE. ADSL2 and ADSL2+, the new ADSL standards white paper. 2002.
Disponível no URL:
http://www.dslprime.com/a/adsl21.pdf
BANGEMANN, M. et al. - Recommendations to the European Council - Europe and the
global information society. 1994.
Disponível no URL:
http://europa.eu.int/ISPO/infosoc/backg/bangeman.html
CLARK, Isobel. Practical Geostatistics. 13 de Julho, 2001
Disponível no URL:
http://www.kriging.com/PG1979/PG1979_pdf.html
COELHO, Paulo. Tecnologias xDSL para pares de cobre. Redes e serviços em banda larga.
2002.
Disponível no URL:
http://www.estv.ipv.pt/paginaspessoais/pcoelho/disciplinas/rsbl/apontamentos/xdsl.pdf
104
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Estatística
http://www.explicacoes.com/apontamentos/estatistica_probabilidades.pdf
HOLTE, Nils. Bredbåndsteknologier, ytelser og begrensninger. 2003
Disponível no URL:
http://www.iet.ntnu.no/projects/beats/Documents/Maaletekn03.pdf
ITU, Asymmetric Digital Subscriber Line (ADSL) transceivers – Extended bandwidth ADSL2
(ADSL2+). Maio 2003.
Disponível no URL:
http://www.itu.int/rec/T-REC-G.992.5-200305-S/en
JENKS, George F., Generalization in Statistical Mapping. Março 1963.
Disponível no URL:
http://www.jstor.org/pss/2569134
MATEUS, Abel M. - As Telecomunicações e o Mercado Único.
Disponível no URL:
http://www.autoridadedaconcorrencia.pt/vImages/Telecomunicacoes_e_Mercado_Unico.pdf
NEXTEP Broadband. DSL Variations. Definitions and differences of Digital Subscriber Line
variations. 2001.
Disponível no URL:
http://www.nextep.com.au/upload/DSL_Variations.pdf
ORALL - Oferta de Referência para Acesso ao Lacete Local. 22-08-2006.
Disponível no URL:
http://ptwholesale.telecom.pt/GSW/PT/Canais/ProdutosServicos/OfertasReferencia/ORALL/
Orall.htm
WILCOM, SELT & DELT FAQ. 2005.
Disponível no URL:
http://www.wilcominc.com/documents/WILCOM-FAQ-SELT-DELT.pdf
Páginas Internet
105
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
http://www.biomedware.com/software/Atlas_WebHelp/interface/map/classify/About_natural_
breaks.htm
http://www.terralib.org/index.php
http://www.r-project.org/
http://www.ssg-surfer.com/ssg/detailed_description.php?products_id=135#features
http://www.epa.gov/ada/csmos/models/geoeas.html
http://en.wikipedia.org/wiki/Main_Page
http://www.itu.int/net/home/index.aspx
http://www.atis.org/glossary/
http://www.icp.pt
http://www.autoridadedaconcorrencia.pt/
http://ptwholesale.telecom.pt/GSW/PT/
http://www.dslforum.org/index.shtml
http://sigarra.up.pt/fbaup/web_base.gera_pagina?p_pagina=2464#Documentos%20impress
os
http://europa.eu/scadplus/glossary/television_pt.htm
http://www.verio.com/support/files/glossary.cfm
http://bandalarga.org/
http://www.internode.on.net/adsl2/
http://gasa.dcea.fct.unl.pt/gasa/tig/aulasteoricas.html
http://www.duxus.com.br/produtos/tecnologia/addin/metrixus/manual/
http://www.dpi.inpe.br/terraview/
http://www.dpi.inpe.br/spring/
106
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
https://repositorium.sdum.uminho.pt/bitstream/1822/4379/15/Cap%C3%ADtulo+5.pdf
http://www.mct.uminho.pt/rmenezes/pdf/RMenezes_ClusterSV.pdf
http://recursos.gabrielortiz.com/index.asp?Info=059
http://www.scholarpedia.org/article/DSL
http://www-users.cs.umn.edu/~gandhi/courses/CS8701/g4_e2_semivariogram.pdf
http://www.esri.com/software/arcgis/arcgisxtensions/geostatistical/research_papers.html
http://www.dpi.inpe.br/terraview/index.php
107
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Apêndices
Tabela 8 - Resultados das validações do primeiro grupo de testes Kriging, para o conjunto de dados sem candidatos a outliers
Validação Cruzada (dados de treino)
ID
M
RMS
ASE
Validação (dados de teste)
ASE-RMS
12
0.003252
4.359000
5.744000
1.385000
9
- 0.040060
4.333000
4.184000
- 0.149000
5
0.031090
4.325000
5.921000
1.596000
10
- 0.085000
3.910000
5.462000
4
0.075210
4.319000
7
- 0.050200
19
ASE vs.
RMS
sobre
MS
RMSS
RMSS
1-RMSS
0.006216
0.775900
sobre
0.224
- 0.008194
0.998700
sobre
0.001
sobre
0.001342
0.809900
sobre
0.190
1.552000
sobre
- 0.006638
0.737000
sobre
0.263
4.470000
0.151000
sobre
0.006094
1.131000
sub
-
0.131
4.311000
4.126000
- 0.185000
sub
- 0.010750
1.008000
sub
-
0.008
- 0.051910
4.031000
3.655000
- 0.376000
sub
0.001376
1.387000
sub
-
0.387
21
0.114100
4.332000
4.554000
0.222000
sobre
0.032720
0.988700
sobre
0.011
1
0.080030
4.382000
4.199000
- 0.183000
sub
0.009531
0.990100
sobre
0.010
2
0.119400
4.448100
4.064000
- 0.384100
sub
0.016260
1.069000
sub
3
0.112100
4.443000
4.261000
- 0.182000
sub
0.016340
0.991400
sobre
6
0.104700
4.297000
4.006000
- 0.291000
sub
0.010360
1.098000
sub
-
0.098
8
- 0.033850
4.361000
3.916000
- 0.445000
sub
- 0.007399
1.171000
sub
-
0.171
11
13
- 0.119600
- 0.076960
3.942000
4.040000
5.873000
3.661000
1.931000
- 0.379000
sobre
sub
- 0.009928
- 0.003100
0.699300
1.384000
sobre
sub
-
0.301
0.384
sub
-
0.069
0.009
M
0.156500
0.616500
0.333000
0.466100
0.359600
0.580000
0.448600
0.246300
0.338200
0.318700
0.450200
0.578000
0.418300
0.552900
-
ASE vs.
RMS
Contagem
dos
melhores
erros
RMS
ASE
ASE-RMS
4.923000
5.158000
sobre
5
5.571000
3.852000
0.235000
1.719000
sub
4
5.113000
5.485000
0.372000
sobre
3
4.844000
4.992000
sobre
2
5.161000
4.283000
sub
1
5.537000
3.774000
sub
1
4.948000
3.470000
sub
1
4.998000
4.061000
sub
1
5.139000
3.858000
sub
0
5.106000
3.702000
sub
0
5.164000
3.094200
sub
0
5.421000
3.807000
sub
0
5.391000
3.527000
0.148000
0.878000
1.763000
1.478000
0.937000
1.281000
1.404000
2.069800
1.614000
1.864000
sub
0
4.963000
5.417000
0.454000
-
sobre
sub
0
0
108
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
14
- 0.097220
4.061000
4.767000
0.706000
sobre
- 0.005071
1.029000
sub
-
15
0.059610
4.287000
4.508000
0.221000
sobre
0.021560
0.989800
sobre
0.010
16
- 0.082370
3.966000
5.963000
1.997000
sobre
- 0.005363
0.677700
sobre
0.322
17
- 0.121900
3.945000
6.173000
2.228000
sobre
- 0.009589
0.657900
sobre
0.342
18
0.032450
4.401000
6.259000
1.858000
sobre
0.011240
0.716600
sobre
0.283
20
- 0.092480
4.043000
4.770000
0.727000
sobre
- 0.004626
1.027000
sub
-
0.029
0.027
0.418500
0.518900
0.262000
0.493200
0.562000
0.322600
0.498100
4.863000
3.488000
sub
0
4.043000
1.375000
0.540000
0.932000
5.039000
4.499000
4.975000
sub
0
4.928000
5.394000
0.466000
sobre
0
4.966000
5.635000
0.669000
sobre
0
5.074000
5.596000
sobre
0
5.002000
4.499000
0.522000
0.503000
sub
0
M – Erro Médio (Mean); RMS – Erro Quadrático Médio (Root-Mean-Square); ASE – Erro Padrão Médio (Average Standard Error); MS – Erro Relativo Médio
(Mean Standardized); RMSS – Erro Relativo Quadrático Médio (Root-Mean-Square Standardized).
Sub – Subestimado; Sobre – Sobrestimado.
Segundo melhor resultado
Melhor resultado
Tabela 9 - Resultados das validações do segundo grupo de testes kriging, para o conjunto de dados incluindo os valores candidatos a outliers
Validação Cruzada (dados de treino)
ID
M
RMS
ASE
Validação (dados de teste)
ASE-RMS
ASE vs.
RMS
MS
RMSS
RMSS
1-RMSS
0.104
12
- 0.057730
7.553000
8.511000
0.958000
sobre
- 0.003593
0.896000
sobre
9
- 0.032080
7.692000
7.700000
0.008000
sobre
- 0.003126
1.021000
sub
- 0.021
5
0.023340
8.735000
5.607000
- 3.128000
0.006424
2.122000
sub
- 1.122
10
- 0.075030
7.586000
8.212000
0.626000
- 0.004449
0.942800
sobre
sub
sobre
0.057
M
0.686100
1.068000
1.526000
1.033000
RMS
ASE
9.434000
7.376000
9.258000
6.702000
9.772000
5.091000
9.288000
7.141000
ASE-RMS
2.058000
2.556000
4.681000
2.147000
ASE vs.
RMS
Contagem
dos
melhores
erros
sub
5
sub
7
sub
2
sub
4
109
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Figura 40 - Modelo com a 1ª melhor classificação no conjunto de 21 testes kriging realizados
Figura 41 - Modelo com a 2ª melhor classificação no conjunto de 21 testes kriging realizados
110
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Figura 42 - Modelo com a 3ª melhor classificação no conjunto de 21 testes kriging realizados
Figura 43 - Modelo com a 4ª melhor classificação no conjunto de 21 testes kriging realizados
111
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Anexos
Tabela 10 - Métodos de cálculo de valores para os polígonos de Voronoi
Método
Descrição
Pode ser aplicado
para determinar...
Simples
O valor atribuído a um dado polígono é o valor
Influência local
registado no ponto amostrado dento desse polígono.
Média
O valor atribuído a um dado polígono é a média
Local Smoothing
calculada dos valores desse polígono e de todas os
polígonos vizinhos (polígonos directamente contíguos).
Moda
Todos os polígonos são agrupados em 5 classes de
Local Smoothing
intervalos. O valor atribuído a um dado polígono é a
moda (a classe com maior frequência de ocorrência)
de um dado polígono e os seus vizinhos.
Cluster
Todos os polígonos são agrupados em 5 classes de
Candidatos a outliers
intervalos. Se o intervalo de um dado polígono é
locais
diferente dos intervalos dos seus vizinhos, esse
polígono é assinalado, diferenciando-se dos restantes.
Entropia
Todos os polígonos são agrupados em 5 classes de
Variação local
intervalos com base num agrupamento natural dos
valores (i.e., smart quantiles). O valor atribuído a um
polígono é a entropia que é calculada entre esse
polígono e os seus vizinhos. A entropia mínima ocorre
quando os valores de um polígono e ser vizinhos
encontram-se todos na mesma classe. A entropia
máxima ocorre quando cada polígono e seus vizinhos
encontram-se em diferentes classes de intervalos.
Mediana
O valor atribuído a cada polígono é o valor da mediana
Local Smoothing
calculada da frequência de distribuição de um dado
polígono e os seus vizinhos.
112
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Desvio Padrão
O valor atribuído a um polígono é o desvio padrão
Variação local
calculado entre esse polígono e os seus vizinhos.
Intervalo inter-
O primeiro e o terceiro quantis são calculados da
quantis
frequência de distribuição de um polígono e os seus
(Interquartile
vizinhos. O valor atribuído ao polígono é calculado
range)
subtraindo o valor do 1º quantil ao valor do 3º quantil.
Variação local
Fonte: JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003).
Ordinário ou normal
dos Indicadores
Erros padrão
probabilidade
Mapa de
Mapa de quantis
Erros padrão (3)
Estimativas
cokriging
Kriging e
Tabela 11 - Resultados por método de interpolação kriging e cokriging
Pressupostos
Parâmetros
Assume uma média
Uma transformação
constante incógnita
apropriada, uma
possível superfície
de anulação de
Sim
Sim
Sim(1)
tendência
Sim(1)
(detrending),
modelos de semivariograma e
vizinhos mais
Simples
Universal
próximos
Assume uma
Sim
Sim
(1)
Sim
(1)
Sim
tendência média
Assume uma média
Sim
Sim
(1)
Sim
(1)
Sim
constante
conhecida
113
Indicador
Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga
Sim
Assume uma média
O threshold,
constante incógnita
modelos de semi-
Sim
variograma e covariância e Vizinhos
mais próximos
Probabilístico
O threshold,
modelos de semiSim
Sim
variograma e covariância e Vizinhos
mais próximos
Uma transformação
Disjuntivo
apropriada e
eliminação da
Sim(2)
Sim(2)
Sim(2)
Sim(2)
tendência, modelos
de semi-variograma
e co-variância e
Vizinhos mais
próximos
(1) Parte do pressuposto de que se trata de uma distribuição normal.
(2) Parte do pressuposto de que se trata de uma bivariação normal para cada par de amostras.
(3) um mapa de erros padrão quantifica a incerteza da estimativa. Se os dados vêm de uma distribuição normal, o valor
correcto será ± 2 vezes os erros padrão da estimativa, 95% das vezes aproximadamente.
Fonte: JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003).
114