tese - Engenharia Geoespacial
Transcrição
tese - Engenharia Geoespacial
UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ENGENHARIA GEOGRÁFICA, GEOFÍSICA E ENERGIA ELEGIBILIDADE E QUALIFICAÇÃO DA REDE DE COBRE PARA SERVIÇOS DE TELECOMUNICAÇÕES DE BANDA LARGA Raquel Pereira Carvalho Programa de Estudos Pós-Graduados em Engenharia Geográfica e GeoInformática Especialização em Sistemas de Informação Geográfica 2008 UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ENGENHARIA GEOGRÁFICA, GEOFÍSICA E ENERGIA ELEGIBILIDADE E QUALIFICAÇÃO DA REDE DE COBRE PARA SERVIÇOS DE TELECOMUNICAÇÕES DE BANDA LARGA Raquel Pereira Carvalho Orientador: Prof. João Catalão Programa de Estudos Pós-Graduados em Engenharia Geográfica e GeoInformática Especialização em Sistemas de Informação Geográfica 2008 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Resumo No mercado das telecomunicações, a falta de informação técnica e geográfica sobre a rede de cobre pertencente ao Operador Histórico é um dos pontos críticos que enfrentam os Operadores Entrantes para a sua utilização. Neste contexto, apresenta-se uma metodologia que, aproveitando a informação gerada pelas tecnologias mais recentes relativamente a serviços de banda larga sobre esta rede, permite: (1) definir classes de elegibilidade de serviço e (2) contribuir para a qualificação da rede de cobre. Em termos práticos, a elegibilidade e a qualificação podem contribuir para orientar com grande precisão a acção de uma força de vendas, desencadear campanhas de marketing directo com ofertas personalizadas para cada casa de uma dada área onde se planeie fornecer serviços de banda larga, prever zonas problemáticas e entender melhor o comportamento da rede de cobre. Para isso, propõe-se a utilização de técnicas da análise espacial e geoestatística para o cálculo da probabilidade de fornecer um dado serviço numa dada área, com base em medições de sinal eléctrico, georreferenciadas e distribuídas aleatoriamente numa dada rede de acesso local nacional. Os resultados obtidos mostram que faz sentido utilizar as técnicas geoestatística estocásticos (normalmente aplicadas às ciências da Terra); permitem não só interpolar valores desconhecidos em localizações não observadas, mas também calcular mapas de erro das interpolações e a probabilidade de ocorrerem determinadas classes de serviço em diversas áreas. A possibilidade de quantificar o grau de confiança das classes de elegibilidade, por se acrescentar uma dimensão experimental às técnicas mais comuns para as definir - que se baseiam em distâncias lineares ou sobre eixos de via e cujos parâmetros derivam apenas de dados de laboratório -, permite ainda propor áreas para recolha adicional de dados e melhoria dos modelos ajustados. Palavras-chave Telecomunicações, Rede de cobre, xDSL, Banda larga, Análise espacial, Geoestatística, Elegibilidade. iii Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Abstract In the telecommunications market, the lack of technical and geographical information on the copper network owned by the Historic Operator is one of the main issues that the Challenger Operators have to deal with in order to use it as well. In this context, it is presented a methodology which, taking advantage of the information created by the most recent technologies regarding broadband services over this network, allows: (1) the definition of classes of service eligibility and (2) contribute to the qualification of the copper network. In practical terms, the eligibility and the qualification may contribute to guide with great precision the action of a sales force, develop direct marketing campaigns with personalised offers to each house of a given area where it is planned to distribute broadband services, forecast problematic zones and have a better understanding of the copper network behaviour. For this, it is proposed the utilisation of spatial analysis and geostatistic techniques for the calculation of the probability of offering a certain service in a given area, based on measures of electrical signal, georreferenced and randomly distributed in an given national local access network. The results achieved shows that it makes sense to use stochastic geostatistical techniques (usually applied to the Earth sciences); it allows not only interpolating unknown values in non observed locations, but also calculating error maps for the interpolations and the probability of occur certain classes of service in several areas. The possibility of quantifying the confidence level of the eligibility classes, by adding an experimental dimension to the most common techniques to define it – that are based in linear distances or on street axis and which parameters derive only from laboratory data -, allows also to propose areas for additional data collection and improvement of the adjusted models. Keywords Telecommunications, Copper network, xDSL, Broadband, Spatial analysis, Geostatistics, Eligibility. iv Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Agradecimentos Um trabalho do género do que é aqui apresentado, embora seja uma responsabilidade individual, resulta de um esforço colectivo. Esta página de agradecimentos faz honras aos que mais contribuíram para que esta dissertação chegasse a bom porto, mesmo envolvendo uma mudança de País, de armas e bagagens. Agradeço ao Prof. Doutor João Catalão, a imensa paciência e disponibilidade, apoio intelectual, confiança e visão sempre realista dos passos a tomar no meu trabalho. Aos mentores Luís Filipe Tavares, pelo encorajamento e apoio desde o primeiro momento, e ao Yann Guézou, Filipe Simões e Pedro Cavaca que, em momentos diferentes e de forma crítica, rigorosa e criativa sempre estiveram disponíveis para argumentar muitas das ideias aqui apresentadas, dando Norte a esta dissertação. Ao meu actual director, Aditya Gokhale, pelo apoio incondicional e pelo tempo que me deu para avançar na escrita do texto. À Catarina Rodrigues, minha amiga pessoal e colega de mestrado, com quem partilho diversos interesses comuns, pela disponibilidade constante. Ao Rodrigo Curado, que tive do meu lado durante a realização de praticamente todo o mestrado e, não obstante o sacrifício que fizesse, esteve sempre próximo, a apoiar. Por entender o significado da paciência e sempre me ter encorajado a ir mais além das minhas fronteiras. Ao Gonçalo Curado também pela disponibilidade e paciência para me trazer a perspectiva estatística. À restante família Curado, pelo apoio, interesse e apreciação que sempre demonstraram. Aos meus pais, Ilídio e Lurdes, pela sólida formação que me deram e que, especialmente na recta final, em conjunto com a minha amiga Sara Aguiar, fornecerem a base de sustentação que me manteve de pé em momentos mais difíceis, que andaram a par com a responsabilidade de terminar a dissertação. Também à Paula Morais, ao Luís Ferreira e às versões pequenas, que considero os membros mais recentes da minha família. Ao Nelson Luna Silvestre por ter aparecido na altura certa, com experiência em abordagens semelhantes, facilitando o alcance dos objectivos propostos (tanto a nível conceptual como material), trazendo sempre a perspectiva da objectividade científica. v Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Índice I. Introdução........................................................................................................................ 2 1. Objectivos e justificação do tema.................................................................................... 3 2. Elementos sobre o estado da arte .................................................................................. 4 3. Organização sequencial da dissertação ......................................................................... 5 II. Enquadramento teórico ................................................................................................... 7 1. Sobre a rede de cobre................................................................................................... 12 2. Etapas de um projecto de lançamento de uma oferta de banda larga.......................... 22 3. Análise e determinação da elegibilidade....................................................................... 28 4. Dados disponíveis e ferramentas utilizadas.................................................................. 30 III. Metodologia................................................................................................................ 32 1. Princípios da análise geoestatística .............................................................................. 34 2. Técnicas de interpolação geoestatística estocástica .................................................... 38 3. Sumário do problema a resolver com recurso à geoestatística .................................... 43 4. Representação dos dados ............................................................................................ 46 5. Procura de candidatos a outliers globais e locais ......................................................... 47 6. Criação de subconjuntos de dados: treino e teste ........................................................ 49 IV. Análise e Resultados ................................................................................................. 51 1. Análise exploratória de dados ....................................................................................... 51 Histograma .................................................................................................................... 52 Mapas de Voronoi.......................................................................................................... 56 Gráfico de quantis normais............................................................................................ 60 Gráfico de tendência global ........................................................................................... 62 Semi-variância ............................................................................................................... 65 Conclusões da análise exploratória de dados ............................................................... 72 2. Análise estrutural........................................................................................................... 75 Variografia ..................................................................................................................... 78 Interpolação kriging ....................................................................................................... 86 3. Validação dos resultados .............................................................................................. 89 vi Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Resultados dos testes kriging........................................................................................ 92 V. Discussão, Conclusões e Recomendações ................................................................ 100 Referências bibliográficas................................................................................................... 103 Documentos impressos................................................................................................... 103 Documentos electrónicos ................................................................................................ 104 Páginas Internet .............................................................................................................. 105 Apêndices ........................................................................................................................... 108 Anexos ................................................................................................................................ 112 vii Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Lista de Figuras Figura 1 - Exemplo de rede de comunicações ....................................................................... 8 Figura 2 - Detalhe de uma rede de acesso local .................................................................. 10 Figura 3 - Serviços de banda larga através da rede de cobre.............................................. 13 Figura 4 - Exemplo conceptual da rede de cobre ................................................................. 14 Figura 5 - Tecnologias xDSL, capacidades e distâncias alcançadas ................................... 16 Figura 6 - Exemplos de configurações nos pares de cobre.................................................. 17 Figura 7 - Exemplos de degradação do sinal digital com impacto na imagem ..................... 20 Figura 8 - Identificação de causas e sintomas de possíveis problemas ............................... 21 Figura 9 - Exemplo da hierarquia de uma rede nacional de telecomunicações (caso português)............................................................................................................................. 22 Figura 10 - Etapas-tipo de um projecto de prestação de serviços de telecomunicações ..... 23 Figura 11 - Equipamentos no Cliente, consoante o produto/serviço contratado .................. 26 Figura 12 - Coberturas teóricas e teórico-real para tecnologias xDSL ................................. 29 Figura 13 - Mapa de Voronoi sobre o conjunto de dados originais de observações de atenuação ............................................................................................................................. 33 Figura 14 - Fluxograma......................................................................................................... 44 Figura 15 - Dados originais e dados de análise (sem valores de corte) ............................... 45 Figura 16 - Candidatos a outliers globais e locais ................................................................ 48 Figura 17 - Histograma dos dados de análise exploratória .................................................. 53 viii Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Figura 18 - Localização espacial das observações segundo as classes do histograma, para identificação de candidatos a outliers ................................................................................... 56 Figura 19 - Cálculo dos polígonos de Voronoi...................................................................... 57 Figura 20 - Mapa de Voronoi, segundo o método cluster..................................................... 58 Figura 21 - Mapa de Voronoi, segundo o método entropia .................................................. 59 Figura 22 - Gráfico de quantis normais dos dados de análise exploratória .......................... 61 Figura 23 - Gráfico de tendência global dos dados de análise exploratória ......................... 64 Figura 24 - Fórmula de cálculo da semi-variância e gráfico de semi-variância empírica ..... 66 Figura 25 - Semi-variograma empírico dos dados de análise exploratória........................... 68 Figura 26 - Localização das amostras que apresentam maior semi-variância ..................... 69 Figura 27 – Exploração de influências direccionais nos dados de análise exploratória ....... 71 Figura 28 - Candidatos a outliers identificados na análise exploratória de dados ................ 74 Figura 29 - Distribuição espacial dos dados de treino e teste para a análise estrutural....... 75 Figura 30 – Processo de análise kriging............................................................................... 77 Figura 32 - Anatomia do semi-variograma............................................................................ 80 Figura 33 - Alguns dos modelos teóricos de semi-variograma possíveis ............................. 81 Figura 35 - Parâmetros de modelação da área de influência a aplicar sobre os dados de análise estrutural................................................................................................................... 82 Figura 36 - Modelo com a 1ª melhor classificação no conjunto de 4 testes kriging realizados para dos dados originais....................................................................................................... 94 Figura 37 - Gráficos dos erros de interpolação kriging para o melhor modelo dos dados originais em comparação com o mesmo modelo para os dados de treino........................... 95 ix Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Figura 38 - Mapa de interpolação kriging dos valores de atenuação para o conjunto de dados sem candidatos a outliers e para o conjunto de todos os dados (com os candidatos a outliers) ................................................................................................................................. 96 Figura 39 - Mapa de Erro Padrão kriging dos valores de atenuação para o conjunto de dados sem candidatos a outliers e para o conjunto total de dados (com os candidatos a outliers) ................................................................................................................................. 97 Figura 40 - Probabilidade de elegibilidade Triple Play, com base nos dados de treino........ 98 Figura 41 - Probabilidade de elegibilidade Triple Play, com base nos dados originais ........ 99 Figura 43 - Modelo com a 1ª melhor classificação no conjunto de 21 testes kriging realizados............................................................................................................................ 110 Figura 44 - Modelo com a 2ª melhor classificação no conjunto de 21 testes kriging realizados............................................................................................................................ 110 Figura 45 - Modelo com a 3ª melhor classificação no conjunto de 21 testes kriging realizados............................................................................................................................ 111 Figura 46 - Modelo com a 4ª melhor classificação no conjunto de 21 testes kriging realizados............................................................................................................................ 111 x Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Lista de Tabelas Tabela 1 - Meios de transmissão utilizados nos sistemas de telecomunicações ................... 9 Tabela 2 - Requisitos para lançamento de uma oferta comercial Triple Play....................... 24 Tabela 3 - Métricas teóricas de elegibilidade Triple Play...................................................... 25 Tabela 4 – Divisão do conjunto de dados da análise estrutural, utilizados para os 21 testes de kriging .............................................................................................................................. 87 Tabela 5 - Parâmetros para os 21 testes de kriging, realizados com dados de treino e teste .............................................................................................................................................. 87 Tabela 6 - Conjunto de dados utilizados para os segundos testes de kriging ...................... 93 Tabela 7 - Parâmetros para os segundos testes kriging, realizados com dados de treino e teste incluindo valores candidatos a outliers ........................................................................ 93 Tabela 8 - Resultados das validações do primeiro grupo de testes Kriging, para o conjunto de dados sem candidatos a outliers ................................................................................... 108 Tabela 9 - Resultados das validações do segundo grupo de testes kriging, para o conjunto de dados incluindo os valores candidatos a outliers........................................................... 109 Tabela 11 - Métodos de cálculo de valores para os polígonos de Voronoi ........................ 112 Tabela 12 - Resultados por método de interpolação kriging e cokriging ............................ 113 xi Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Abreviaturas ADSL2+ É uma das tecnologias disponíveis para a Digital Subscriber Line (DSL). O ‘A’ de ADSL2+ significa Assymetric e refere-se à assimetria entre as larguras de banda máximas permitidas em download1 e/ou upload2, respectivamente 24Mbps e 1,4Mbps, com um único par de cobre. É uma das principais tecnologias utilizadas para serviços Triple Play. dB é uma abreviatura de decibel que é uma medida logarítmica que dB expressa a magnitude de uma quantidade física (normalmente, amplitude ou intensidade) relativamente a um nível de referência específico ou implícito. Representa um rácio entre dois níveis de potência, calculado segundo a fórmula dB = log (P1/P2). dBm dBm é uma abreviatura para a potência em decibéis (dB), medida por referência a 1 (um) miliWatt (mW). É utilizada em rádio, microondas e redes ópticas ou de cobre para representar potências absolutas. IPTV É o acrónimo de Internet Protocol Television que consiste num sistema em que é fornecido um serviço de televisão digital sobre uma rede baseada em IP (Internet Protocol), suportada numa infra-estrutura de rede que suporte ligações de banda larga. Também se pode entender IPTV como conteúdos de televisão recebidos pelo utilizador através de tecnologias utilizadas para redes de computadores. Para utilizadores residenciais, a IPTV é muitas vezes entregue em conjunto com VoD (Video on Demand), ao nível dos conteúdos de vídeo, e é normalmente complementada com serviço de acesso à Internet e serviço de voz (VoIP - Voice over IP, ou PSTN – Public Switched Telephone Network). 1 2 Download ou Downstream, refere-se à velocidade de transferência (por exemplo, numa ligação à Internet) na qual os dados são enviados no sentido da rede para o Cliente. O processo que utiliza o downstream é conhecido por download. Upstream ou Upload, refere-se à velocidade de transferência (por exemplo, numa ligação à Internet) na qual os dados são enviados no sentido do Cliente para a rede. O processo que utiliza o upstream é conhecido por upload. xii Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Mbps Acrónimo de megabit per second. Em telecomunicações, a velocidade de transmissão de dados de uma dada tecnologia é medida pelo número máximo de bits transmitidos por unidade de tempo, conhecida por bit rate. É tipicamente medida em múltiplos de unidades bit3 por segundo, no caso de Mbps: 106. SELT Significa Single-Ended Loop Testing; é uma técnica através da qual se obtém informação sobre o par de cobre a partir de uma medição reflectiva. É utilizada para caracterizar e testar o par de cobre durante a fase de préactivação do serviço ou, após o serviço ter sido entregue ao Cliente, para diagnosticar falhas no par de cobre. STB Uma set-top box (STB) ou set-top unit (STU) é um equipamento que se liga a uma televisão e a uma fonte externa de sinal, cuja função é descodificar o sinal transformando-o em conteúdos que são visualizados num monitor de televisão. 3Play Refere-se ao pacote comercial de um conjunto de três serviços, denominados Triple Play: IPTV (televisão/vídeo), VoIP (voz) e acesso Internet (dados). Actualmente, fala-se também em Quadruple Play, que é o mesmo que 3Play mas acrescido do factor mobilidade ao pacote de serviços. xDSL DSL significa Digital Subscriber Line, linha de subscritor digital. A letra ‘x’ refere-se a uma série de possíveis tecnologias sobre DSL, que permitem entregar serviços de telecomunicações a uma taxa suficiente para suportar um conjunto de serviços digitais. As diferentes tecnologias variam entre si consoante as diferentes técnicas de modulação de sinais eléctricos, traduzindo-se em diferentes velocidades de transmissão de dados versus a distância física entre o equipamento do Operador de telecomunicações e o equipamento do Cliente. 3 Binary digit ou dígito binário, com valores possíveis de 0 ou 1. É a unidade básica de armazenamento da informação e comunicação. xiii Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga I. Introdução No cenário de liberalização do mercado das telecomunicações (que em geral se revela lenta e o caso português não é excepção), os Operadores Entrantes4 vêem-se confrontados com falta de informação sobre a rede pertencente ao Operador Histórico5 que, necessariamente, têm de utilizar para fornecerem parte dos seus serviços e conquistarem quota de mercado que justifique o negócio. Esta falta de informação (entre outros constrangimentos de carácter técnico que podem justificar o interesse do âmbito desta dissertação também para Operadores Históricos), é um dos pontos críticos para os Operadores Entrantes, no que diz respeito à rede de cobre enquanto meio de transmissão de serviços de telecomunicações. Vinga assim a necessidade de encontrar forma de suprir as lacunas de informação sobre a rede de cobre para garantir uma melhor qualidade de serviço, seja qual for o tipo de Operador de telecomunicações (Entrante ou Histórico). Assim, desde o que é a rede de cobre enquanto meio de transmissão e as actuais tecnologias xDSL6 para serviços de banda larga sobre este meio de transmissão, parte-se para a aplicação e experimentação de técnicas avançadas de análise espacial e geoestatística. O objectivo final desta dissertação é propor uma abordagem para a definição de classes de elegibilidade de serviço e tentar contribuir para uma qualificação da rede de cobre, integrando questões técnicas sempre com uma perspectiva espacial, geográfica. Esta abordagem será um auxiliar para definir a melhor metodologia a aplicar na criação de informação espacial relevante e com sentido estratégico-financeiro e operacional, sobre a elegibilidade diferenciada de serviços de banda larga através da rede de cobre. Concretamente, espera-se que os resultados possam contribuir para, por exemplo, orientar com grande precisão a acção de uma força de vendas de um Operador de telecomunicações, ou desencadear campanhas de marketing directo com ofertas 4 5 6 Os novos Operadores, que entram no mercado das telecomunicações aquando um processo de liberalização. O primeiro Operador no mercado das telecomunicações, o que já está estabelecido quando surge o processo de liberalização do mercado. Cf. Abreviaturas. 2 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga personalizadas para cada casa de uma dada área onde se pretenda fornecer serviços de banda larga, com o máximo de precisão. Finalmente, pretende-se contribuir para conhecer melhor a rede, tentando contornar o problema da falta de informação, contribuindo para uma melhor coordenação das áreas de apoio ao Cliente e engenharia na resolução dos problemas que possam surgir no terreno. 1. Objectivos e justificação do tema O objectivo da presente dissertação é explorar técnicas de análise espacial e geoestatística com aplicação ao sector das telecomunicações, de forma a poder determinar classes de elegibilidade para serviços de banda larga sobre a rede de cobre e, tentar qualificá-la para esses serviços - estimando a probabilidade de ocorrência de problemas, de modo a evitar custos operacionais incomportáveis. Tanto para a elegibilidade como para a qualificação, terão de ser tidos em consideração elementos fundamentais como: • As características gerais de uma rede de cobre; • As possibilidades tecnológicas actuais para a prestação de serviços de telecomunicações de banda larga sobre esse tipo de redes; • Medições de atenuação7 de sinal, efectuadas em pontos terminais aleatórios (casas de Clientes potenciais) numa dada rede de cobre concreta; e, • A localização e distribuição das medições de atenuação de sinal – com as quais se espera poder contribuir para conhecer melhor a distribuição geográfica das potencialidades da rede de cobre sobre a qual foram efectuadas as medições (conhecimento essencial para a sua qualificação). 7 Que é a quantificação da redução da amplitude e intensidade de um sinal. A atenuação é uma propriedade importante em telecomunicações, para determinar a força de um sinal em função da distância. É normalmente medida em unidades de decibéis (dB, cf. Abreviaturas) por unidade de comprimento de um dado meio (dBm, dB/cm, dB/km, etc.). 3 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Além dos elementos apontados, a análise é realizada do ponto de vista do Operador Entrante no mercado de liberalização das telecomunicações; portanto, é realizada a partir de um conjunto discreto de valores de atenuação de sinal numa dada área de estudo. 2. Elementos sobre o estado da arte A escolha do tema não foi alheia ao motivo habitual da identificação de um problema relevante (sobretudo a nível profissional, neste caso) e que ainda não tenha sido investigado. Após a escolha do tema, com uma pesquisa mais aprofundada sobre o que existe, não foi encontrado nada do género do que é proposto realizar, aplicado ao mesmo âmbito. Existe muita informação e investigação quer sobre redes de telecomunicações, bem como sobre análise espacial e geoestatística mas sempre aplicadas a estudos de fenómenos naturais (geológicos, etc.) e/ou sociais (propagação de doenças, etc.), entre outros que não de telecomunicações - embora se encontrem problemas de complexidade relativamente semelhante. São exemplos destas observações as Referências Bibliográficas desta dissertação. Nas referências de telecomunicações não se encontram referências a técnicas da análise espacial e geoestatística aplicadas aos vários tipos de rede; nas referências de análise espacial e geoestatística, não se encontram referências a aplicações no campo das telecomunicações. Uma das razões poderá ser a origem relativamente recente da análise espacial e muito em particular da geoestatística (década de 1960 – SOARES, 2006), dinamizada pela necessidade inicial de resolução de problemas típicos da geologia e, mais tarde, do foro ambiental, em sentido lato. Por outro lado, tem-se a origem também relativamente recente das tecnologias xDSL nas telecomunicações, cujas primeiras referências relativamente à tecnologia que aqui se irá analisar (o ADSL2+8) são posteriores ao ano de 20009. 8 9 Cf, Abreviaturas. http://www.dslprime.com/a/adsl21.pdf 4 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Em termos de proposta e soluções, a inovação prende-se com a aplicação de técnicas já conhecidas e experimentadas no âmbito da análise espacial e da geoestatística às telecomunicações, em particular, a medições realizadas sobre a rede de cobre enquanto meio de transmissão. No ambiente de trabalho empresarial, é comum aplicarem-se técnicas determinísticas da análise espacial no dia-a-dia das operações, ou na definição de estratégias de negócio no âmbito do mercado das telecomunicações; mas não a aplicação de técnicas de análise espacial estocásticas, em conjunto com a engenharia e operação de tecnologias de banda larga sobre a rede de cobre. Com a evolução tecnológica acelerada, com o aumento da diversificação (2Play, 3Play ou 4Play), a concorrência a aumentar (cujos exemplos portugueses são: Sapo, Meo, ClixSmartv, Vodafone Casa) e os consumidores cada vez mais exigentes, a necessidade de prever correctamente que tipo de serviço se pode fornecer em dada localização é fulcral para ir de encontro à promessa efectuada pelos Operadores bem como para minimizar os custos de operação de forma a conseguir maximizar as receitas de um Operador de telecomunicações. No âmbito da parte curricular do mestrado, para o qual se apresenta esta dissertação, foram realizados estudos e testes experimentais das contribuições que a análise espacial de superfícies e a geoestatística podem dar aos problemas de definição da elegibilidade e qualificação da rede de cobre. A hipótese colocada, que serviu de alavanca para a presente dissertação, era explorar a possibilidade de quantificar a probabilidade de fornecer um dado serviço de banda larga, permitindo identificar claramente quem são os Clientes ou possíveis Clientes, numa dada área delimitada. Por questões de confidencialidade profissional, não é possível referenciar sempre todas as fontes das afirmações presentes neste documento; nos casos em que isso acontece, os resultados expostos devem-se a experiências realizadas e conhecimento adquirido no âmbito da experiência profissional. Estão, no entanto, devidamente assinaladas as fontes nas Referências Bibliográficas, ainda que em sentido genérico. 3. Organização sequencial da dissertação A presente dissertação está estruturada em quatro partes: 5 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 1. Enquadramento teórico, Onde se pretende familiarizar o leitor com a problemática em questão e auxiliar a compreender melhor o estudo apresentado, fornecendo elementos sobre as redes de cobre e as questões ligadas à definição da elegibilidade e qualificação dessa rede para serviços de telecomunicações de banda larga; 2. Metodologia, Características mais marcantes do problema em análise, com descrição dos passos dados para a sua resolução; 3. Análise e Resultados, Análise exploratória de dados com apresentação dos resultados obtidos (quantitativos e/ou qualitativos) e avaliação do desempenho dos modelos aplicados; e, 4. Discussão, Conclusões e Recomendações, Síntese de resposta aos objectivos estipulados, salientando as limitações do trabalho elaborado, recomendações para estudos futuros e as implicações dos resultados obtidos para um Operador de telecomunicações. 6 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga II. Enquadramento teórico O processo de liberalização na Europa tem vindo a ser imposto e supervisionado pela União Europeia, desde 1987, promovendo a reestruturação e privatização dos monopólios estatais, através da liberalização dos respectivos mercados do sector das infra-estruturas – onde se incluem as telecomunicações. Além do Mercado Único, outro objectivo geral deste processo é o de melhorar o acesso à Sociedade da Informação; uma sociedade em que a vida económica e cultural está dependente da informação e das tecnologias para a comunicação (BANGEMANN, 2004). Em Portugal, o processo de liberalização tem sido levado a cabo em diferentes fases e para diferentes tipos de rede; decorre desde 1 de Janeiro de 2000, data da liberalização total do mercado das telecomunicações português e altura em que as expectativas relativamente à liberalização eram a de uma melhoria da qualidade e/ou preço10. Relativamente à rede de cobre, o processo teve início operacional em 200111. Mesmo num cenário de liberalização das redes de telecomunicações, os Operadores Históricos continuam tradicionalmente a monopolizar o mercado, mantendo as suas posições dominantes desde o primeiro momento. São eles que controlam o acesso às redes que detêm, o que determina que a liberalização seja lenta, embora estes mercados sejam vigiados e regulados por entidades nacionais independentes12 criadas para esse efeito: regular o mercado e assegurar que as condições de concorrência são iguais para todas as partes. Embora os Operadores Entrantes consigam ter capacidade financeira para implementar uma rede nacional de transporte13, é financeiramente impraticável para um Operador (sobretudo um Entrante) construir uma rede de acesso14, de carácter nacional e alternativa à rede de cobre de um Operador Histórico. Isto deve-se principalmente devido à capilaridade da rede de cobre que tradicionalmente é a que chega a cada casa. Para compreender melhor a questão financeira veja-se o seguinte exemplo: 10 11 12 13 14 http://www.icp.pt/render.jsp?categoryId=17849. Ano da primeira versão da Oferta de Regulação do Acesso ao Lacete Local (ORALL); lacete local ou par de cobre. No caso português é a ANACOM, a Autoridade Nacional das Comunicações. À qual estão associadas as redes de acesso, que podem ser de cobre, fibra óptica, rádio, etc. Seja de cobre, fibra, etc. 7 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 3. Redes Metropolitanas 1. Os Clientes 2. Rede de transporte 4. Rede de acesso local Figura 1 - Exemplo de rede de comunicações Utilizando a rede viária nacional portuguesa como metáfora de uma rede de telecomunicações para ligar os seus Clientes (os habitantes das sedes de Concelho, neste exemplo), verifica-se que: em primeiro lugar o Operador tem de construir uma rede nacional de transporte. Numa primeira fase, liga apenas algumas das cidades mais importantes a nível nacional (por exemplo: Porto, Lisboa e Faro). De seguida, o Operador começa a capilarizar a sua rede para alcançar mais cidades, agora capitais de Distrito, onde se concentre um maior número de habitantes, potenciais Clientes, e finalmente desenvolve uma rede de acesso de tal modo capilar que chegue não só a todas as cidades sede de Concelho mas também a cada uma das suas freguesias, a cada um dos seus arruamentos, até à casa de cada habitante. Tudo isto representa tempo e um esforço financeiro muito grande para implementar, por isso se compreende facilmente porque é que os Operadores Históricos, no início de um processo de liberalização, são detidos pela entidade Estado. Ora, um Operador Entrante terá capacidade financeira para investir numa rede de transporte, algumas redes metropolitanas e, dentro dessas redes metropolitanas, em 8 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga algumas áreas mais localizadas (utilizando ou não a rede já instalada do Operador Histórico). Parte da rede dos Operadores Entrantes é invariavelmente alugada ao Operador Histórico, por questões de custo. Como indica a Tabela 1, essa parte da rede, devido à sua capilaridade é precisamente a rede de cobre (cabos metálicos); aliás, é esse o objectivo da liberalização, partilhar uma rede que já existe com mais concorrentes, para fornecer serviços diferenciados num mercado de livre concorrência, regulado por uma entidade independente. Tabela 1 - Meios de transmissão utilizados nos sistemas de telecomunicações Vantagens e Desvantagens Cabos metálicos Sistemas via rádio Fibra óptica • Cobrem curtas distâncias; • Largura de banda média; • Difíceis de implantar e manter; • Alto custo de implantação • Cobrem longas distâncias; • Largura de banda não é de alta capacidade; • Facilidade de instalação e expansão; • Custo baixo • Cobrem longas distâncias; • Largura de banda elevada; • Difíceis de implantar e expandir; • Custo elevado Fenómenos X atmosféricos Dificuldades Mão-de-obra X X X X X X Custo X X Expansão X X Infra-estrutura do sistema Manutenção do sistema Fonte: Adaptado de RODRIGUES; SOBRAL (2002). A liberalização em Portugal tem tido novidades sobretudo ao nível das redes de acesso local. Actualmente, podem-se fornecer serviços xDSL recorrendo: 1. Directamente à rede de cobre do Operador Histórico15; 15 Opção regulada pela Oferta de Acesso ao Lacete Local (ORALL). 9 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 2. Indirectamente16; ou 3. Implantando novo cobre até à casa dos Clientes. A opção do acesso directo permite diferenciação nas ofertas, sinergias entre os vários negócios ou produtos de um Operador e o custo é mais apelativo. A opção de recorrer indirectamente ao cobre do Operador Histórico não é interessante pelas limitações impostas pela própria oferta do Operador Histórico, bem como pelo seu custo elevado. Na opção de implantar novo cobre coloca-se a questão de porquê não implantar antes uma rede de fibra óptica, que permite larguras de banda maiores; tem também um custo elevado, uma vez que envolve construção civil, por exemplo. Portanto, a opção mais simples é aceder directamente à rede de cobre. Ao nível desta rede, a liberalização consiste no fornecimento de serviços grossistas e retalhistas a Operadores Entrantes, através do arrendamento dos pares de cobre que chegam à casa dos seus Clientes finais. Figura 2 - Detalhe de uma rede de acesso local 16 Opção regulada pela Oferta de Acesso Indirecto: Rede ADSL PT. 10 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Nesta opção, para aceder à rede de cobre é necessário aceder à Central17 da Área Local18 (Figura 2); a partir daí, a possibilidade de serviço depende da distância do Cliente à respectiva Central na respectiva Área Local. Em Portugal, a informação detalhada das Áreas Locais não é partilhada pelo Operador Histórico com os outros Operadores; a informação que é disponibilizada, para caracterização da rede de cobre, é muito vaga sendo impossível saber a priori qual o serviço que é possível fornecer num dado par de cobre. Em termos práticos, o Operador Entrante tem de colocar os seus equipamentos na Central do Operador Histórico, pedir a desagregação dos pares de cobre que servem os seus Clientes, ou seja, arrendar aqueles pares de cobre, para os poder utilizar como meio de transporte dos serviços que os seus Clientes contrataram - na casa dos quais são instalados equipamentos específicos que entregam esses serviços. Regra geral, a liberalização é particularmente lenta, com os Operadores Históricos a colocarem entraves mais ou menos explícitos, principalmente a nível: Da interoperabilidade (trabalhar em conjunto sem problemas); Dos preços de revenda (venda dos serviços grossistas com as mesmas condições contratuais que pratica com os seus serviços de retalho; mudar de rede pode ser caro; etc.)19; e, Da disponibilização de informação (relativamente ao desenho real da rede que liga os Clientes finais e respectivas características técnicas; por exemplo: o calibre dos cabos de cobre). Este caso é muito relevante no panorama nacional. Por estes motivos e olhando para as especificidades do caso português: • Os Operadores, na condição de Entrantes, não conhecem a localização dos cabos da rede de cobre do Operador Histórico nem as suas características técnicas específicas 17 18 19 (apenas são conhecidas características-tipo e frequências de Edifício onde terminam as ligações físicas dos pares de cobre, vindos directamente da casa dos Clientes. Área delimitada onde se localizam todos os Clientes e possíveis Clientes caracterizados por pertencerem ao mesmo bloco de numeração telefónica (conjunto discreto de possíveis números de telefone, definido de forma geográfica) que normalmente está associado a uma Central específica. Por exemplo, devido aos preços de revenda praticados pela Portugal Telecom, demasiado elevados, o Clix suspendeu a venda dos seus serviços ADSL em Janeiro de 2004 (http://www.sonaecom.pt/channelDetail.aspx?channelId=EA0B77899D90-4116-863C-7D8E9200C48D). 11 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga distribuição sem qualquer correlação geográfica), que podem facilitar ou não a propagação do sinal através desses cabos; • Assumindo a condição de Operador Entrante, acresce a utilidade e necessidade do recurso às técnicas de análise espacial e geoestatística estocástica para aferir classes de serviço elegíveis para diferentes tipos de serviços de banda larga; e, • É uma necessidade, para aumentar a taxa de penetração, qualificar o melhor possível as características da rede de cobre para as várias possibilidades de serviços de telecomunicações de banda larga (qualquer que seja a tecnologia utilizada) e conhecer a probabilidade de erro que lhes está associada. Banda larga por definição é todo o suporte de transmissão digital superior a 1Mbps20. Nesta dissertação, para a análise proposta considerar-se-ão serviços que requeiram larguras de banda até 24Mbps21 (ADSL2+), onde se incluem serviços não só de voz e dados, mas também de vídeo. 1. Sobre a rede de cobre A necessidade de larguras de banda cada vez maiores e o crescimento da Internet, por exemplo, têm influenciado desenvolvimentos fundamentais na natureza das redes de telecomunicações. Tradicionalmente, o acesso fixo à rede de telecomunicações é suportado por redes de pares de cobre, tendo em conta que outros tipos de rede podem ser financeiramente mais exigentes (por exemplo, redes de fibra óptica, que exigem na sua implementação custos mais elevados devido a implicarem não só trabalhos de construção civil, mas também licenciamentos e equipamentos especiais). A tecnologia tem evoluído também no sentido de desenvolver equipamentos capazes de potenciar a utilização da rede de cobre para serviços de banda (cada vez mais) larga, incluindo cada vez mais serviços de telecomunicações. 20 21 Cf. Abreviaturas. Cf. Abreviaturas. 12 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Do ponto de vista do Cliente de serviços de telecomunicações, aceder à rede de telecomunicações através de pares de cobre, fibra óptica ou outro meio, deve continuar a ser indiferente. O que não é indiferente para o Cliente é a possibilidade de aceder aos serviços de banda larga através de uma única ligação (Figura 3); esse é um factor muito apelativo para o Cliente e nenhum Operador quer inviabilizar a hipótese de ser a primeira escolha de um potencial Cliente. 1 ligação = n serviços Ponto de acesso DSL • Jogos • Video on demand • Sistemas de vigilância • Som digital Ligação com cabo Ligação sem fios Telefone IP • Streaming de vídeo • Impressões e partilha de ficheiros • Ensino à distância • Chamadas de vídeo • Downloads de mp3 Re ce ita • Acesso Internet Impressora Acesso Internet DSL Jogos sem fios • Várias linhas de voz • Impressão sem fios • Telefone IP sem fios A casa digital baseia-se num acesso DSL que distribui um conjunto avançado de conteúdos e serviços de rede numa casa Fonte: Adaptado de DSL Forum. Figura 3 - Serviços de banda larga através da rede de cobre Em termos conceptuais, numa rede de cobre, o terminal do Cliente está ligado a pelo menos um par de cobre, que chega até ao Cliente a partir de um ponto de distribuição (Central) onde o Operador está presente – Figura 4. 13 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Cliente1 Cliente2 Cliente… Central Rede de transporte Clienten Rede de acesso local Figura 4 - Exemplo conceptual da rede de cobre Em termos simples, aparte uma série de outras variáveis e implementações que podem variar de rede para rede, o equipamento localizado no Cliente comunica com os equipamentos localizados na Central. Por sua vez, os equipamentos na Central convertem os sinais eléctricos recebidos do Cliente, separando as baixas frequências, normalmente utilizadas pelos serviços de banda larga, e envia-os para a rede de transporte – onde, se se tratar de uma chamada de voz, ela é encaminhada para o respectivo destino através da rede de voz; e, se se tratar de um pedido de acesso a uma página Internet, por exemplo, o pedido é encaminhado pela rede de dados para os servidores que lhe dão acesso e de novo para o Cliente através do mesmo par de cobre. O Cliente é ligado à rede de telecomunicações pelo interface par de cobre (o meio de transmissão) e a comunicação faz-se através de sinais eléctricos; depois, na rede, pode passar por outros suportes ou meios de transmissão, sejam outros pares de cobre, microondas, fibra óptica ou sistemas de acesso rádio, etc., até chegar ao seu destino. Actualmente, as tecnologias xDSL utilizam técnicas digitais de processamento de sinais eléctricos com frequências que são capazes de potenciar a largura de banda do par de 14 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga cobre para serviços integrados de voz, dados e vídeo (serviços de banda larga) – dependendo apenas do comprimento do par de cobre e da frequência do sinal eléctrico. As razões mais relevantes para implementar tecnologias do tipo xDSL passam: • Pelo facto de não exigirem grandes investimentos em novas infra-estruturas de telecomunicações, uma vez que aproveitam e reutilizam completamente a infraestrutura instalada de transmissão de voz (a tradicional rede de cobre); • Por se tratar de um sistema que se adapta às variações de procura de serviços de telecomunicações por parte dos respectivos Clientes que, actualmente, exigem larguras de banda cada vez maiores - o que é permitido pelos avanços tecnológicos mais recentes que, através da modulação do sinal eléctrico nos pares de cobre, suportam a entrega de serviços mais diversificados e novas aplicações (vídeoconferência, vídeo on demand - VoD, etc.) a esses Cliente finais; • Por, tecnicamente, ser simples de implementar; e, • Por ser uma rede tecnologicamente flexível e sobre a qual a tecnologia tem permitido dar uma resposta à exigência de levar débitos superiores a distâncias cada vez maiores. Como qualquer outra tecnologia, tem também desvantagens; em particular, devido ao facto de se forçar a rede a suportar serviços de largura de banda elevada e da falta de informação cadastral sobre as redes implementadas, das quais se destacam: • As limitações físicas do alcance dos sinais eléctricos (têm um alcance limitado e estão sujeitos a interferências que podem não ser de fácil e correcto diagnóstico e classificação); e, • A restrição da largura de banda em função da distância (com impacto nos serviços a disponibilizar), que varia consoante a tecnologia – Figura 5. 15 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Velocidade/Largura de banda Tecnologia Downstream Upstream Suporta dados e voz? Pares de cobre necessários ADSL HDSL RADSL SDSL SHDSL VDSL 1,5 a 6,1Mbps 1,5Mbps 1 a 7Mbps 2,3Mbps 2,3Mbps Até 52Mbps 64 a 640Kbps 1,5Mbps 128Kbps to 1Mbps 2,3Mbps 2,3Mbps Acima de 1,5Mbps Sim Não Sim Não Não Sim 1 2a3 1 1 1a2 1 Alcance de transmissão, com 1 par de cobre Æ 3 km 2 km ADSL 1 km SDSL/SHDSL RADSL VDSL Fonte: Adaptado de NEXTEP Broadband, 2001, p.8. Figura 5 - Tecnologias xDSL, capacidades e distâncias alcançadas Relativamente aos problemas que podem ocorrer na rede de cobre, de entre alguns dos principais factores de perturbação a considerar, que têm influência na largura de banda passível de ser entregue num dado Cliente, podem listar-se os seguintes como mais frequentes: • Perdas de transmissão por atenuação (qualquer meio de transmissão tem perda em vez de ganho; refere-se à interacção frequência/distância); • Ruído (de interferência - por indução de uma porção de sinal de um par adjacente; térmica; de humidade; etc.); • Distorção (devido à transmissão de ondas de diversos comprimentos no mesmo suporte físico, por exemplo); • A presença de bridged taps (mostrados na Figura 6; caso prático: quando um operador liga um Cliente A, que entretanto deixa de ser Cliente; surgindo um novo pedido de ligação, do Cliente B, relativamente próximo do ex-Cliente A, o Operador pode optar por derivar o cabo de cobre do ex-Cliente A para ligar o Cliente B. Neste 16 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga exemplo, se a configuração da rede se mantiver assim e o Cliente B contratar um serviço xDSL a outro Operador que utilize a rede do primeiro, esse serviço irá percorrer pelos cabos a distância até ao ex-Cliente A e, adicionalmente, a distância desse ex-Cliente A até ao Cliente B – isto é, uma distância superior à que teria de percorrer se fosse directamente para o Cliente B, o que tem impacto na qualidade do serviço); • Filtros colocados nas linhas de cobre que impedem a bi-direccionalidade; • O calibre das linhas de cobre (impedância); entre outros problemas. Perdas de transmissão por atenuação comprimentos diferentes Cliente A Cliente B Bridged taps Æ Cliente n Impedância Cabo de calibre X Cabo de calibre Y Emendas nos cabos de cobre para estender o alcance, por exemplo Fonte: Adaptado de COURTNEY (2000). Figura 6 - Exemplos de configurações nos pares de cobre Os departamentos de Engenharia dos Operadores têm formas de contornar estes problemas-tipo, por exemplo: • Com mecanismos de gestão dinâmica do espectro, tentando melhorar a estabilidade do sistema e imunidade às alterações do meio físico; • Aproveitando as capacidades do meio físico, adaptando a capacidade de cada canal e a taxa de transmissão de dados; e, 17 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga • Optimizando a gestão da potência e redução do ruído em pares de cobre vizinhos. O Regulador tem também um papel importante a desempenhar, no sentido de estabelecer regras para o meio de transmissão rede de cobre que, podendo ser partilhado e utilizado por mais do que um Operador (por exemplo, com a definição de máscaras espectrais, incluídas no documento da Oferta de Regulação do Acesso ao Lacete Local - ORALL), impõe que sejam estabelecidas limitações ao seu uso para evitar problemas. Estes, estão genericamente identificados mas as combinações aleatórias de possíveis problemas podem ser difíceis de prever e, inevitavelmente, causar prejuízo na imagem do Operador junto do Cliente final (por exemplo, atrasos na implementação das mais recentes tecnologias como o VDSL2 que implica alterações na topologia da rede que podem ter impacto na qualidade de serviços de outras tecnologias como o ADSL2+). Em termos de engenharia de telecomunicações, a qualidade da experiência dos serviços de banda larga é um esforço que está sobretudo entre a parte final da rede (ao nível da rede de acesso) e o Cliente. As redes xDSL não têm um comportamento constante e dependem em grande parte do ruído criado pelo meio ambiente envolvente bem como pelo comprimento dos pares de cobre e seus dados intrínsecos, em conjugação com a topologia da própria rede. A elegibilidade dos Clientes depende deterministicamente de todas estas fontes de erro e a forma como a engenharia contorna os problemas técnicos, sendo resultado de um equilíbrio entre técnicas de codificação e descodificação de sinal associadas às características da rede e a mecanismos de qualidade de serviço (qualidade da linha, monitorização e adaptação). Como exemplo prático, da vida profissional, considere-se um serviço 3Play22 a fornecer com a tecnologia ADSL2+, portanto um serviço de voz, dados e vídeo em que a parte de vídeo é a mais sensível aos problemas de rede que podem surgir. Os sintomas mais frequentes de problemas na rede, derivados do envio do sinal, no transporte e/ou na comutação são: • 22 Degradação do sinal digital com impacto na imagem (Figura 7): Cf. Abreviaturas. 18 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga o Blockiness, que acontece quando imagens em movimento rápido são codificadas, é um efeito também conhecido por ‘arrasto’ (mais visível em programas de desporto); o Efeito Gibbs, que é notório através de sombras que aparecem à volta dos objectos, tais como texto e figuras geométricas ou mesmo à volta de contornos de pessoas; o Aliasing, que ocorre normalmente na codificação quando o sinal original contém frequências que são demasiado altas para serem digitalizadas correctamente dada a limitação imposta pelo bit rate desejado; pode ser reduzido aplicando um filtro passa-baixo antes da codificação; o Filtro passa-baixo, que aplicado em demasia faz com que a imagem apresente contornos menos nítidos (esta é uma técnica que pode ser utilizada pelos Operadores para reduzir os ritmos de codificação por remoção das componentes de alta frequência); • Degradação do sinal digital com impacto no áudio e teletexto; • Problemas com a performance do Vídeo on Demand (VoD) e funcionalidades comuns de play, stop, forward, backward, etc.; e, • Tempos elevados de mudança de canal. 19 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Imagem original Degradação do sinal digital Blockiness Aliasing Filtro passa-baixas Imagem original Efeito Gibbs Figura 7 - Exemplos de degradação do sinal digital com impacto na imagem Como sugere a Figura 8, que resume as ligações entre algumas das causas e sintomas dos problemas passíveis de serem detectados num serviço 3Play relativo à televisão, a variação das causas e sintomas dos problemas pode ter flutuações ao longo do tempo e variar dependendo da configuração da rede de acesso local em que se encontra um dado Cliente. 20 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Causas Erros de transmissão nas linhas ADSL2+ Sintomas Degradação do sinal digital Codificação com pouca qualidade Streaming com problemas Qualidade da imagem codificada Problemas na rede de transporte Atrasos na rede Performance do VoD (play, stop, forward, backward, etc.) Recepção defeituosa da fonte de sinal Sensibilidade do receptor Tempos elevados de mudança de canal Figura 8 - Identificação de causas e sintomas de possíveis problemas Finalmente, voltando à analogia do exemplo já dado da rede viária, em termos de telecomunicações, e no que diz respeito à organização da rede de cobre, esta divide-se genericamente nas chamadas Áreas Locais, que são servidas por uma Central23 Principal (e eventualmente uma ou mais Centrais Remotas), e estão integradas em Grupos de Rede (Figura 9). Os Grupos de Rede são áreas delimitadas que agrupam todos os blocos de numeração que começam por um dado indicativo de rede, por exemplo: o Grupo de Redes de Lisboa abrange todos os blocos de numeração24 que começam por 21, etc.. Por sua vez, cada Grupo de Redes subdivide-se noutras áreas mais pequenas, cada uma identificada por um certo intervalo de blocos de numeração; a divisão de maior granularidade corresponde as Áreas Locais e é dentro de cada Área Local que o Operador fornece os serviços de telecomunicações aos seus Clientes. 23 24 O ponto de distribuição do serviço do lado da rede do Operador ate ao Cliente que esta na mesma Área Local. Teoricamente, uma dada Central só serve o conjunto de Clientes situados dentro da sua respectiva Área Local. Números de telefone atribuídos aos Clientes daquela(s) área(s). 21 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Grupos de Rede Conjunto de Áreas Locais Área Local Fonte: Portugal Telecom. Figura 9 - Exemplo da hierarquia de uma rede nacional de telecomunicações (caso português) Esta configuração pode levantar outra questão adicional ao ponto de vista do Operador Entrante: que áreas escolher para fornecer um serviço de telecomunicações de banda larga sobre a rede de cobre? A capacidade de investimento e retorno desse investimento difere de Área Local para Área Local, dependendo do tipo de Clientes ou potenciais Clientes nelas estabelecidos. 2. Etapas de um projecto de lançamento de uma oferta de banda larga Para compreender melhor a questão da elegibilidade e da necessidade de a aferir o mais correctamente possível, é útil pensar-se nas várias fases do que pode ser um projecto de lançamento de serviços de banda larga. Para um projecto de implantação de uma rede de telecomunicações que envolva análise espacial, a experiência mostra que existem 4 fases distintas mas interligadas entre si, que ciclicamente devem ser revistas e acompanhadas, ou em função de se pretender 22 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga implementar uma nova tecnologia ou para acompanhar o desenvolvimento de uma dada tecnologia já em fase de implementação ou implementada (Figura 10). 2. Potencial de mercado (análise de custo/benefício) 1. Características técnicas da solução 3. Preparação do lançamento da oferta Ajuste de parâmetros engenharia, planeamento e estratégia Implementação e acção comercial 4. Acompanhamento pós-implementação Figura 10 - Etapas-tipo de um projecto de prestação de serviços de telecomunicações Para o problema em análise nesta dissertação, os parâmetros de um projecto de lançamento de uma oferta de banda larga utilizando ADSL2+ são os seguintes: Projecto: lançar uma oferta de banda larga, com a possibilidade de fornecer um pacote integrado de serviços de voz, acesso Internet e televisão. 23 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Requisitos: Tabela 2 - Requisitos para lançamento de uma oferta comercial Triple Play Requisito Descrição Satisfação do Cliente Instalação simples. Equipamentos fiáveis, com design apelativo e fáceis de utilizar. Custo competitivo Custo de instalação e manutenção competitivo. Reutilização da rede Instalação não intrusiva, utilizando a rede existente em cada existente (minimização de casa (telefone ou eléctrica, por exemplo) ou alternativas sem custos) fios. Grandes larguras de banda Preparação para o futuro com procuras entre 50 a 100Mbps ou mais. Bom desempenho Latência reduzida e perda de pacotes reduzida a um mínimo para serviços de multimédia em tempo real. Qualidade de serviço Manter qualidade de serviço para canais múltiplos e coexistência de vários tipos de serviços (IPTV, VoIP, etc.). Incluir gestão remota do serviço. Interoperabilidade Compatibilidade com os padrões estabelecidos e os equipamentos em casa do Cliente. 1. Características técnicas da solução: • Tecnologia: ADSL2+; • Meio de transmissão: rede de cobre; • Larguras de banda: até 24Mbps downstream e até 1,4Mbps upstream; • Constrangimentos: 24 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga o Sensibilidade à distância (funciona de forma razoável para Clientes situados até 3Km de rede de cobre da Central respectiva); o Não estar acessível em qualquer Área Local (restrição imposta pelo Operador Histórico); • Métricas teóricas de elegibilidade/desempenho (em laboratório) para o conjunto dos 3 serviços (voz, acesso Internet e televisão): Tabela 3 - Métricas teóricas de elegibilidade Triple Play Atenuação Distância Elegibilidade < 11dBm ± até 270m 11dBm < < 25dBm ± entre 270 e 1150m Elegível para até 2 STB 25dBm < < 40dBm ± entre 1150 e 2100m Elegível para 1 STB > 40dBm Acima de 2100m Elegível para até 3 STB25 Não elegível para o serviço de televisão 25 Cf. Abreviaturas. 25 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Voz Televisão Acesso Internet 1 STB 1 STB 1 STB Porta de acesso DSL Figura 11 - Equipamentos no Cliente, consoante o produto/serviço contratado • Métricas de avaliação de desempenho após a implementação: o Testes de atenuação downstream, em dBm, desde a Central até ao equipamento de Cliente, para linhas sincronizadas com protocolo ADSL2+, e recolha da distância SELT26. Os dados recolhidos devem obedecer aos seguintes critérios de exclusão: o 2,5dBm < atenuação < 90dBm; ou, 250m < SELT < 2800m. Queixas dos Clientes. 2. Avaliação do potencial de mercado (análise custo/beneficio): 26 Cf. Abreviaturas. 26 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga • Georreferenciar Clientes, existentes e potenciais; • Estimar o comprimento dos pares de cobre a partir do cálculo da distância pelos eixos viários de cada número de polícia até à respectiva Central de uma dada Área Local; • Construir um modelo de elegibilidade, por tipo de serviço, com estimativa do erro associado a cada classe de elegibilidade; • Segmentar os Clientes existentes e potenciais por tipo de mercado, serviços, etc.; • Estabelecer estratégias de penetração, fazendo corresponder produtos e serviços com o perfil de Cliente; • Prever o volume de vendas; • Prever acções dos Operadores concorrentes e dos Clientes; • Prever problemas operacionais (áreas de indisponibilidade de serviço, etc.). 3. Preparação do lançamento da oferta: • Preparar a campanha de Marketing de acordo com as características dos produtos ou serviços (por exemplo, comunicar larguras de banda ‘até 24Mbps’ em vez de ‘24Mbps’; deixar em aberto uma margem para possíveis erros, protegendo a imagem junto do Cliente ou possível Cliente); • Preparação da força de vendas e áreas de suporte (aprovisionamento, centro de apoio ao Cliente, etc.); • Preparar material para operações de Marketing Directo com o objectivo de aumentar a rentabilidade das campanhas e reforçar o lado personalizado da acção de Marketing, para fidelizar o Cliente; distribuir promoções, etc.; • Planear a alocação de recursos para angariar, promover e receber os Clientes. 27 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 4. Pós-implementação • Analisar a aceitabilidade, fidelidade e satisfação dos Clientes relativamente aos produtos ou serviços; • Estudar e ajustar a parametrização das áreas de influência dos produtos ou serviços fornecidos; • Avaliar resultados técnicos; • Refinar a rede de distribuição: decidir sobre novas localizações, identificar áreas não cobertas/exploradas, razões, etc.; e, • Propor áreas para recolha de dados adicionais. 3. Análise e determinação da elegibilidade Na fase de análise custo/benefício do projecto, um dos passos importantes é aferir a elegibilidade dos Clientes e possíveis Clientes para os vários tipos de produtos ou serviços. Não existindo medições de atenuação para as áreas em avaliação, a única solução é recorrer-se aos parâmetros de elegibilidade teórica de serviço para produzir mapas de cobertura teórica, com base em eixos de via (Figura 12, Cobertura teórica 2) ou ainda, numa versão mais simplista mas por vezes a única possível, com zonas concêntricas de distâncias lineares em torno da Central27 (Figura 12, Cobertura teórica 1). Ambos os métodos consideram, em função da tecnologia, intervalos de distâncias pré-definidos em laboratório a cada Central numa dada Área Local. Estes tipos de classificação da elegibilidade permitem efectuar cálculos para aferir o potencial de cada Área Local, ainda que grosseiros. Na fase de implementação da tecnologia, começam a recolher-se informações sobre os pares de cobre dos vários Clientes angariados que sugerem outro tipo de aproximações de 27 Adequada a casos de redes locais para as quais não exista cartografia e como modelo de estudo teórico, por exemplo. 28 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga análise espacial, mais complexas, que não só permitem aumentar a precisão da elegibilidade como determinar qual o grau de confiança atribuído às classes de elegibilidade interpoladas, sendo possível calcular coberturas teórico-reais de elegibilidade, isto é, com base em valores reais medidos no campo interpolar valores para áreas não conhecidas (Figura 12, Cobertura teórico-real). Cobertura teórica 1 Cobertura teórico-real Cobertura teórica 2 Figura 12 - Coberturas teóricas e teórico-real para tecnologias xDSL A técnica utilizada para produzir a cobertura teórico-real apresentada na Figura 12 foi um estimador estocástico, denominado kriging. Sendo um método de interpolação geoestatístico, tenta quantificar não só a estrutura espacial da atenuação mas também avaliar a incerteza ligada à caracterização espacial da atenuação, ambos fundamentais para a definição da elegibilidade e qualificação de uma dada rede de cobre. Se na fase de análise custo/benefício já existirem medições de atenuação de Clientes de teste pode-se, por exemplo, com esses dados começar a explorar estimadores estocásticos e interpolar classes de atenuação à Central, criando mapas de valores interpolados em função dos valores amostrados, que podem contribuir para uma melhor caracterização do terreno da respectiva Área Local. 29 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Com os resultados deste tipo de análise espera-se poder contribuir para orientar com um grande grau de precisão as operações de um Operador face aos seus Clientes e potenciais Clientes, chegando até eles consoante o perfil do Cliente, segundo a sua localização geográfica, e com a menor margem de erro possível. A determinação das áreas de influência e da melhor cobertura são essenciais para o sucesso de um Operador de telecomunicações, com impacto ao nível das vendas e, consequentemente, no alargamento da sua rede de operação e sucesso no mercado liberalizado, onde o objectivo é conquistar quota de mercado. 4. Dados disponíveis e ferramentas utilizadas Para a investigação sobre o tema proposto, conta-se com a seguinte informação: Medições de atenuação média máxima mensal, georreferenciadas e distribuídas aleatoriamente numa dada área de rede de acesso local nacional; Cartografia de base à escala 1/2000 (rede viária, edifícios e números de polícia); e, Informação geográfica do INE, dos Censos 2001 (com informação sobre a data de construção dos edifícios). A área de estudo é real mas por questões de confidencialidade será sempre designada de Área Local, bem como a Central, que será apenas designada de Central. O software utilizado, para os cálculos de análise espacial que se apresentam a seguir, é o ArcGIS 9.2 (com a extensão Geostatistical Analyst), por uma questão de disponibilidade e por ser um software comercial, partindo-se do pressuposto de que num qualquer Operador de telecomunicações este será uma das possibilidades disponíveis para o tipo de abordagens que se propõe. Existem, no entanto, outras opções de software comercial e não-comercial para realizar a mesma análise aqui apresentada. Os algoritmos podem apresentar algumas variações de ajuste de software para software, assim como a forma de apresentação dos dados pode apresentar algumas diferenças. A título de exemplo, não exaustivo, a escolha do software para este tipo de análises poderia de igual modo passar pelos seguintes, entre outros: 30 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga • GEOEAS, não-comercial, http://www.epa.gov/ada/csmos/models/geoeas.html; • SURFER, comercial, http://www.ssg-surfer.com/ssg/detailed_description.php?products_id=135#features; • KGRASS, não-comercial, http://www.institutoecos.org.br/br/software/geolinux/kgrass.htm • R, não-comercial http://www.r-project.org/ • TerraLib, não-comercial, http://www.terralib.org/index.php 31 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga III. Metodologia Esta parte da dissertação compreende os conceitos teóricos que justificam a escolha da análise geoestatística estocástica para tentar definir a elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga, conforme os parâmetros definidos no capítulo anterior. Abordam-se as características mais marcantes do problema em análise e da sua resolução, incluindo a descrição dos passos dados e conceitos teóricos inerentes. Os métodos geoestatísticos são suficientemente gerais para poderem ser aplicados em vários domínios onde se pretenda tratar numericamente variáveis que medem fenómenos espaciais, como é o caso das telecomunicações. Este tipo de variáveis dependem fortemente da localização espacial e neste cenário coexistem aspectos: • Aleatórios, que reflectem a variação imprevisível entre os valores observados em localizações diferentes; e, • Estruturais, que traduzem correlações existentes entre diversas observações na área onde o fenómeno espacial ocorre.28 Apesar dos aspectos aleatórios – que podem determinar eventuais comportamentos anisotrópicos segundo a direcção em que o fenómeno se observa -, pode dizer-se que existe, regra geral, uma certa continuidade espacial que é global ao fenómeno em análise. Poderão identificar-se direcções preferenciais de continuidade espacial ao longo de redes de cobre de diferentes idades, por exemplo, onde é plausível registarem-se comportamentos igualmente diferentes. Estas características, que se adequam à variável dos valores de atenuação aqui analisada justificam a escolha metodológica dos métodos estocásticos da geoestatística para a tratar. Como se pretende extrair conclusões quantitativas acerca da atenuação, torna-se necessário encontrar um modelo capaz de descrever da forma mais rigorosa possível o seu 28 SOUSA; MUGE (1990). 32 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga comportamento. Estes modelos, como apresentado no capítulo anterior, podem assumir várias formas, consoante a fase de projecto em que se estiver. Os esquemas apresentados de elegibilidade teórica são simplistas e constituem uma aproximação grosseira da realidade. Mesmo utilizando métodos geoestatísticos determinísticos, baseados em malhas de polígonos, como o caso do polígonos de Voronoi29 conforme Figura 13, continua-se no grau de aproximação grosseira à realidade, pelo que não é a solução ideal para descrever o fenómeno da atenuação e ser utilizado como medida de elegibilidade. Figura 13 - Mapa de Voronoi sobre o conjunto de dados originais de observações de atenuação A complexidade da atenuação é de tal ordem que se apresenta com um comportamento de aspecto errático, não podendo ser modelado por uma função matemática simples (como ilustra a Figura 13). Neste caso, o modelo que se sugere consiste em admitir um comportamento semelhante ao das variáveis aleatórias30. 29 30 Método explicado em detalhe no próximo capítulo desta dissertação. Grandeza que pode tomar uma série de valores numéricos, a cada um dos quais está associado uma certa probabilidade de ocorrência. SOUSA; MUGE (1990). 33 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Este tipo de variáveis, que apresentam aspectos aleatórios e estruturados, estão descritas no modelo das funções aleatórias introduzido pelo Professor Georges Matheron (19302000), que é o mentor do kriging, sendo considerado o fundador da Geoestatística. Entre 1954 e 1963, enquanto trabalhava com o Instituto de Pesquisa de Geologia francês, na Argélia (e também em França), descobriu o trabalho pioneiro de uma escola Sul Africana sobre depósitos de ouro, dos engenheiros de minas Krige, Sichel e Wijs, e construiu os conceitos da teoria a que ele chamou Geoestatística. Matheron denominou esta análise de kriging em honra a um dos engenheiros de minas sulafricanos, responsável pelo trabalho em que se inspirou: Krige. Em termos genéricos, a técnica de kriging assume que os dados recolhidos de um determinado universo se encontram auto-correlacionados no espaço: • Se num dado ponto observado a atenuação é x, é muito provável que se encontrem resultados muito próximos de x quanto mais próximo se estiver desse ponto observado (princípio da geoestatística); e, • A partir de determinada distância do ponto onde se observou x, não se encontrarão valores aproximados de x porque a auto-correlação espacial pode ter deixado de existir. O kriging é uma técnica BLUE (Best Linear Unbiased Estimator - BAILY; GATRELL, 1995): • Linear (linear) porque as suas estimativas são combinações lineares ponderadas das observações conhecidas; • Unbiased (não enviesada) porque procura que a média dos erros (os desvios entre os valores reais e os valores interpolados) seja nula; e, • Best (melhor) porque os erros de interpolação apresentam uma variância mínima. 1. Princípios da análise geoestatística A geoestatística na sua concepção original, referia-se às estatísticas das ciências da Terra, como em geografia ou geologia. Hoje em dia, conceptualmente, a geoestatística é utilizada 34 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga de forma mais abrangente, em mais campos do saber, e compreende um conjunto de estatísticas que se caracterizam pelas suas propriedades espaciais. Originalmente, nestas estatísticas espaciais, a geoestatística era sinónimo de kriging. Actualmente, inclui não só as técnicas kriging mas também muitas outras técnicas de interpolação, onde se incluem as técnicas determinísticas (JOHNSTON; HOEF; KRIVORUCHKO; LUCAS - 2003). No campo da análise espacial de superfícies, as técnicas da análise geoestatística subdividem-se em dois grupos: • As determinísticas, que se baseiam em parâmetros que controlam quer a extensão da semelhança dos valores quer o grau de suavização na interpolação, isto é, baseiam-se directamente nos valores observados mais próximos (vizinhos) e em fórmulas matemáticas específicas para determinar a suavidade da interpolação resultante. Baseiam-se, no entanto, apenas em fórmulas matemáticas e não modelam os processos aleatórios espaciais; e, por outro lado, • As técnicas estocásticas, que combinam métodos determinísticos e estatísticos, incluindo a noção de auto-correlação (relações estatísticas entre os valores observados), modelando os processos aleatórios espaciais de uma dada variável. Permitem não só para criar mapas de valores interpolados mas também avaliar a incerteza dessas interpolações. Seja qual for o tipo de técnicas geoestatísticas que se considere, em termos gerais, parte-se sempre do princípio de que eventos mais próximos, geograficamente, tendem a ser mais semelhantes do que os que estão mais afastados.31 Na decisão de utilizar técnicas geoestatísticas estocásticas, um dos maiores desafios para o analista de informação espacial é gerar a interpolação mais precisa possível, a partir dos valores observados no campo e a partir daí poder caracterizar o erro e variabilidade da interpolação calculada. 31 Este é um princípio geográfico fundamental, postulado pelo Professor Waldo Tobler (1930-...), influente geógrafo e cartógrafo contemporâneo. A sua ideia de que tudo está relacionado com tudo o resto, mas que as coisas mais próximas estão mais relacionadas entre si é comummente aceite como a primeira lei da Geografia. 35 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga A geoestatística estocástica assume que, pelo menos, alguma da variabilidade espacial de um dado fenómeno, pode ser modelada por processos aleatórios que têm como característica a auto-correlação espacial. A correlação é a tendência de duas variáveis se relacionarem. A auto-correlação verifica-se quando uma variável tem correlação em si própria. Isto significa que nas observações de atenuação, duas observações tendem a ser mais semelhantes se estiverem espacialmente próximas do que se estiverem espacialmente afastadas. O grau em que essa autocorrelação diminui pode ser expresso em função da distância, logo a auto-correlação é uma função da distância, que é um princípio intrínseco à geoestatística. As técnicas de geoestatística estocástica podem ser utilizadas para: • Descrever e modelar padrões espaciais – através da variografia; • Estimar valores em localizações não amostradas – através das técnicas kriging; e, • Avaliar a incerteza associada a um valor estimado numa localização não amostrada – também através das técnicas kriging. As várias técnicas disponíveis de kriging podem ser utilizadas para produzir vários tipos de interpolações: • Mapas de valores interpolados; • Mapas de erro padrão (relativamente aos valores interpolados); • Mapas de probabilidade (que indicam se um valor de corte pré-definido foi excedido ou não); e, • Mapas de quantis (para um nível pré-determinado de probabilidade). Na geoestatística estocástica assume-se que todos os valores na área em análise são resultado de processos aleatórios com dependência, embora as regras dessa dependência sejam desconhecidas. Isto faz com que a geoestatística estocástica tenha dois grandes objectivos: 36 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 1. Revelar as regras de dependência de uma dada área de estudo; e, 2. Calcular estimativas de valores para localizações não observadas. As técnicas kriging baseiam-se nestes dois objectivos: 1. Primeiro, quantificar a estrutura espacial dos dados (técnica denominada de variografia), para ajustar um modelo de dependência espacial aos dados em análise através de funções de semi-variância ou co-variância (auto-correlação espacial), estabelecendo as regras de dependência da área em análise; e, 2. Estimar os valores desconhecidos, pelo ajuste de um modelo teórico que melhor descreva as funções de semi-variância ou co-variância encontradas para a variável analisada. Para produzir uma estimativa para um valor desconhecido numa localização específica, o kriging utiliza o modelo ajustado encontrado na fase da variografia, a configuração espacial dos dados amostrados e os valores das observações mais próximas. Na realidade, apenas com um conjunto de dados não há qualquer esperança de se poder vir a conhecer as regras de dependência dos valores observados nesse conjunto. Tem que se partir do pressuposto de que essas regras de dependência existem, embora através da observação e análise exploratória de dados, as dependências começam a evidenciar-se. A estatística geral assenta sobre a noção de replicação dos fenómenos, isto é: as interpolações podem ser derivadas e a sua variação e incerteza pode ser compreendida a partir de observações repetidas. No cenário espacial, o pressuposto da estacionaridade é utilizado para obter a replicação necessária para a quantificação estatística. A estacionaridade é um pressuposto aplicável a dados espaciais. Podem-se considerar três tipos de estacionaridade: 1. Estacionaridade da média; assume-se que a média é constante entre observações, sendo independente da sua localização espacial; 37 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 2. Estacionaridade de 2ª ordem; que se aplica à co-variância (da média e da variância). É o pressuposto de que a co-variância é a mesma entre quaisquer duas observações, à mesma distância e direcção, independentemente do par de observações escolhido. A co-variância depende da distância entre quaisquer dois valores observados e não das suas localizações; e, 3. Estacionaridade ou hipótese intrínseca; que se aplica à semi-variância. É o pressuposto de que a variância da diferença entre pares de valores observados é a mesma entre quaisquer duas observações, à mesma distância e direcção, independentemente do par de observações escolhido. A estacionaridade de 2ª ordem e a hipótese intrínseca constituem os pressupostos mínimos para obter a igualmente necessária à replicação, de forma a estimar as regras de dependência espacial, que por sua vez vão permitir interpolar valores não amostrados e avaliar a incerteza dessas interpolações. Note-se que é a informação espacial contida em cada observação, que à partida tem a particularidade de ser georreferenciada (ter, portanto, um par de coordenadas x, y), que permite a avaliação da replicação do fenómeno - permitindo realizar cálculos sobre pares de observações a distâncias semelhantes. As variáveis passíveis de serem analisadas pela geoestatística estocástica, apesar de se tratarem de variáveis únicas, possuem características espaciais, pares de coordenadas espaciais para cada observação, a partir das quais se pode aferir a auto-correlação espacial. A informação contida nas localizações das observações permite calcular as distâncias entre eventos e modelar a auto-correlação em função dessas distâncias. O mesmo se aplica à atenuação; alem disso, sabe-se que aumenta com a distância. 2. Técnicas de interpolação geoestatística estocástica Como o nome indica, estas técnicas criam mapas de interpolação que incorporam as propriedades estatísticas dos dados amostrados. Porque se tratam de técnicas de 38 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga geoestatística estocástica, produzem não só mapas de valores estimados (interpolados a partir de valores reais) e de erro, mas também mapas de probabilidades e quantis dependendo do método escolhido, em função dos objectivos da análise e modelação. Existem vários métodos associados à geoestatística estocástica, da família das técnicas kriging: • Para casos em que se analise apenas uma variável aleatória pode-se considerar o kriging ordinário (ou normal), simples, universal, probabilístico, indicador e disjuntivo; • Para casos em que se utilize simultaneamente mais do que uma variável, pode-se utilizar as técnicas de cokriging, com as mesmas variantes de método do kriging. Uma das características essenciais da geoestatística é que o fenómeno em análise assume um dado valor (não necessariamente medido) seja qual for a localização dentro da área de estudo. Da mesma forma, o kriging assume que existe sempre um valor observado ou estimado para qualquer localização na área de estudo. Os eventos são registados como pontos mas os valores, na realidade, podem ocorrer em qualquer parte da área de estudo; portanto, são espacialmente contínuos. As técnicas de kriging dependem de uma combinação de modelos matemáticos e estatísticos. Os modelos estatísticos associam um grau de probabilidade às estimativas calculadas, sendo que os valores a interpolar não são nunca perfeitamente estimáveis. Por exemplo, mesmo com uma grande amostra de valores de atenuação não será possível prever o valor exacto de atenuação numa dada localização não observada. Daí que, além da interpolação, se avalie o seu erro. Os dados geoestatísticos estocásticos expressam-se pela seguinte fórmula: • Z(x) = µ(x) - ε(x) Z(x) é a variável em análise, decomposta num tendência determinística global µ(x), e numa tendência aleatória local, erros auto-correlacionados que formam ε(x).32 32 O símbolo x apenas indica a localização. Cada valor amostrado contém um par de coordenadas espaciais. 39 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Independentemente do grau de complexidade da tendência determinística global no modelo, o termo µ(x) nunca será perfeitamente estimado. Em relação ao termo ε(x), têm de se assumir alguns pressupostos tais como: esperar-se que seja 0 (zero), em média, e que a auto-correlação entre cada par de valores amostrados ε(x) e ε(x + h) não seja dependente da localização x mas sim da distância entre a localização x e a localização h. Trata-se da hipótese de estacionaridade intrínseca (relativa à semi-variância) ou a hipótese de estacionaridade de 2ª ordem, em que todos os erros aleatórios tem média 0 (zero) e a covariância entre quaisquer dois erros aleatórios depende somente da distância e direcção que os separa, não das suas localizações. Com estas hipóteses, assume-se a mesma auto-correlação para os erros aleatórios entre pares de observações no mesmo intervalo de distância, assegurando-se a replicação necessária para estimar a função de auto-correlação da variável aleatória Z(x). Variações na fórmula apresentada formam a base para os diferentes tipos de kriging (JOHNSTON; HOEF; KRIVORUCHKO; LUCAS - 2003). O termo relativo à tendência determinística global pode ser uma constante; isto é, µ(x) = µ para todas as localizações x, e se µ for desconhecida, então é nesse modelo que se baseia o kriging ordinário ou normal. Este modelo é composto também de uma função linear das coordenadas espaciais dos valores amostrados, por exemplo: • µ(x) = β0 + β1x + β2y + β3x2 + β4y2 + β5xy Esta fórmula traduz uma superfície de tendência global polinomial de 2ª ordem, a partir da regressão linear das coordenadas espaciais x e y. Tendências determinísticas globais que variam, e para as quais os coeficientes de regressão são desconhecidos, formam o modelo para o kriging universal. 40 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Ainda relativamente ao termo de tendência global, µ(x), sempre que esta seja completamente conhecida33, constante ou não, então tem-se o modelo para o kriging simples. Assim como se podem alterar as condições dos termos relativos quer à tendência determinística global, µ(x), quer à tendência aleatória local, ε(x), também se pode alterar o termo Z(x), a variável em análise. Por exemplo, pode-se alterar a variável Z(x) para uma variável do tipo ‘indicador’, isto é, obter 1 (um) sempre que Z(x) estiver abaixo de um dado valor34 ou 0 (zero) sempre que Z(x) estiver acima desse valor. Considerando a definição de um valor de corte deste tipo, pode-se estimar a probabilidade de Z(x) estar acima ou abaixo do limiar definido; as estimativas calculadas segundo este modelo estão na base da técnica de kriging indicador. Também se pode dar o caso de se pretender utilizar transformações gerais da variável Z(x), denominando-as de ƒi(Z(xi)), para a i ésima variável; isto é, pode-se pretender interpolar funções de variáveis. Por exemplo, se se pretender estimar a localização x0, então tem-se o modelo para a técnica de kriging disjuntivo de g(Z(x0)), utilizando os dados da ƒi(Z(xi))35. Finalmente, considere-se o caso em que se tem mais do que uma variável e se obtêm os modelos Zj(x) = µj(x) - εj(x) para a ésima j variável, podendo-se considerar diferentes tipos de tendência global e local para cada variável e adicionalmente a existência de correlação cruzada entre as tendências aleatórias εj(x) e εk(x), para o caso em que se considerem duas variáveis. Por exemplo, em termos de hipótese, poder-se-ía considerar a correlação cruzada entre duas variáveis dos dados disponíveis no âmbito desta dissertação: 1. A atenuação, registada a uma dada distância de uma Central, pelos pares de cobre, até à casa de um Cliente; e, 33 34 35 Todos os parâmetros e co-variâncias conhecidas. Por exemplo, 40 dBm de atenuação. No Geostatistical Analyst, a função g pode ser tanto uma transformação para uma variável do tipo ‘indicador’ como não ter qualquer transformação. JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003). 41 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 2. A distância real mínima, pelos eixos de via, a que ficam todos os edifícios (possíveis Clientes) que se incluem na Área Local da mesma Central considerada para os valores de atenuação. Esta hipótese poder-se-ía colocar dado que uma rede de cobre segue, naturalmente, o percurso dos eixos de via e não distâncias euclidianas (em linha recta). Para este modelo não é exigido que as variáveis sejam observadas nas mesmas localizações. Os modelos de kriging com mais do que uma variável constituem a base das técnicas de cokriging. Por exemplo, criando uma variável indicadora de Z(x) e utilizando-a em conjunto com os dados Z(x) originais não transformados num modelo de cokriging, obtém-se kriging probabilístico. Tendo mais do que uma variável para analisar e que faça sentido analisar em conjunto com outra(s) podem-se considerar utilizar técnicas de cokriging ordinário, universal, simples, indicador, probabilístico e/ou disjuntivo como extensões multivariadas36 dos diferentes tipos de kriging descritos anteriormente. Ambos kriging e cokriging são técnicas de interpolação cujo objectivo principal é produzir um mapa de valores interpolados, espacialmente contínuo. Ambas as técnicas permitem criar, pelo menos, três tipos de mapas de valores interpolados, dois dos quais relativamente aos erros padrão da interpolação respectiva. O kriging enquanto interpolador não requer que os dados estejam normalmente distribuídos. No entanto, a normalidade é necessária para obter mapas de quantis e probabilidade para os métodos kriging ordinário, simples e universal. Entre as técnicas de interpolação que consideram médias ponderadas, o kriging é o melhor estimador não enviesado, estejam ou não os dados normalmente distribuídos. No entanto, se os dados estiverem normalmente distribuídos, o kriging passa a ser o melhor estimador de todos os estimadores não enviesados que se possam considerar, e não só entre aqueles que consideram médias ponderadas (JOHNSTON; HOEF; KRIVORUCHKO; LUCAS 2003). 36 Para mais do que uma variável. 42 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 3. Sumário do problema a resolver com recurso à geoestatística O Operador de telecomunicações pretende calcular relações custo/benefício de penetrar em determinada Área Local para fornecer serviços de banda larga, bem como controlar o serviço que disponibiliza. Para isso, mede a atenuação máxima do sinal eléctrico, enviado a partir de uma Central numa dada Área Local, em n pontos nela distribuídos aleatoriamente (dependendo esta das localizações geográficas dos Clientes que aderiram ao serviço). As localizações das observações e os valores de atenuação observados são conhecidos. Por questões práticas, relacionadas por exemplo com questões de custo e o facto de não se estar na posição de proprietário da rede37, não é possível ter medições de atenuação para todas as casas (pares de cobre) de uma dada Área Local. O que se pretende é estimar diferentes níveis de atenuação em qualquer localização da Área Local em análise. Recorrer-se-á para tal, a técnicas do campo da geoestatística estocástica para calcular a melhor interpolação possível de valores de atenuação para as localizações cujo valor é desconhecido, examinando as relações entre todas as observações tendo como resultado, pelo menos, um mapa contínuo de valores de atenuação e um outro relativo ao grau de incerteza ou probabilidade dos valores estimados. O enfoque é não só na interpolação de classes de distribuição da atenuação (correspondentes a diferentes classes de produtos ou serviços) mas também, especialmente, em determinar se os valores esperados numa dada área estão acima ou abaixo do expectável e por isso possam impedir o fornecimento do serviço ou fazer com que o Operador incorra no risco de incumprimento perante o Cliente final, ao fazer uma oferta que não pode entregar. A experiência profissional e a análise de dados de laboratório, diz que acima de 40dBm não é possível fornecer um serviço de banda larga Triple Play fiável; o mesmo para atenuações 37 O problema é analisado do ponto de vista do Operador Entrante. 43 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga abaixo de 9dBm. Se entre estes intervalos de valores se encontrarem observações que estejam fora destes limiares máximo e mínimo então dever-se-á recolher mais amostras ou ter em conta esses valores na distribuição, de modo a não enviesar os resultados e por consequência a imagem do Operador junto do Cliente final. Fora deste intervalo de valores de atenuação é possível fornecer um serviço de telecomunicações mas sem incluir a componente televisão, com a tecnologia ADSL2+. No limite, o Operador poderá sempre fornecer, pelo menos, um serviço de voz. Com estes objectivos e a informação disponível, elaborou-se o seguinte esquema de trabalho: Dados disponíveis Preparação dos dados Analise exploratória de dados Kriging e Validação cruzada Validação simples Dados originais 1 515 registos k = 9,95 Dados de análise exploratória [2,5 – 90 dBm] [250 – 2800m] 364 registos k = 9,45 Dados de análise estrutural 1 Histograma Sem candidatos a outliers 324 registos k = 9,28 Mapas de Voronoi Cluster Entropia Gráfico de quantis normais Dados de análise estrutural 2 (treino) Dados de análise estrutural 2 (teste) Sem candidatos a outliers 90% de 324 registos = 291 k = 9,13 Sem candidatos a outliers 10% de 324 registos = 33 Análise de tendência global Semivariância Dados originais 2 (treino) Dados originais 2 (teste) Todos os dados 90% de 515 registos = 463 k = 9,80 Todos os dados 10% de 515 registos = 52 Nota: k corresponde ao número de classes para representação dos dados, segundo a Regra de Sturges. Figura 14 - Fluxograma O primeiro passo do fluxograma apresentado (Figura 14) é retirar da amostra os valores inválidos para a elegibilidade de serviços Triple Play com base em tecnologias ADSL2+, segundo as seguintes regras de engenharia: • As observações com valor de distância SELT menor que 250m e maior que 2800m; 44 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga • As observações com valor de distância, pelos eixos de via (quando o SELT é omisso), também menor que 250m e maior que 2800m; e, • As observações com valor de atenuação menor que 2,5dBm e maior que 90dBm. Com estes valores de corte para o conjunto de observações original, de um total inicial de 515 observações resta um subconjunto de dados para análise exploratória de 364 observações de campo (Figura 15). Figura 15 - Dados originais e dados de análise (sem valores de corte) Definido conjunto de dados para análise exploratória, as fases seguintes no processo de modelação espacial que propõe são: • A análise exploratória de dados, de forma a investigar as propriedades estatísticas e espaciais do conjunto de valores observados seleccionado, segundo os parâmetros acima descritos, para esta análise; • A análise estrutural, que será realizada sobre um novo subconjunto de dados sem candidatos a outliers; corresponde à fase de ajuste de modelos teóricos que melhor 45 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga se adaptem aos valores observados, com a ajuda do conhecimento adquirido na fase da análise exploratória de dados, para finalmente criar um mapa contínuo de valores de atenuação interpolados e reais; • A avaliação dos resultados obtidos, utilizando as técnicas tanto da validação cruzada (utilizando todos os dados) como da validação simples (através da divisão da amostra em subconjunto de teste e subconjunto de validação). Nesta fase, ir-se-á perceber qual o desempenho dos modelos teóricos face aos valores experimentais (reais); e, • A comparação entre os modelos encontrados com melhor ajuste, para os dados sem candidatos a outliers, e a aplicação dos mesmos melhores modelos à totalidade dos dados de atenuação (o conjunto original de dados) - para verificar quão robusto é o conjunto de dados inicial ou se, pelo contrário, é relativamente permeável a dados ‘anormais’. 4. Representação dos dados Antes de se pensar na cor ou símbolo para representar valores, deve-se pensar no número de classes e no tipo dos intervalos de classes. Maiores volumes de dados tipicamente necessitam de mais classes. Nesta dissertação, para definir o número de classes necessário para representar os dados de atenuação, segue-se a Regra de Sturges (BAILY; GATRELL - 1995) que é definida por: • k = 1 + 3,3 * log n k é o número de classes e n o número total de observações. Para o tipo de intervalos de classes segue-se o método natural breaks (quebras naturais) do geógrafo George F. Jenks (1916 - 1996), que se dedicou ao estudo de métodos de representação de dados geográficos (JENKS, 1963). 46 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga A classificação segundo o método das ‘quebras naturais’, determina o melhor arranjo dos valores em classes, através da comparação da soma do quadrado das diferenças dos valores de uma dada classe em relação à média da respectiva classe. A melhor classificação minimiza numa dada classe a soma do quadrado das diferenças dos valores dessa classe, encontrando-se desta forma o melhor ponto de quebra ou separação entre classes entre conjuntos de dados relativamente semelhantes. Esta técnica, começa por ordenar os valores por ordem crescente, calculando em seguida a soma do quadrado das diferenças para vários conjuntos de possíveis quebras de intervalos de classes, guardando os intervalos com os melhores valores obtidos, resultando no melhor conjunto de classes possível tendo em conta todo o conjunto de dados.38 5. Procura de candidatos a outliers39 globais e locais Um outlier global é uma observação que tem um valor demasiado elevado ou reduzido relativamente a todos os restantes valores de um conjunto de dados, face ao intervalo onde situam a maior parte dos restantes valores. Um outlier local é uma observação que tem um valor que se inclui no intervalo onde situam a maior parte dos restantes valores do conjunto de dados mas que, quando comparado com os valores vizinhos, apresenta-se anormalmente elevado ou reduzido. Não estando na posse dos dados de todo o universo de valores de atenuação da Área Local em análise, nada pode garantir que os valores eventualmente classificáveis como outliers são de facto outliers, embora seja possível identificar candidatos a outliers através da análise exploratória de dados, segundo os parâmetros que definem o que é um outlier global e/local. Como exemplo, ordenando os valores de atenuação do conjunto de dados de análise exploratória, segundo a distância a que foram registados, veja-se o resultado obtido na seguinte Figura, onde é possível identificar alguns candidatos: 38 39 http://www.biomedware.com/software/Atlas_WebHelp/interface/map/classify/About_natural_breaks.htm Valores isolados ou anormais. 47 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 80 70 Candidatos a outliers globais Atenuação (dBm) 60 50 Candidatos a outliers locais 40 30 Candidatos a outliers locais 20 10 400 350 300 250 200 150 100 50 0 0 Dados de análise, ordenados por distância crescente à Central Figura 16 - Candidatos a outliers globais e locais É importante identificar candidatos a outliers por duas razões: 1. Podem tratar-se de valores anormais do fenómeno em análise; ou, 2. Podem ter sido medidos incorrectamente (erros de medição). Dependendo do fenómeno em análise, se o candidato a outlier se tratar de um valor anormal, pode tratar-se do valor mais significativo da análise, para compreender o fenómeno. No caso da atenuação os valores anormais podem por exemplo ajudar a averiguar quais são as áreas que podem dar problemas e com isso prevenir a priori custos de marketing em áreas onde que não existe um grau de confiança aceitável sobre a disponibilização deste tipo de produtos ou serviços sobre a rede de cobre. Se, por outro lado, os candidatos a outliers são causados por erros no registo dos dados, então deverão ser corrigidos ou retirados antes de se criar um mapa de interpolação. Este tipo de candidatos a outliers pode enviesar a interpolação, devido à influência que terão sobre outros valores espacialmente próximos (vizinhos). 48 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 6. Criação de subconjuntos de dados: treino e teste Alem da identificação de candidatos a candidatos a outliers, há que pensar na validação dos resultados. A forma mais rigorosa de se avaliar a qualidade de uma interpolação é comparar os valores estimados em localizações cujo valor não foi observado no campo, com os valores reais, medidos no campo, para as mesmas localizações. Não sendo possível regressar à área de estudo para recolher um novo conjunto de dados independente, para efeitos de validação, uma solução possível é dividir o conjunto de dados original em dois subconjuntos. Um para modelar a estrutura espacial e produzir um mapa de valores interpolados (subconjunto de dados de treino) e outro para comparar e validar a qualidade da interpolação (subconjunto de dados de teste). O subconjunto de dados de treino contém os valores observados sobre os quais se irá realizar a interpolação. O subconjunto de dados de teste é depois utilizado para validar as estimativas obtidas na fase de interpolação, por comparação com valores reais para as mesmas localizações. Levanta-se agora uma questão importante relativamente à forma de dividir o conjunto de dados para criar os dois subconjuntos referidos. O software utilizado permite fazer esta divisão, criando de forma aleatória os dois subconjuntos, desde que o analista indique qual a percentagem de valores a atribuir para treino e teste, respectivamente. Na pesquisa realizada não foi encontrado um método único e inequívoco para a divisão do conjunto de dados. A preocupação principal deve ser garantir que existem observações suficientes, especialmente no subconjunto de dados de treino, para a representação mais precisa possível da realidade na interpolação dos valores em localizações não medidas. Se o subconjunto de dados de treino for demasiado reduzido, valores candidatos a outliers podem deformar os parâmetros do modelo geoestatístico estocástico a aplicar e, por consequência, os resultados finais. 49 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga As percentagens relativas às quais o conjunto de dados deve ser subdividido deverão ter como base o número de amostras disponíveis. É necessário um número de observações suficiente para criar uma interpolação e fazer a sua validação de forma significativa. Pode dar-se o caso de quando o conjunto de dados inicial é pequeno, ser inapropriado dividir o conjunto de dados. Nesta dissertação ir-se-ão utilizar os seguintes conjuntos de dados e abordagens: Análise exploratória: • Prosseguir com um subconjunto dos dados originais para a análise exploratória de dados, onde se prevê encontrar candidatos a outliers (após aplicados os valores de corte sugeridos pela engenharia, relativos a valores de atenuação e distâncias à Central, o que resulta num conjunto de 364 observações); • Identificar os candidatos a outliers que se justificarem como tal no decorrer da análise e retirá-los do conjunto de dados da análise exploratória, criando o conjunto de dados para a análise estrutural; e, Análise estrutural e interpolação: • Prosseguir para a análise estrutural e interpolação com dois conjuntos de dados: 1. Um único conjunto de dados para a análise estrutural, sem os valores identificados como candidatos a outliers, cujas interpolações deverão ser validadas através de técnicas de validação cruzada; e, 2. Uma divisão do conjunto de dados para a análise estrutural, em dados de treino e teste, para se poder aplicar o método de validação simples, pelo que os dados serão subdivididos com base nas seguintes proporções: o 90% para o subconjunto de treino; e, o 10% para o subconjunto de teste. 50 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga IV. Análise e Resultados Nesta parte da dissertação pretende-se criar uma superfície estatisticamente válida e quantificar a qualidade dos modelos utilizados medindo o erro estatístico das interpolações. O processo de visualização, análise e compreensão do fenómeno espacial compreende quatro passos-chave, sendo o último opcional, consoante os resultados obtidos: 1. Análise exploratória de dados, para avaliar as propriedades estatísticas dos dados tais como a variabilidade e a dependência espacial além das tendências globais e locais; 2. Análise estrutural, para calcular e modelar os parâmetros necessários para a interpolação. Esta parte divide-se em duas partes: a. Variografia ou modelação do semi-variograma: para analisar os parâmetros a utilizar na interpolação; e, b. Interpolação kriging: escolha de, pelo menos, uma técnica de kriging, com base nas características dos dados e nos objectivos traçados para interpolar mapas contínuos de valores de atenuação e definir classes de elegibilidade espacial. 3. Validação dos resultados e diagnóstico, através da divisão da amostra sem candidatos a outliers, em subconjunto de treino e de teste, e através da validação cruzada (utilizando todos os dados); e, 4. Modelação do erro e interpolação de novos mapas para melhorar as interpolações, nos casos em que se aplique. Por exemplo, interpolação de novos mapas utilizando técnicas de co-kriging, para melhorar as interpolações de uma variável primária tendo em conta variáveis secundárias, desde que ambas variável primária e secundária estejam correlacionadas espacialmente. 1. Análise exploratória de dados 51 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga A análise exploratória de dados é fundamental para ajudar a tomar decisões relativamente às transformações (se necessárias) e os efeitos de observações anormais em modelos de semi-variância confirmando-se, posteriormente, na fase de validação a validade das decisões tomadas. Antes de se passar à utilização das técnicas de interpolação kriging, é necessário adquirir conhecimento sobre os dados disponíveis, de forma a fazer a escolha mais acertada dos parâmetros necessários para melhor ajuste do modelo teórico de interpolação. Por exemplo, se se optar por utilizar a técnica de kriging ordinário para produzir um mapa de quantis os dados precisam, necessariamente, de ter uma distribuição normal - este conhecimento é adquirido na fase da análise exploratória de dados. Ir-se-á de seguida explorar a distribuição dos dados, procurando candidatos a outliers globais e/ou locais, tendências globais, analisar a auto-correlação espacial e compreender a semi-variância. As ferramentas disponíveis são: • O histograma, para explorar a distribuição univariada do conjunto de dados; • Os mapas de Voronoi, para analisar a estacionaridade e variabilidade espacial dos valores de atenuação; • O gráfico de quantis normais, para verificar a normalidade da distribuição dos dados; • A análise de tendência, para identificar a presença de tendências determinísticas globais; e, • A análise das dependências espaciais, para identificar a auto-correlação espacial e as eventuais influências direccionais, através do semi-variograma experimental. Histograma Os métodos de interpolação que são utilizados em geoestatística estocástica para criar um mapa de interpolação dão melhores resultados se os dados estiverem distribuídos normalmente – uma curva em forma de sino, simétrica. Se a distribuição dos dados for 52 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga assimétrica, pode ser necessário transformar os dados de forma a tornar a distribuição normal. O histograma regista a frequência de um atributo do conjunto de dados observados, possibilitando analisar imediatamente, por simples inspecção visual, a forma da distribuição univariada40, Observações: 364 Skewness: -0,0011959 Min.: 4,3 Curtose: 2,4 Máx.: 71,9 1º quantil: 23,0 Média: 33,8 Mediana: 33,7 Desvio Padrão: 13,7 3º quantil: 45,0 Figura 17 - Histograma dos dados de análise exploratória Juntamente com alguns dados estatísticos, que descrevem a localização, dispersão e forma, é possível avaliar algumas das características importantes na distribuição dos valores de atenuação. As medidas de localização (a média41, a mediana42 e os 1º e 3º quantis43) dão uma ideia de onde o centro e outras partes da distribuição estão: 40 41 42 De uma variável. A média é uma medida do centro da distribuição. A mediana corresponde à proporção cumulativa de 0,5. Se os dados estivessem organizados por ordem crescente, 50% dos valores estariam abaixo da mediana e a restante parte acima da mediana. A mediana é outra medida do centro da distribuição. 53 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga • Para o conjunto de dados de análise exploratória, o valor da média e da mediana são bastante próximos o que indica que a distribuição deste conjunto de dados é muito próxima de uma distribuição normal (em que média e mediana são iguais), mas não perfeitamente normal. Sendo a média ligeiramente superior à mediana, a distribuição dos valores de atenuação está um pouco enviesada para a esquerda do centro da distribuição; • Os valores do 1º e 3º quantis indicam o intervalo onde se encontra a maioria dos dados (50%) pelo que é possível que fora desse intervalo se encontrem observações que constituam candidatos a outliers globais e/ou locais e que devem ser investigados do ponto de vista espacial. As medidas de dispersão (o desvio padrão44 e a variância45) revelam a distribuição das amostras em torno da média, sendo outra característica da frequência da distribuição representada no histograma: • O valor de desvio padrão confirma o que o 1º e 3º quantis informam: que a distribuição dispersa-se em torno da média ± 13,7 valores de atenuação; é nesse intervalo de valores que se concentra a maioria da amostra; • A variância para os mesmos dados é de 187,26. Esta variância constitui a variância a priori do conjunto de dados, a qual, verificando-se as hipóteses de estacionaridade de 2ª ordem e/ou intrínseca, deverá ser igual à variabilidade total dos dados representada no semi-variograma (SOUSA; MUGE - 1990), que será abordado num capítulo subsequente. As medidas de forma (skewness46 e curtose47) caracterizam o histograma pela sua forma: 43 O 1º e 3º quantis correspondem a uma proporção cumulativa de 0,25 e 0,75, respectivamente. Se os dados estivessem organizados por ordem crescente, 25% dos valores estariam abaixo do 1º quantil, e 25% estariam acima do 3º quantil. 44 • O desvio padrão é a raiz quadrada da variância. Descreve a dispersão dos dados em torno da média nas mesmas unidades que os dados originais. Quanto menor o valor da variância e desvio padrão, maior a concentração de amostras em torno do valor médio da distribuição. 45 • A variância dos dados é o desvio médio quadrado de todos os valores desde a média. As unidades são o quadrado das unidades das observações e, porque envolve diferenças quadradas, a variância calculada é normalmente sensível a valores excepcionalmente muito elevados ou muito reduzidos. 46 • O coeficiente de enviesamento (skewness) é uma medida da simetria de uma distribuição. Para distribuições simétricas, o coeficiente de skewness é 0 (zero). Se a distribuição tem uma longa cauda para a direita, de valores elevados, esta é 54 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga • O coeficiente de enviesamento (skewness) confirma a diferença entre a média e a mediana, a distribuição da amostra de atenuação está negativamente enviesada. • A curtose revela que a distribuição é mais achatada e com caudas mais estreitas que as da curva de uma distribuição normal. Isto significa, por exemplo, uma probabilidade menor de acontecerem valores extremos face à mesma probabilidade numa distribuição normal. A existirem candidatos a outliers deverão ser sobretudo locais. O software utilizado permite investigar espacialmente os candidatos a outliers através do histograma. É possível ver a distribuição espacial das observações de cada classe do histograma - se os valores extremos estiverem rodeados de valores muito diferentes, então é necessário investigar esses pontos e, se necessário, removê-los. Os candidatos a outliers mais evidentes, tendo em conta a localização espacial dos valores de cada classe do histograma (classes e observações indicadas a azul cien na Figura 18) estão localizados próximos da Central e misturados espacialmente entre observações de classes de valores menores. É possível identificar, por inspecção visual, que os valores das classes 7, 9 e 10 mais próximos da Central são candidatos a outliers - uma vez que segundo os seus valores de atenuação elevados, seria de esperar serem encontrados nas localizações mais afastadas da Central e não o inverso. Nas fases subsequentes da análise exploratória, se os mesmos candidatos forem identificados pelos restantes métodos de análise, serão retirados do conjunto de dados, antes da fase de análise exploratória e interpolação. 47 positivamente enviesada (skewed). Se tem, pelo contrário, uma longa cauda para esquerda, de valores mais reduzidos, está negativamente enviesada (skewed). O valor de curtose baseia-se no tamanho das caudas de uma distribuição e pode indicar a provável existência de candidatos a outliers na distribuição. O valor de curtose de uma distribuição normal é 3 (três). Distribuições com caudas mais largas são leptocúrticas e têm valor de curtose maior que 3 (três). Distribuições com caudas relativamente mais finas são platicúrticas (mais achatadas) e têm valor de curtose menor que 3 (três). 55 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 3ª classe 2ª classe 1ª classe 5ª classe 4ª classe 6ª classe Candidatos a outliers 7ª classe 8ª classe 9ª classe 10ª classe Figura 18 - Localização espacial das observações segundo as classes do histograma, para identificação de candidatos a outliers Mapas de Voronoi Os mapas de Voronoi são um dos métodos de interpolação baseados em malhas de polígonos48. Uma dada área é dividida em polígonos que são determinados pela distribuição dos pontos relativos às observações nela recolhidas. Os polígonos obedecem a certos critérios: • São formados por linhas que unem localizações contíguas e que formam uma triangulação; • 48 Cada polígono adquire o valor observado nele centrado; e, Outros exemplos: triangulação de Delauney; polígonos de Thiessen. 56 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga • Cada um está associado a uma função matemática, utilizada para interpolar valores em localizações onde se desconhece um dado valor, dentro de cada polígono. É um método robusto, mas que não tem inteligência acerca do fenómeno que está a ser analisado. Os polígonos podem apresentar alterações abruptas nas suas fronteiras, por representarem um valor absoluto, como exemplificado na Figura 19: Ponto de partida Pontos com atributos Passo 1 Unir todos os pares de pontos com segmentos de recta Passo 2 Traçar a perpendicular a cada segmento de recta Polígono de Voronoi 10 10dBm dBm 14 14dBm dBm 25 25dBm dBm 25 25dBm dBm Valor interpolado Valor conhecido Figura 19 - Cálculo dos polígonos de Voronoi Os polígonos de Voronoi são criados de modo a que cada localização dentro de um dado polígono seja mais próxima da localização observada (o valor conhecido) nesse polígono do que de qualquer outra localização observada. Criados os polígonos, os vizinhos de cada valor observado são definidos como qualquer outro valor cujos polígonos partilham a mesma fronteira. Com base nesta definição de vizinhança, podem ser calculadas uma série de estatísticas locais que permitem atribuir aos 57 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga vários polígonos, diferentes medidas de variabilidade local com base nos valores observados que estão na sua origem49. Das possibilidades estatísticas associadas ao mapa de Voronoi interessa aqui avaliar se os dados apresentam candidatos a outliers pelo que os métodos cluster e entropia foram escolhidos para ajudar a identificá-los: • Com o método cluster, todos os polígonos são agrupados em 5 classes de intervalos. Se o intervalo de um dado polígono é diferente dos intervalos dos seus vizinhos, esse polígono é assinalado, diferenciando-se dos restantes. É um bom método para identificar candidatos a outliers locais. Os candidatos a outliers estão indicados pelos polígonos de cor azul cien, na seguinte figura: Histograma Distribuição espacial das observações Figura 20 - Mapa de Voronoi, segundo o método cluster • Para o cálculo da entropia, todos os polígonos são agrupados também em 5 classes de intervalos. O valor atribuído a um polígono é a entropia que é calculada entre 49 Cf. Tabela 10, p.112. 58 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga esse polígono e os seus vizinhos. A entropia mínima ocorre quando os valores de um polígono e seus vizinhos estão todos na mesma classe. A entropia máxima ocorre quando cada polígono e os seus vizinhos estão em classes de intervalos diferentes. É um bom método para avaliar a variação local dos valores observados. A entropia é, assim, uma medida da dissemelhança entre polígonos vizinhos. Partindo-se do princípio de que para observações mais próximas é mais provável haver semelhanças do que para observações mais afastadas, o cálculo da entropia pode ajudar também a identificar candidatos a outliers locais, assinalados a azul cien na seguinte figura: Histograma Distribuição espacial das observações Figura 21 - Mapa de Voronoi, segundo o método entropia Da mesma forma que se fez para o Histograma, foram assinalados os candidatos a outliers encontrados pelos dois métodos de mapas de Voronoi apresentados. Os polígonos que registaram um valor de cluster de -1 (menos um) e os polígonos que registaram um valor de entropia superior ou igual a 2 (dois) foram assinalados como candidatos a outliers. Alguns dos candidatos identificados pelos mapas de Voronoi coincidem com candidatos identificados na análise do Histograma. Nas fases subsequentes da análise exploratória, se 59 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga os mesmos candidatos forem identificados pelos restantes métodos de análise, serão retirados do conjunto de dados, antes da fase de análise exploratória e interpolação. O software permite escolher uma de entre varias opções para lidar com duas ou mais observações que existam na mesma localização (por exemplo, amostras recolhidas no mesmo edifício). Para ambos os mapas de Voronoi foi escolhida a opção de manter o valor máximo, uma vez que se pretende encontrar candidatos a outliers locais. Gráfico de quantis normais Os gráficos de quantis são gráficos nos quais quantis de duas distribuições são comparados e representados uns em relação aos outros. Na construção de um gráfico de quantis normais, é realizada uma distribuição acumulada, ordenando os dados e produzindo um gráfico dos valores observados e ordenados por comparação a uma distribuição acumulada de uma distribuição normal. Cada valor dos dados é representado em oposição ao respectivo valor numa distribuição normal onde ambas as distribuições acumuladas são iguais. O gráfico de quantis normais permite comparar a distribuição dos dados com uma distribuição normal, constituindo também uma medida do tipo de distribuição - do grau de normalidade dos dados. Quanto mais próximos as observações estiverem de criarem uma linha recta, mais próxima é a distribuição de ser normalmente distribuída. Para duas distribuições idênticas o gráfico de quantis é uma linha recta. Representando os quantis do conjunto de dados de atenuação para análise exploratória num gráfico de quantis normais, comparando-os com os quantis de uma distribuição normal, obtém-se o gráfico da Figura 22: 60 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Figura 22 - Gráfico de quantis normais dos dados de análise exploratória A distribuição dos quantis é relativamente próxima da linha recta (especialmente nos valores de atenuação mais baixos). A maior discrepância aparece nos valores mais elevados de atenuação (que se evidenciam também no histograma bem como no mapa de Voronoi, segundo o método cluster). Se os dados não exibirem uma distribuição normal ou próxima, tanto no histograma como no gráfico de quantis normais, poderá ser necessário transformar os dados de forma a torná-los conformes a uma distribuição normal, antes de utilizar as técnicas de interpolação kriging que exigem distribuições normais50. 50 Cf. Tabela 11, p.113. 61 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Gráfico de tendência global Como já se referiu, existem dois tipos de componentes direccionais que podem afectar a interpolação de um mapa de superfície: 1. Uma tendência global (modelada no gráfico de tendência global); e/ou, 2. Uma variação local (modelada no semi-variograma). A possibilidade de poder identificar e modelar as tendências globais e as estruturas locais da superfície a interpolar pode aumentar a sua precisão. Uma tendência global é um processo que se impõe e afecta todas as medições de uma forma determinística. Pode ser descrita por um processo físico (por exemplo, a atenuação esperada de um sinal eléctrico à medida que a distância percorrida aumenta) e representada por uma fórmula matemática51. Pode ser removida da fase de análise dos valores observados sendo, no entanto, sempre considerada de novo na fase da interpolação propriamente dita. A principal razão para remover uma tendência em geoestatística estocástica é satisfazer os pressupostos de estacionaridade. Além disso, a forma do modelo teórico de ajuste ao semi-variograma pode também variar com a direcção (nos casos em que existe anisotropia) depois de a tendência global ter sido removida – e é necessário modelar essa variação, no caso de existir. Normalmente, a causa da anisotropia (influências direccionais) no semi-variograma não é conhecida, por isso é modelada como erro aleatório. No entanto, o desconhecimento da causa não impede que as influências direccionais sejam quantificadas e tidas em conta. A anisotropia é normalmente um processo não determinístico, não sendo descrito apenas por fórmulas matemáticas. Não tem uma única fonte de influência que previsivelmente afecte todos os valores observados. A anisotropia é a característica de um processo aleatório que mostra maior auto-correlação numa direcção do que noutra e é observada no semi-variograma (explicado adiante). 51 Por exemplo, um polinómio. 62 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Se a auto-correlação espacial depender apenas da distância entre duas localizações, nesse caso é isotrópica. Os dados da atenuação são teoricamente isotrópicos, em termos conceptuais. Decompondo os dados em tendência global e variação local, assume-se que a primeira é fixa e que a segunda é aleatória, onde a variação é determinada por regras de probabilidade que incluem dependência nos valores vizinhos, isto é, auto-correlação. A interpolação final é a soma das superfícies fixa (tendência global) e aleatória (tendências de variabilidade local). Se se puder identificar e quantificar a tendência global, ganhar-se-á um conhecimento mais profundo dos dados e por consequência tomar-se-ão melhores decisões sobre a sua análise. Removendo a tendência global, poder-se-á modelar com maior precisão a variabilidade local, garantindo que a tendência global não influencie a análise espacial local. Parte-se do princípio de que se existir uma tendência nos dados, será a componente não aleatória (determinística), que pode ser representada por uma função matemática. Por exemplo, uma encosta com pouco declive pode ser representada por um plano. Um vale poderia ser representado por uma função mais complexa (uma polinomial de 2ª ordem), que crie uma forma em U. No entanto, pode acontecer que a função seja ainda assim demasiado geral para reproduzir com precisão a superfície - não existem encostas que sejam um plano perfeito ou vales que tenham uma forma em U perfeita. Se a superfície de tendência não representar adequadamente os dados, pode-se optar por ignorá-la e continuar a análise, modelando a variabilidade local - que é o que permanece quando a tendência global é removida. A análise de tendências globais permite identificar a presença ou ausência de tendências nos dados disponíveis. Para identificar uma tendência global, deve ser evidente uma curva que não seja recta nos planos projectados do gráfico de tendências, que é o caso do conjunto de dados da análise exploratória, na Figura 23: 63 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Figura 23 - Gráfico de tendência global dos dados de análise exploratória Cada semi-recta vertical (a preto) representa a localização e valor (altura, em z) de cada ponto amostrado de atenuação (ponto verde mais claro). Estes pontos estão projectados em cada um dos dois planos perpendiculares, numa direcção Este-Oeste (pontos verde escuro) e direcção Norte-Sul (pontos azuis). A curva de melhor ajuste (polinomial de 2ª ordem, em forma de U) é desenhada entre pontos projectados nos planos perpendiculares, cujo modelo tende para direcções específicas. Ambas as projecções nas direcções Este-Oeste e Norte-Sul das curvas de tendência movem-se para cima à medida que os valores de atenuação aumentam, sendo que a parte que descreve os valores mais baixos de atenuação situa-se próximo da localização da Central, evoluindo tendencialmente para valores mais elevados à medida que se afasta da Central, em qualquer direcção - embora a tendência seja mais forte para Oeste e para Sul da Central. 64 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Semi-variância O que se impõe a seguir é avaliar as diferenças entre os valores observados, que pode ser medida estatisticamente pela semi-variância entre pares de observações. Conhecendo a distância e direcção entre cada par de observações e assumindo que a diferença entre os valores de cada par de observações depende somente dessa distância e orientação, em termos estatísticos, a distribuição das diferenças entre os valores dependerá igualmente e apenas, da distância e orientação de cada par de observações. Se isto se verificar para toda as observações, então verificar-se-á também para a sua média e variância. Ou seja, tendo a diferença média dos valores observados e a variância dessas diferenças, podem-se estimar valores para localizações cujo valor se desconhece - as diferenças médias esperadas entre pares de observações nas várias direcções (CLARK, 2001). Isto significa que se a distância entre duas observações for igual a 0 (zero), então não se espera nenhuma diferença entre essas observações. Nesta lógica, espera-se que os valores estimados sejam da mesma ordem de grandeza das observações de uma dada área, sendo que localmente (à escala de cada par de observações avaliado) não se observa qualquer tendência. A continuidade espacial pode ser medida pela variância das diferenças dos valores observados e é designada por semi-variância. A semi-variância é uma medida do grau de dependência espacial entre os valores observados. A função que traduz a semi-variância, em função das distâncias entre os valores observados, designa-se por variograma. Veja-se a função apresentada na Figura 24. 65 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga valor da diferença de um par de observações que distam h entre eles 1 γ*(h) = 2 N(h) Σ N(h) [ Z(xi + h) – Z(xi)]2 i -1 número de pares de dados que distam h entre eles Valor de semi-variância Semi-variância para o intervalo h γ Valores empíricos de semi-variância γ* 0 h Distância entre pares de observações h = distância entre observações e a sua orientação relativa Z(x) = Observações xi = Posição de uma das observações do par de dados xi + h = Posição da segunda observação do par de dados Figura 24 - Fórmula de cálculo da semi-variância e gráfico de semi-variância empírica Tendo o valor do quadrado das diferenças para cada par de observações com uma dada distância e orientação entre si (h), obtém-se um valor experimental de semi-variância (γ*) para todas as distâncias e orientações possíveis nos dados disponíveis. A melhor forma para apresentar estes valores é através de um gráfico, o semi-variograma (Figura 24). Cada valor do semi-variograma (a semi-variância) corresponde a metade da diferença quadrada entre os valores de cada par de observações, em função da distância que os separa. O semi-variograma empírico expressa a variabilidade espacial entre as amostras, sendo uma função que só depende de h, da distância entre pares de valores observados. Quando h cresce, o semi-variograma aproxima-se da variabilidade total dos dados (patamar), e havendo estacionaridade de 2ª ordem, expressa o grau de dependência entre os valores observados. Mesmo que a dependência não se verifique para a totalidade dos dados deve, pelo menos, verificar-se para áreas pequenas. Se se considerar o caso em que h é igual a 0 (zero), a diferença entre duas observações é também 0 (zero), pelo que o semi-variograma (γ) e os valores experimentais da semivariância (γ*) terão de passar pela origem do gráfico. Supondo que duas observações se 66 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga distanciam um pouco, é de esperar alguma diferença entre os dois valores, pelo que o semivariograma vai apresentar um pequeno valor positivo. À medida que as amostras se distanciam entre si as diferenças devem aumentar. Em termos de modelo, quando a distância se torna muito grande os valores observados tornam-se independentes uns dos outros - o valor da semi-variância torna-se mais ou menos constante (atingindo um patamar), uma vez que estará a calcular a diferença entre pares de observações independentes (sem auto-correlação). Na auto-correlação espacial é assumido que pontos amostrados mais próximos são mais semelhantes que os mais distantes, assumindo as hipóteses de estacionaridade52. O semivariograma permite analisar esta auto-correlação, podendo ser utilizado para analisar as características locais da auto-correlação espacial de um conjunto de dados e procurar também candidatos a candidatos a outliers. Analisar a estrutura espacial permite investigar não só a auto-correlação espacial dos dados observados mas também explorar a existência de influências direccionais (anisotropias). Se os dados forem espacialmente dependentes, os pares de observações que estão mais próximos (valores mais à esquerda do eixo h) deveriam ter diferenças menores (valores mais reduzidos no eixo γ). à medida que os pontos se vão afastando (mais para a direita do eixo h), em geral a diferença quadrada deveria ser maior (aumentar no eixo γ). Frequentemente, existe uma certa distância a partir da qual os valores dos quadrados das diferenças atingem um patamar; os pares de localizações acima desta distância consideram-se não auto-correlacionados. Esta informação pode ser utilizada para definir a distância máxima sobre a qual faz sentido analisar a semi-variância. É importante também avaliar a existência de anisotropias, para que no caso de se detectarem diferencias direccionais na auto-correlação espacial, as mesmas possam ser tidas em conta na fase de ajuste de um modelo teórico de semi-variância – o que tem efeitos práticos nos resultados da interpolação. 52 Quaisquer duas localizações que estão a uma distância e direcção semelhante uma da outra deverão ter diferenças quadradas semelhantes. 67 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Semi-variograma empírico Superfície de semi-variância N O E Comprimento de lag: 448,23 Número de lags: 10 S Figura 25 - Semi-variograma empírico dos dados de análise exploratória O semi-variograma empírico da Figura 25 representa a totalidade das semi-variâncias de cada par de observações possível para todo o conjunto de dados de análise exploratória, daí a sua configuração. Cada ponto vermelho do semi-variograma empírico representa um par de observações. Uma vez que localizações mais próximas (pontos mais a esquerda no eixo γ) deveriam ter valores de semi-variância menores (valores baixos no eixo γ), à medida que a distância entre observações aumenta (valores mais elevados no eixo h), os valores de semi-variância deveriam também aumentar (valores mais elevados no eixo γ). No entanto, quando determinada distância é atingida, os valores de semi-variância atingem um patamar ou voltam a diminuir, indicando que a relação entre os pares de localizações além dessa distância deixam de estar auto-correlacionados. Na superfície de semi-variância o tamanho das células é chamado de tamanho lag, e o número de células é chamado de número de lags, e ambos podem ser ajustados. O número de lags conta-se a partir do centro da superfície de semi-variância para uma das suas extremidades, horizontal ou verticalmente. 68 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Observando o semi-variograma dos valores de atenuação, algumas das localizações que estão mais próximas (mais a esquerda no eixo h) apresentam valores de semi-variância muito elevados (valores maiores no eixo γ), acima do que seria de esperar. Estes pares devem ser investigados podendo dar-se o caso de os dados não serem precisos (por exemplo, medições erradas derivadas de pares de cobre em piores condições) e eventualmente tratarem-se candidatos a outliers. Semi-variograma empírico Histograma Distribuição espacial das observações Figura 26 - Localização das amostras que apresentam maior semi-variância Na Figura 26 os pontos seleccionados (a azul cien) no semi-variograma, são os mesmos valores seleccionados nas classes do histograma na mesma cor, bem como as localizações seleccionadas no mapa da distribuição espacial das observações. Podem ser várias as razões para que pares de observações registem semi-variâncias tão elevadas a distâncias menores e, como se vê na Figura 26, relativamente próximo da Central. Uma das possibilidades é existirem maior número de observações em torno da Central, que os edifícios mais próximos da Central sejam mais antigos e portanto, os respectivos pares de cobre estejam potencialmente em pior estado, originando medições erradas. 69 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Independentemente das causas, se no conjunto de dados existir um candidato a outlier global, com um valor anormalmente elevado em relação ao intervalo médio de valores da distribuição, todas as semi-variâncias das observações que fazem par com esse candidato a outlier terão valores elevados, independentemente da distância. O histograma evidencia essa situação, da diferença de valores entre observações naquela zona. No conjunto de valores de semi-variância seleccionados no semi-variograma, encontram-se pontos com valores anormalmente elevados (valores mais à direita no histograma) para a maioria dos valores registados naquele intervalo de distância, daí os valores elevados de semi-variância. A localização dos valores evidenciados na última classe do histograma (valores elevados) está a fazer par com valores mais baixos (evidenciados nas classes mais à esquerda do histograma). Estes valores correspondem a candidatos a outliers globais, devendo ser retirados da amostra. No caso dos candidatos a outliers locais, cujo valor não está fora do intervalo de valores mais comum da distribuição mas que se evidenciam em relação aos valores vizinhos, é possível utilizar o semi-variograma para os identificar, no entanto, os métodos utilizados com os mapas de Voronoi são melhores para identificar mais facilmente eventuais candidatos a outliers locais. Para identificar um outlier global, é necessário procurar valores anormalmente elevados ou reduzidos no histograma e dois agrupamentos distintos de pontos no semi-variograma. Para Candidatos a outliers locais, existirão valores elevados de semi-variância associados a um único ponto em distâncias curtas no semi-variograma empírico. A par com as tendências globais dos dados observados, podem também existir influências direccionais que afectem os dados. Estas influências direccionais podem ser quantificadas estatisticamente e representadas num mapa de superfície do semi-variograma, como apresentado na Figura 25, p.68. Os valores empíricos de semi-variância são agrupados em células/classes (lags) com base na direcção e distância entre pares de localizações. Para cada célula/classe é calculada a média para o conjunto de valores que inclui, sendo depois multiplicados por 0,5 de modo a obter-se um único valor de semi-variância para cada célula/classe, produzindo uma superfície de semi-variância (onde cada célula corresponde a um conjunto de valores de semi-variância a determinada distância). A extensão da superfície de semi-variância, bem como a dimensão das células é controlada pelo tamanho de lag e o número de lags considerados. 70 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga As cores frias (azul e verde) correspondem a valores baixos de semi-variância e as cores quentes (vermelho e laranja) aos valores mais elevados. Como se pode observar, em geral, os valores empíricos de semi-variância aumentam à medida que as células se afastam do centro da superfície de semi-variância (à medida que a distância aumenta). Os valores são mais dissemelhantes à medida que a distância aumenta e na superfície de semi-variância este facto é mais óbvio do que no gráfico semi-variograma empírico. Adicionalmente, os valores de semi-variância para distâncias iguais podem variar segundo direcções diferentes, ou seja, podem conter influências direccionais (denominadas de anisotropia), que afectem o grau de precisão do mapa a interpolar se não forem correctamente modeladas na fase de parametrização das relações de vizinhança. Há que explorar, portanto, várias direcções para avaliar a existência ou não de anisotropia: Azimute: 12º Azimute: 81,4º Azimute: 170,2º Azimute: 222,4º Figura 27 – Exploração de influências direccionais nos dados de análise exploratória Diferentes azimutes mostram diferentes pares de observações representados no semivariograma (Figura 27). Entre aproximadamente 1700m e 2200m da Central, deixa de haver auto-correlação espacial, nas diferentes direcções. Quando a variação muda mais 71 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga rapidamente de uma direcção para outra o fenómeno é anisotrópico, que é o caso dos valores do conjunto de dados de análise exploratória, visível nas diferentes configurações do semi-variograma empíricos segundo as direcções seleccionadas. As diferentes cores da superfície de semi-variância da Figura 27 indicam, mesmo sem uma observação do comportamento da amostra nas várias direcções consideradas, a existência de anisotropias (diferentes valores de semi-variância a diferentes distâncias e com diferentes manchas espaciais) quando se considera a totalidade dos dados e todas as possíveis distâncias. Conclusões da análise exploratória de dados Os dados de atenuação da amostra de análise estão próximos de uma distribuição normal. São unimodais e quase simétricos em torno da média. Analisando a distribuição espacial das várias classes do histograma foi possível identificar 8 valores candidatos a outliers, dos quais 5 apareceram identificados também no mapa de Voronoi segundo o método cluster. Os mapas de Voronoi calculados (segundos os métodos cluster e entropia) foram escolhidos com o objectivo de evidenciar candidatos a outliers locais. Dos resultados obtidos foram identificados 32 (trinta e dois) valores candidatos a outliers no mapa realizado com o método cluster; destes, 5 (cinco) valores são coincidentes com os candidatos identificados pelo histograma e 1 (um) coincidente com os identificados pelo método entropia que, no total, permitiu identificar 6 (seis) candidatos a outliers. O gráfico de quantis normais revelou que os dados têm algumas coincidências com uma distribuição normal, uma vez que os pontos representados criaram uma linha relativamente aproximada a uma recta, pelo que não se procederá a qualquer transformação dos dados. A análise de tendência global mostrou que se verifica que a atenuação aumenta com a distância, e especialmente em duas direcções, para Este e Sul, com o mesmo tipo de progressão. No semi-variograma empírico da totalidade das observações utilizadas para a análise exploratória de dados é bastante evidente a existência de candidatos a outliers globais, 72 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga devido à semi-variância elevada a distâncias pequenas, indicando pares de observações com valores muito elevados e valores muito reduzidos. A análise da superfície de semi-variância evidenciou a presença de maior anisotropia nas direcções Este-Oeste, e em pares de pontos que estão mais distantes entre si. A distâncias menores, que serão modeladas com maior precisão na fase de parametrização das relações de vizinhança, a anisotropia é bastante menor. Identifica-se claramente uma zona central na superfície de semi-variância que é relativamente isotrópica (em tons de azul e verde), com valores de semi-variância menores que 235,2. Relembrando que a variância a priori para este conjunto de dados é de 187,26 e sabendo que, verificando-se as hipóteses de estacionaridade de 2ª ordem e/ou intrínseca, esta variância corresponde à variabilidade total dos dados representados no semi-variograma (SOUSA; MUGE - 1990), isto é, à escala em que faz sentido analisar a auto-correlação, este conjunto de considerações parece sugerir que na realidade o fenómeno da atenuação é mais isotrópico que anisotrópico. Havendo dependência espacial verificada pelo semi-variograma podem ser estimados valores da variável em estudo em locais onde ela não foi observada, por recurso à interpolação kriging. Como “O conceito de estacionaridade do modelo das funções aleatórias, apesar de ser teoricamente imprescindível para qualquer acto de inferência estatística, não é validável ou refutável a priori, uma vez que se conhece uma só realização da função aleatória – o conjunto de dados espacialmente distribuídos.” (SOARES - 2000, p.7) assume-se que há dependência espacial no fenómeno de atenuação pelo que faz sentido prosseguir a análise e avançar para a interpolação recorrendo a técnicas kriging. Segundo os resultados obtidos na análise exploratória de dados justifica-se a utilização da técnica de kriging ordinário para modelar a elegibilidade. A tendência global no modelo teórico a ajustar aos dados nunca será perfeitamente estimada, independentemente do seu grau de complexidade (JOHNSTON; HOEF; KRIVORUCHKO; LUCAS - 2003), pelo que a tendência global pode ser uma constante; ser igual para qualquer localização da Área Local. Como a tendência é desconhecida pode-se utilizar o kriging ordinário, que é um modelo também composto de uma função linear das coordenadas espaciais dos valores amostrados, tal como: µ(x) = β0 + β1x + β2y + β3x2 + β4y2 + β5xy, traduzindo uma superfície de tendência global polinomial de 2ª ordem, a partir da regressão linear das coordenadas 73 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga espaciais x e y, que é precisamente a que se verificou no momento de análise desta tendência. Relativamente aos candidatos a outliers identificados com a análise exploratória de dados, encontraram-se 40 valores candidatos na amostra de análise exploratória, como apresentado na Figura 28. Representando o conjunto de dados de análise por classes de atenuação verifica-se que fazem sentido os candidatos a outliers assinalados. Figura 28 - Candidatos a outliers identificados na análise exploratória de dados Tendo-se identificado os candidatos a outliers apresentados, criou-se um novo conjunto de valores observados, sem esses candidatos a outliers globais e locais, a que se passará a chamar de dados de análise estrutural, com 324 observações. Para a análise estrutural irse-á utilizar a totalidade do novo conjunto de dados e também o mesmo conjunto de dados dividido em dados de treino e dados de teste, com base em valores de corte de 90-10%, respectivamente 291 e 33 valores observados (Figura 29). 74 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Figura 29 - Distribuição espacial dos dados de treino e teste para a análise estrutural 2. Análise estrutural O conhecimento que a amostra de análise transmitiu é ainda limitado para uma completa caracterização e quantificação dos fenómenos espaciais subjacentes ao comportamento de uma rede de cobre; mas, é suficiente para o passo seguinte: obter estimativas de valores em localizações não observadas em função dos valores observados. À natural estrutura das observações, sobrepõem-se aspectos de variabilidade resultantes do conjunto de factores desconhecidos que nele interferem - derivados do próprio meio de transmissão do sinal eléctrico, por exemplo. Portanto, há sempre um grau de incerteza associado ao conhecimento que as observações de atenuação fornecem mas que pode ser quantificado, a partir do conjunto discreto e limitado de dados disponíveis. Para estimar um valor numa nova localização, é necessário ir mais além do pressuposto de que a relação entre o valor a estimar e os valores conhecidos depende da distância e/ou da direcção entre essas posições conhecidas e desconhecidas. As primeiras questões a 75 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga surgirem são, por exemplo, sobre que peso atribuir aos diferentes valores conhecidos, qual a fiabilidade da estimativa calculada e saber se se pode aplicar o mesmo método/modelo a outras áreas de características semelhantes. A primeira parte da análise estrutural é a variografia, com que se pretende modelar a tendência global, encontrar o modelo teórico de variância de melhor ajuste ao semivariograma empírico, definir o melhor tamanho de lag, parametrizar a anisotropia e a as regras de vizinhança (pesos atribuídos à influência das observações vizinhas). Este processo é moroso, ajustado por tentativa e erro, parâmetro a parâmetro e analisando os erros até se chegar à parametrização que faça mais sentido para os dados em análise. Ajustado o modelo teórico, o passo seguinte é produzir os mapas de valores interpolados e avaliar a qualidade das interpolações, analisando os erros e comparando modelos. Passos geoestatísticos estocásticos utilizando o kriging ordinário: • O kriging atribui pesos a observações mais próximas para derivar uma estimativa para cada localização cujo valor se desconhece. No entanto, os pesos não se baseiam apenas na distância entre valores observados e a localização a estimar mas também no arranjo espacial global dos valores observados. Para utilizar o arranjo espacial nos pesos, a auto-correlação espacial tem de ser quantificada. Para resolver o problema geoestatístico estocástico, tem de se passar por quatro passos: 1. Calcular o semi-variograma empírico. O kriging, como na maioria das técnicas de interpolação, foi pensado com base no pressuposto de que ocorrências mais próximas são mais semelhantes que ocorrências mais distantes (quantificadas nesta fase como auto-correlação espacial). O semi-variograma empírico é um meio de explorar esta relação. Pares que estão mais próximos deverão ter menores diferenças do que pares de amostras mais afastadas. A extensão, em termos de distância, na qual este pressuposto se verifica pode ser analisada no semi-variograma empírico; 2. Ajustar um modelo teórico. Este ajuste é realizado pela definição de uma curva que dá o melhor ajuste através dos pontos amostrados no semi-variograma 76 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga empírico. É necessário encontrar um ajuste tal que o quadrado das diferenças entre cada valor de semi-variância e a curva do modelo seja o menor possível. Trata-se do ajuste dos mínimos quadrados, considerado o modelo que quantifica a auto-correlação espacial nos dados disponíveis; 3. Criar matrizes. As equações do kriging ordinário são contidas em matrizes e vectores que dependem da auto-correlação espacial entre localizações observadas e localizações estimadas. Os valores que descrevem a autocorrelação são resultado da modelação do semi-variograma (do ajuste de um modelo teórico aos dados). As matrizes e vectores determinam os pesos kriging atribuídos a cada valor observado (que, grosso modo, são o inverso da distância); e, 4. Produzir uma estimativa. A partir dos pesos kriging para os valores conhecidos, podem-se estimar os valores das localizações cujo valor se desconhece. Z(x1) Z(x2) 1.Análise da correlação espacial com base no semi-variograma empírico Z(x0)? 2.Ajuste do semi-variograma empírico Z(x4) Z(x3) 3.Escolha e ajuste de um modelo teórico ao semi-variograma 4.Validação do modelo ajustado 5.Mapas de kriging Figura 30 – Processo de análise kriging 77 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Variografia53 A estimação do variograma começa tipicamente com um semi-variograma empírico, omnidireccional. É um bom ponto de partida para examinar a estrutura e força da autocorrelação, permitindo o cálculo dos parâmetros envolvidos no modelo e a suas interrelações. A importância de uma boa modelação do semi-variograma é que os pesos kriging são calculados tendo em conta a estrutura de auto-correlação espacial imposta pelo modelo de semi-variograma adoptado. Não existe uma regra simples para escolher o melhor modelo de variograma. Deve-se observar o semi-variograma empírico e escolher o modelo que pareça mais apropriado. Pode-se utilizar os resultados da validação simples e da validação cruzada como guias de ajuste do modelo teórico até chegar-se a resultados satisfatórios. O objectivo é ajustar o melhor modelo ao semi-variograma empírico sobre os dados. O modelo que melhor se ajustar irá ser utilizado na interpolação. Para investigar a auto-correlação nos dados é necessário observar a dispersão dos pontos no semi-variograma em torno da curva do modelo teórico. Se os pontos estão próximos à curva do modelo numa direcção e estão espalhados noutra direcção então pode haver autocorrelação direccional nos dados em análise. Em todos os casos, a curva de ajuste do modelo teórico é um melhor ajuste (best fit) teórico ao semi-variograma empírico. É preciso também escolher o tamanho de lag adequado aos dados. Uma regra consensual é que o tamanho de lag multiplicado pelo número de lags seja menor que metade da distância maior no conjunto dos dados em análise. Para explorar a auto-correlação direccional nos dados, as características mais importantes do modelo são três, conforme ilustrado na Figura 32: 1. A distância da dependência espacial (a). Conhecida como alcance máximo (range) da dependência espacial. Indica a distância a partir da qual deixa de se verificar dependência entre as observações. A uma certa distância o modelo estaciona; 53 Investigação da estrutura espacial. 78 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga observações que estão separadas por distâncias menores que o alcance máximo estão espacialmente auto-correlacionadas e localizações mais afastadas que o alcance máximo não estão; 2. O efeito de pepita (nugget effect). É o valor da semi-variância à distância 0 (zero). Teoricamente, a uma distância de lag = 0 (zero), o valor de semi-variância deveria ser também 0 (zero). No entanto, a uma escala infinitesimalmente pequena de distâncias de separação (lag), a diferença entre amostras não tende para 0 (zero). Isto é chamado de efeito de pepita. Na prática, se o modelo de semi-variograma interceptar o eixo γ no valor 2, então o efeito de pepita é 2. Este efeito pode ser atribuído a erros de medição ou fontes de variação espacial a distâncias inferiores ao intervalo de amostragem, ou a ambos. Antes de recolher os dados é importante compreender as escalas a que ocorre a variação espacial que se irá analisar; e, 3. A altura (C) ou sill. Altura que o semi-variograma alcança o seu patamar. É frequentemente composto por uma descontinuidade na origem, o efeito de pepita, e pela altura parcial, que adicionada ao efeito de pepita resulta na altura total. O patamar representa a altura na qual o semi-variograma se estabiliza, aproximandose da variabilidade total dos valores amostrados (que teoricamente é equivalente à variância a priori). 79 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga γ* Altura parcial ou Sill parcial (C) Altura ou Sill Efeito de pepita (nugget) a 0 h Alcance ou Range (a) Figura 31 - Anatomia do semi-variograma Além destes parâmetros há ainda a considerar as influências direccionais, que determinam se um dado conjunto de observações, descreve um processo isotrópico ou anisotrópico. Se for isotrópico, a dependência é apenas função da distância e não da direcção. Quando se verifica anisotropia, esta pode ser geométrica (quando o alcance (a) muda com a direcção mas a altura (C) permanece constante) ou zonal (quando a altura muda com a direcção mas o alcance permanece constante). O modelo teórico ideal para o semi-variograma é o modelo esférico (Figura 32), que é o mais simples. Existem mais modelos e cada um é desenhado para se ajustar a diferentes tipos de fenómenos espaciais. 80 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga γ γ Esférico Altura parcial (C) Exponencial C Efeito Æ de 0 pepita Altura parcial (C) a h Alcance Efeito Æ 0 de pepita γ Alcance γ Linear Gaussiano Altura parcial (C) Efeito Æ 0 de pepita h Altura parcial (C) h Alcance Efeito Æ 0 de pepita h Alcance Figura 32 - Alguns dos modelos teóricos de semi-variograma possíveis O modelo de melhor ajuste ao conjunto de dados influência a interpolação dos valores não amostrados, particularmente, quando a forma da curva próximo da origem se altera significativamente. Quanto mais acentuada for a curva próximo da origem, maior a influência dos vizinhos mais próximos na estimativa dos valores não observados. Para o cálculo do semi-variograma, sobretudo quando se têm observações irregularmente espaçadas no campo, é necessário considerar parâmetros como a distância lag (distância entre dois pontos de valores observados - Figura 32). Sabe-se que a estimativa do variograma é menos precisa com maiores lags, pelo que se utiliza a convenção de estimar o variograma para um lag menor que a metade do lag máximo – SOARES (2006). 81 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Largura de banda (bandwidth) Ângulo Lag h Lag Lag Fonte: Adaptado de JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003). Figura 33 - Parâmetros de modelação da área de influência a aplicar sobre os dados de análise estrutural O ângulo determina que valores próximos serão incluídos ou excluídos até ser alcançada a abertura do ângulo definida (bandwidth), que especifica quão abrangente será a procura na determinação de que pares de observações serão representados no semi-variograma. A selecção do tamanho de lag, tem efeitos importantes no semi-variograma empírico. Por exemplo, se o tamanho de lag for demasiado grande (caso do semi-variograma apresentado na análise exploratória de dados) a auto-correlação de curta distância irá ser mascarada. Por outro lado, se o tamanho de lag for demasiado pequeno, poderão surgir demasiados grupos de semi-variância vazios, não sendo possível representar essas classes devido ao número de observações ser demasiado pequeno para ser considerado representativo (facto especialmente evidente na superfície do semi-variograma). Se os dados foram adquiridos utilizando um esquema de amostragem irregular ou aleatório, a selecção do lag adequado não é assim tão simples. Como regras, tem-se que se o alcance (range) do modelo ajustado de semi-variograma for demasiado pequeno, relativamente à extensão do semi-variograma empírico, então pode-se diminuir o tamanho 82 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga de lag (a distância a considerar). Inversamente, se o alcance do modelo ajustado ao semivariograma for grande relativamente à extensão do semi-variograma empírico então podese aumentar o tamanho de lag. Para os dados aqui analisados, a análise exploratória ajudou a verificar que entre, aproximadamente, 1700m e 2200m da Central deixa de haver auto-correlação espacial, em diferentes direcções, pelo que a multiplicação do tamanho de lag com o número de lags deve resultar num valor dentro deste intervalo de distância no ajuste do modelo final se não se remover o parâmetro da tendência global. Erros de medição Existindo erros de medição nos dados, por exemplo: se existirem medições múltiplas por localização, devem-se utilizar modelos de erros de medição. Três dos métodos kriging (ordinário, simples e universal) permitem a modelação de modelos de erros de medição, que podem ter ocorrido quando se encontram várias medições na mesma localização que diferem entre si. Neste caso, pode-se dividir a amostra em vários subconjuntos e avaliá-la assim – se for sabido que o instrumento de medição pode ter variações de precisão. Quando não existem erros de medição, o kriging é um interpolador exacto, isto é, se uma estimativa é calculada para uma localização onde se recolheu uma observação, o valor estimado será igual ao valor medido. O efeito de escolher modelos com erros de medição é um mapa final mais suavizado e com menores erros padrão que a versão de kriging exacto. Para os dados de atenuação, porque os valores anormais se devem em média a 90% de problemas na casa do Cliente (com as tomadas, interferências electromagnéticas, etc.)54 e não a problemas do lado da rede, os aparentes ‘erros de medição’ ou candidatos a outliers dos dados poderão dar importantes informações para a intervenção técnica por parte do 54 Segundo comunicação pessoal do Eng. Luís Filipe Tavares, Director de Engenharia de Acesso e Transporte da Sonaecom. 83 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Operador na casa do Cliente aquando a instalação do serviço corrigindo os problemas, com o menor impacto no Cliente. Influências direccionais Por se estar a trabalhar num espaço bidimensional, é expectável que as funções de semivariância se alterem não só com a distância mas também com a direcção. Este fenómeno, a ocorrer, é denominado de anisotropia e pode ser modelado antes da interpolação propriamente dita. Enquanto o modelo isotrópico é o mesmo qualquer que seja a direcção, o modelo anisotrópico alcança o patamar (sill) mais rapidamente numas direcções do que noutra(s). O comprimento do eixo maior a alcançar o patamar é chamado de maior alcance e o do eixo menor a alcançá-lo é chamado de menor alcance. Além dos eixos maior e menor, há ainda a ter em conta o ângulo de rotação do eixo de maior alcance. Nas primeiras experiências empíricas com a modelação das influências direccionais para os dados de atenuação, revelou-se indiferente a modelação não automática da inclusão ou não de anisotropias no modelo ajustado, pelo que na fase de testes desta dissertação ir-se-á experimentar as influências direccionais em modo automático apenas. Relações de vizinhança Partindo do princípio de que eventos mais próximos são mais semelhantes, a certa distância, os valores deixarão de ter correlação com a localização a estimar e é possível que até possam já estar localizados numa zona de características muito diferentes da localização não observada, que se pretende estimar. Por estas razões, deve-se parametrizar a vizinhança. Existem dois mecanismos de controlo para limitar os valores a utilizar, nomeadamente, definir a forma do polígono de pesquisa de valores localizados na vizinhança de uma dada localização e estabelecer os constrangimentos aos valores que se incluírem dentro desse polígono (por exemplo, os pesos que cada um terá na estimativa do valor desconhecido). 84 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga O polígono de procura de vizinhança é definido pelos dados existentes. Por exemplo, se os dados estão distribuídos espacialmente de forma estruturada, como no caso de as observações estarem espaçadas sempre à mesma distância qualquer que seja a direcção, e não existirem influências direccionais (anisotropia), podem-se incluir pontos distribuídos da mesma forma em todas as direcções desde a localização desconhecida. No entanto, sabendo que existem influências direccionais, pode utilizar-se um polígono de forma elíptica para procura dos vizinhos, com o seu eixo maior paralelo ao eixo de maior auto-correlação para interpolar a superfície estimada. Desta forma, garante-se o valor da localização a estimar irá ter em conta mais valores observados na mesma direcção de auto-correlação preferencial do fenómeno - nesta direcção os pontos observados apresentam maior autocorrelação até maiores distâncias com a localização que se desconhece o valor do que noutras direcções. Portanto, a forma do polígono de procura de vizinhança deve basear-se no entendimento das localizações espaciais e das influências direccionais da auto-correlação espacial do conjunto de dados. Antes da selecção dos modelos a testar para os dados de atenuação experimentaram-se, empiricamente, vários tipos de formas geométricas e número de sectores, verificando-se que uma forma elíptica, com quatro sectores, com um limite máximo de 5 e limite mínimo de 2 observações por sector é suficiente para descrever as relações de vizinhança dos dados, com ou sem influências direccionais. Como se decidiu modelar as influências direccionais em modo automático, da mesma forma não se ajustaram as distâncias calculadas automaticamente pelo software para os semi-eixos maior e menor, nos casos em que se considerou anisotropia. Tendências determinísticas globais Conceptualmente, a tendência global é fixa, o que significa que simulando os dados vez após vez, a tendência nunca se deverá alterar. No entanto, observam-se flutuações nas superfícies simuladas devido aos erros aleatórios de auto-correlação (tendências locais). Normalmente, a tendência global altera-se gradualmente através do espaço enquanto os erros aleatórios se alteram mais rapidamente. 85 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Se se optar por remover a tendência, prossegue-se com a modelação kriging para os residuais, tendências locais, embora antes da interpolação final ser calculada, a tendência global seja adicionada de novo para o cálculo da interpolação final. A ordem polinomial da tendência global deve ser mantida o mais baixa possível a menos que se tenham boas razoes para o contrário, para manter a simplicidade do modelo e introduzir menos fontes de suavização na interpolação final. Sendo o fenómeno em análise mais propenso a tendências locais, pode fazer sentido remover a tendência global para se ajustar o modelo teórico a uma escala de análise menor. Para os dados de atenuação experimentaram-se ambas as situações, com e sem consideração da tendência global. Interpolação kriging Para o conjunto de dados de análise estrutural, sem candidatos a outliers, divididos em dados de treino e teste (numa proporção de 90%-10%), decidiu-se testar um conjunto de 21 variações de kriging ordinário utilizando as seguintes parametrizações: • Com e sem tendência global; • Três modelos de ajuste teórico: esférico, exponencial e gaussiano; • Com e sem influências direccionais; • Com dois tipos de patamar: um automático, calculado pelo software, e outro equivalente à variância a priori do conjunto de dados considerado (cujo valor é de 165,65); • Também com dois tipos de tamanho e número de lags: com tamanho de lag e número de lags automáticos e com tamanho de lag e número de lags ajustados para 220 e 10, respectivamente; e, finalmente, • Parametrização da vizinhança automática. 86 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Tabela 4 – Divisão do conjunto de dados da análise estrutural, utilizados para os 21 testes de kriging Dados Observações Treino 291 Teste 33 Tabela 5 - Parâmetros para os 21 testes de kriging, realizados com dados de treino e teste Parâmetros Teste Tendência global Modelo teórico 1 detr_anis_stdsill_sph Não (100% global; 2a ordem) Esférico Automático Sim Automático 2 detr_anis_stdsill_exp Não (100% global; 2a ordem) Exponencial Automático Sim Automático 3 detr_anis_stdsill_gau Não (100% global; 2a ordem) Gaussiano Automático Sim Automático 4 detr_isot_varsill_sph Não (100% global; 2a ordem) Esférico Automático Não Ajustado (var = 165,65) 5 detr_isot_varsill_exp Não (100% global; 2a ordem) Exponencial Automático Não Ajustado (var = 165,65) 6 detr_isot_varsill_gau Não (100% global; 2a ordem) Gaussiano Automático Não Ajustado (var = 165,65) 7 detr_isot_stdsill_sph Não (100% global; 2a ordem) Esférico Automático Não Automático ID Lag Influências direccionais Patamar 87 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 8 detr_isot_stdsill_exp Não (100% global; 2a ordem) Exponencial Automático Não Automático 9 detr_isot_stdsill_gau Não (100% global; 2a ordem) Gaussiano Não Automático 10 ndetr_anis_varsill_sph Sim Esférico Sim Ajustado (var = 165,65) 11 ndetr_anis_varsill_exp Sim Exponencial Sim Ajustado (var = 165,65) 12 ndetr_anis_varsill_gau Sim Gaussiano Sim Ajustado (var = 165,65) 13 ndetr_anis_stdsill_sph Sim Esférico Sim Automático 14 ndetr_anis_stdsill_exp Sim Exponencial Sim Automático 15 ndetr_anis_stdsill_gau Sim Gaussiano Sim Automático 16 ndetr_isot_varsill_sph Sim Esférico Não Ajustado (var = 165,65) 17 ndetr_isot_varsill_exp Sim Exponencial Não Ajustado (var = 165,65) 18 ndetr_isot_varsill_gau Sim Gaussiano Não Ajustado (var = 165,65) 19 ndetr_isot_stdsill_sph Sim Esférico Não Automático 20 ndetr_isot_stdsill_exp Sim Exponencial Não Automático 21 ndetr_isot_stdsill_gau Sim Gaussiano Automático Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Ajustado (tamanho de lag = 220; Lags = 10) Não Automático 88 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Dos 21 testes de kriging propostos, ir-se-á testas os que obtiverem melhores resultados no conjunto de dados original, incluindo todos os valores e candidatos a outliers, de forma a testar se os dados originais são um conjunto de dados robusto ou relativamente permeável a dados anormais. Este passo permitirá aferir se os candidatos a outliers têm um grande impacto no resultado da interpolação ou não. 3. Validação dos resultados O software utilizado permite avaliar os resultados da interpolação a partir de duas técnicas de validação: (1) a validação simples e (2) a validação cruzada. Ambas as validações são utilizadas nesta dissertação para avaliar os resultados dos testes realizados e ter uma ideia de quão bem os modelos testados interpolam os valores de localizações cujo valor se desconhece. No caso da validação simples, antes de se realizar os testes propostos, uma parte dos dados deve ser retirada do conjunto total de dados iniciais; o conjunto retirado passa a ser o subconjunto de dados de teste. Utilizam-se os restantes dados, o subconjunto de dados de treino, para parametrizar o modelo teórico a utilizar para a interpolação. Ao ajustar-se um modelo teórico sobre o subconjunto de dados de treino, não se verifica directamente o modelo final (que deveria incluir todos os dados disponíveis) mas, na impossibilidade de obter um conjunto adicional de observações para validação, este tipo de validação simples serve para verificar se os ajustes realizados são válidos55. Se a parametrização funcionar para o subconjunto de dados de validação (dados de teste), é esperado que também se aplique à totalidade dos dados. Na validação cruzada, todos os dados são utilizados para a interpolação. Após a aplicação do modelo ajustado aos dados, na fase de validação cruzada, cada valor observado (um de cada vez) vai sendo omisso do conjunto de dados, sendo interpolado o seu valor de acordo com o modelo parametrizado. O valor observado para aquela localização é adicionado de novo ao conjunto de dados e ambos os valores, estimados e observados, para cada 55 Escolha do modelo teórico de semi-variograma, escolha do tamanho de lag, escolha dos parâmetros de vizinhança, etc.. 89 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga localização para o qual se efectuou validação cruzada são comparados. Este processo é repetido para cada valor observado do conjunto de dados. Para todos os valores do conjunto de dados, a validação cruzada compara o valor estimado com o valor observado. O tipo de gráficos e estatísticas utilizadas para comparar valores estimados e observados são semelhantes para ambas as validações. No caso do software utilizado nesta dissertação, estão disponíveis quatro tipos de gráficos: 1. Gráfico de valores estimados face a valores observados; 2. Gráfico de erros; 3. Gráfico de erro padrão; e, 4. Gráfico de quantis normais. Os primeiros três gráficos, em particular, ajudam a evidenciar a qualidade do estimador kriging parametrizado para a interpolação dos valores desconhecidos. Seja qual for o gráfico, quanto mais próxima a distribuição de valores em torno das respectivas rectas de regressão melhor. Além dos gráficos, são calculadas estatísticas sobre os erros de interpolação: • Erro Médio (Mean), que deverá ser o mais próximo possível de 0 (zero); • Erro Quadrático Médio (Root-Mean-Square) e Erro Padrão da Média (Average Standard Error), que deverão ser o mais próximos possível um do outro; • Erro Relativo Médio (Mean Standardized), que deverá ser o mais próximo possível de 0 (zero); e, • Erro Relativo Quadrático Médio (Root-Mean-Square Standardized), que deverá ser o mais próximo possível de 1 (um).56 56 SOUSA; MUGE (1990) e JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003). 90 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Um dos objectivos finais da interpolação é que esta seja centrada nos valores observados (portanto, não enviesada), pelo que o Erro Médio deverá ser próximo de 0 (zero). No entanto, este valor depende da escala dos dados, pelo que devem ser normalizados; daqui obtêm-se o Erro Relativo Médio (Erro Médio dividido pelo Erro Padrão da Média), cujo resultado deverá ser também próximo de 0 (zero). Outro objectivo é que a interpolação seja a mais próxima possível dos valores observados. O Erro Quadrático Médio é a raiz quadrada da média dos quadrados das distâncias dos valores interpolados e observados. Quanto mais próximos os valores interpolados dos valores observados menor será este erro, que é particularmente útil na comparação de diferentes modelos. Regra geral, quando menor for o Erro Quadrático Médio dos valores interpolados, melhor. Finalmente, pretende-se que a avaliação da incerteza seja válida. Cada modelo de kriging dá uma estimativa do Erro Padrão kriging para os valores interpolados. Além de se fazer uma interpolação, pretende-se estimar a sua variabilidade, com a informação dos valores observados. Se o Erro Padrão da Média estiver próximo do Erro Quadrático Médio, então está-se correctamente a avaliar a variabilidade no modelo ajustado e, nesse caso, se o Erro Padrão da Média for maior que o Erro Quadrático Médio, então está-se a sobrestimar a variabilidade no modelo ajustado; caso contrário, está-se a subestimar a sua variabilidade. O Erro Relativo Quadrático Médio dos valores interpolados deve ser próximo de 1 (um) se o Erro Padrão da Media for válido. Se o Erro Relativo Quadrático Médio for maior que 1 (um), então está-se a subestimar a variabilidade da interpolação no modelo ajustado; caso contrário, estar-se-á a sobrestimar essa variabilidade. Outra forma de avaliar a qualidade de um modelo de interpolação é através da comparação entre modelos, podendo assim determinar-se quão bons são os modelos utilizados para criar duas interpolações. Podem-se comparar interpolações com modelos diferentes (para avaliar qual o que melhor se aplica aos dados) ou interpolações criadas a partir do mesmo modelo, mas com parametrizações diferentes (avaliando o efeito de diferentes parametrizações na interpolação final). 91 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Na comparação entre modelos utilizam-se as mesmas estatísticas. O melhor modelo será aquele que tem o Erro Relativo Médio mais próximo de 0 (zero), o menor Erro Quadrático Médio e o Erro Relativo Quadrático Médio mais próximo de 1 (um). Nesta comparação entre modelos podem levantar-se duas questões: (1) a da optimalidade e (2) a da validade. O Erro Quadrático Médio pode ser menor para um dos modelos, podendo por isso concluir-se que esse é o modelo óptimo. Mas, quando comparado com outro modelo, o Erro Quadrático Médio pode estar mais próximo do Erro Padrão Médio, o que faz desse um modelo mais válido porque quando se interpola um valor numa localização desconhecida, só existe o Erro Padrão para avaliar a incerteza dessa interpolação. Quando o Erro Padrão Médio está próximo do Erro Quadrático Médio da validação, então pode-se confiar na validade do Erro Padrão Médio. Resultados dos testes kriging Do conjunto de 21 testes realizados, dos quais se apresentam os resultados obtidos nas respectivas validações (simples e cruzada) em Apêndice, Tabela 8, destacam-se 4 modelos. O método utilizado para encontrar os melhores modelos foi o de classificar o primeiro e o segundo melhor valor para cada erro calculado, tanto na validação simples como na validação cruzada, e contabilizar para cada modelo testado quantas vezes teve o melhor ou o segundo melhor erro. Quando um dado modelo teve o melhor valor para um dado erro somaram-se 2 valores e quando teve o segundo melhor valor para um dado erro somou-se 1 valor. O maior somatório do número de melhores primeiro e segundo valores de erro em cada modelo permitiu seleccionar 4 modelos com comportamentos aceitáveis: 1. O número 12, um modelo gaussiano (Apêndice, Figura 40); 2. O número 9, também um modelo gaussiano (Apêndice, Figura 41); 3. O número 5, um modelo exponencial (Apêndice, Figura 42); e, 4. O número 10, um modelo esférico (Apêndice, Figura 43). 92 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Com os parâmetros destes 4 modelos que apresentaram os melhores comportamentos para os dados de treino e teste sem os candidatos a outliers identificados na análise exploratória de dados, decidiu-se experimentar os mesmos 4 modelos para o conjunto inicial de dados (incluindo os candidatos a outliers) de modo a determinar se o conjunto de dados inicial é muito sensível ou não a valores anormais; se é um conjunto de dados robusto ou relativamente permeável a esse tipo de valores. Tabela 6 - Conjunto de dados utilizados para os segundos testes de kriging Dados Observações Treino 463 Teste 52 Tabela 7 - Parâmetros para os segundos testes kriging, realizados com dados de treino e teste incluindo valores candidatos a outliers Parâmetros ID 12 9 5 10 Teste ndetr_anis_varsill_gau detr_isot_stdsill_gau detr_isot_varsill_exp ndetr_anis_varsill_sph Tendência global Sim Não (100% global; 2a ordem) Não (100% global; 2a ordem) Sim Modelo teórico Gaussiano Gaussiano Exponencial Esférico Lag Ajustado (tamanho de lag = 220; lags = 10) Ajustado (tamanho de lag = 92,385; lags = 12) Ajustado (tamanho de lag = 92,385; lags = 12) Ajustado (tamanho de lag = 220; lags = 10) Influências direccionais Patamar Sim Ajustado (var = 165,65) Não Ajustado (var = 30,713) Não Ajustado (var = 165,65) Sim Ajustado (var = 165,65) Do conjunto de 4 testes realizados, dos quais se apresentam os resultados obtidos nas respectivas validações (simples e cruzada) em Apêndice, Tabela 9, destaca-se 1 de entre os 4 modelos. O método utilizado para encontrar o melhor modelo foi o mesmo utilizado para o 93 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga primeiro grupo de testes kriging. Para o conjunto de dados original, incluindo candidatos a outliers, o modelo com melhor desempenho é o número 9, um modelo gaussiano. Figura 34 - Modelo com a 1ª melhor classificação no conjunto de 4 testes kriging realizados para dos dados originais Quando comparados os resultados do modelo 9 – dados de treino (sem candidatos a outliers) com os do modelo 9 - dados originais (com todos os valores observados), o segundo apresenta-se com um comportamento robusto, não muito sensível à presença de valores anormais, eventualmente candidatos a outliers, conforme demonstram os dados da Figura 35. 94 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Gráfico de valores Interpolados/Observados Gráfico de Erro Gráfico de Erro Padrão Gráfico de Quantis Normais do Erro Padrão Resumo Dados originais Resumo Dados de treino Figura 35 - Gráficos dos erros de interpolação kriging para o melhor modelo dos dados originais em comparação com o mesmo modelo para os dados de treino Em termos gerais, para os gráficos de valores interpolados e observados, Erro e Erro Padrão, os valores devem dispersar-se idealmente junto da recta de regressão. A inclinação é normalmente menor que 1 (um), porque a técnica kriging tende a subestimar valores maiores e sobrestimar valores menores. O gráfico de valores interpolados face aos observados mostra os valores de cada conjunto; o gráfico de Erro é o mesmo, excepto que os valores observados são subtraídos aos valores interpolados. No gráfico de Erro Padrão os valores observados são subtraídos aos valores interpolados e divididos pelos erros padrão kriging interpolados. Finalmente, o gráfico de quantis normais mostra os quantis das diferenças entre os valores interpolados e observados, divididos pelos Erros Padrão kriging interpolados e os correspondentes quantis de uma distribuição normal. Se os erros dos valores interpolados em relação aos valores observados estão normalmente distribuídos, podem-se utilizar os métodos kriging que partem do pressuposto da normalidade (por exemplo, mapas de probabilidade do kriging ordinário). 95 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga A dispersão de valores nos vários gráficos é menor para os dados originais, o que sugere uma melhor interpolação com os dados originais do que com os dados de treino. Ambas as distribuições estão próximas da normal. Em termos estatísticos, os erros calculados para o modelo 9 – dados originais, mostram que é um modelo válido dado que a diferença entre Erro Quadrático Médio e Erro Padrão Médio é menor nesse modelo (0,008) que no mesmo modelo 9 mas aplicado aos dados de treino (0,149). Quando o Erro Padrão Médio está próximo do Erro Quadrático Médio da validação, pode-se confiar na validade do Erro Padrão Médio. Visualmente, a interpolação utilizando o modelo 9 para cada um dos conjuntos de dados resulta nos mapas da Figura 36. Dados sem candidatos a outliers Dados com candidatos a outliers Figura 36 - Mapa de interpolação kriging dos valores de atenuação para o conjunto de dados sem candidatos a outliers e para o conjunto de todos os dados (com os candidatos a outliers) Utilizando os mesmo valores de corte para as classes de atenuação, o mapa de valores de atenuação interpolado para os dados de treino é mais grosseiro, mais suavizado que o 96 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga mapa para os dados originais. As influências direccionais são relativamente semelhantes, seguindo um eixo SSW-NNE. Calcularam-se também os mapas de Erro Padrão para os dois conjuntos de dados. Novamente, e sem utilizar as mesmas classes para ambos os conjuntos de dados, a variabilidade do Erro Padrão do mapa dos dados originais é maior que a apresentada no mapa dos dados de treino, embora o Erro Padrão dos dados originais seja mais elevado que o Erro Padrão dos dados de treino. Dados sem candidatos a outliers Dados com candidatos a outliers Figura 37 - Mapa de Erro Padrão kriging dos valores de atenuação para o conjunto de dados sem candidatos a outliers e para o conjunto total de dados (com os candidatos a outliers) Dado que ambos os conjuntos de dados se aproximam de uma distribuição normal, calcularam-se, com base no mesmo modelo 9 (o kriging que melhor resultados apresentou), mapas de probabilidade para os vários níveis de corte da atenuação para os quais se conhecem as classes de elegibilidade com os resultados apresentados na Figura 38 e na Figura 39. 97 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Ambas as figuras mostram uma superfície muito suavizada nos mapas realizados com base nos dados de treino, devido a terem-se retirado os valores candidatos a outliers, enquanto os mapas realizados com base nos dados originais, incluindo candidatos a outliers mostram superfícies com uma granularidade de probabilidade maior. 3 STB 2 STB 1 STB Figura 38 - Probabilidade de elegibilidade Triple Play, com base nos dados de treino 98 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 3 STB 2 STB 1 STB Figura 39 - Probabilidade de elegibilidade Triple Play, com base nos dados originais 99 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga V. Discussão, Conclusões e Recomendações Ao longo da investigação apresentada pretendeu-se não só dar uma nova interpretação aos dados geográficos, e não geográficos, de que dispõe habitualmente um Operador Entrante de telecomunicações, bem como utilizar metodologias e técnicas da análise espacial e da geoestatística que, embora conhecidas, normalmente não são utilizadas no campo das telecomunicações. Os resultados obtidos trouxeram novas provas para sustentar um assunto já conhecido: os problemas em determinar, com precisão, a elegibilidade para serviços de banda larga sobre a rede de cobre. Com estimadores kriging pode-se melhorar substancialmente o que são apenas coberturas teóricas de serviço grosseiras57, em termos de aproximação à realidade e à atenção que a análise do fenómeno da atenuação requer. A ideia foi explorar um tratamento conhecido da geoestatística estocástica, que pode ser discutida a vários níveis de complexidade matemática, para entender como se pode utilizar técnicas da geoestatística para o problema de conseguir a melhor estimativa de valores desconhecidos dentro de uma região, para poder prever classes de serviço e respectivos níveis de confiança com base em amostras pontuais. À medida que as telecomunicações se vão tornando mais complexas em termos de tecnologias que aproveitam redes existentes mais antigas e que ao mesmo tempo em lógicas de mercado aberto se partilham as infra-estruturas existentes, o grau de conhecimento que se tem da infra-estrutura tende a conter cada vez mais factores aleatórios a ter em conta e que podem interferir na forma como se faz uma oferta de serviços, como se faz estratégica, controle de custos, dimensionamento de uma força de vendas, etc.. Os próximos passos deverão passar por testar a relevância e aplicabilidade dos modelos aqui apresentados para ajudar a classificar a elegibilidade para outras Áreas Locais a fim de verificar se o comportamento é independente da localização geográfica e se faz sentido falar de um modelo de elegibilidade global, que se aplique a todas as Áreas Locais ou, pelo menos, a Áreas Locais integradas num mesmo Grupo de Redes. 57 Baseadas quer em distâncias lineares a partir de uma dada Central ou em distâncias através dos eixos de via. 100 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Os modelos identificados como melhores deveriam ser testados com informação adicional de campo, o que pode ser realizado com um acompanhamento da implementação deste tipo de tecnologias dado que à medida que a rede de Clientes cresce é possível completar a análise e reformulá-la, de forma a completar a precisão das previsões de elegibilidade para serviços de telecomunicações de banda larga. Em termos de contributos para a qualificação da rede, poder-se.á explorar e tentar chegar à configuração da rede de cobre a partir da análise realizada para a elegibilidade, ter uma ideia da implementação territorial da rede de cobre. Um dos pontos de partida, geograficamente falando, poderá ser utilizar a informação disponível do INE, relativamente à idade dos edifícios que, relacionada com os eixos viários (para além das medições de sinal georreferenciadas), poderão contribuir com pistas sobre o desenvolvimento da rede de cobre na Área Local em estudo. No decorrer da realização da presente dissertação fizeram-se alguns testes com os dados disponíveis, inconclusivos. A informação disponível no INE não tem a granularidade necessária para avaliar se esta ideia pode ser verificada apenas com esses dados (eixos de via, idade dos edifícios e observações de atenuação). Pode ser um caminho a explorar, com informação de mais detalhe ao nível da idade dos edifícios, não apenas ao nível macro de uma subsecção mas sim para cada edifício, individualmente. Independentemente dos estudos adicionais que se sugerem como necessários, com uma análise do tipo da apresentada, o Operador de telecomunicações poderá gerar informação para responder adequadamente a questões relativas: 1. Ao potencial de mercado; 2. À segmentação de Clientes e possíveis Clientes (por tipo de mercado, serviços, etc.); 3. Ao estabelecimento de estratégias de penetração (fazer corresponder novos produtos e serviços com o perfil de Cliente); 4. A melhorar a precisão de operações de Marketing Directo (aumentar a rentabilidade das campanhas e reforçar o lado personalizado da acção de Marketing, para fidelizar o Cliente; distribuir promoções); 101 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 5. A prever acções dos concorrentes; 6. A preparar acções de Marketing; 7. A avaliações de pós-implementação: • Analisar a aceitabilidade, fidelidade e satisfação de cada produto e/ou serviço; • Estudar as áreas de influência de cada produto e/ou serviço; • Avaliar resultados técnicos; • Refinar a rede de distribuição (identificar áreas não cobertas ou exploradas). A resposta a estes pontos são fundamentais para avaliar o desempenho técnico bem como comercial de um Operador e justificar o seu negócio. 102 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Referências bibliográficas Documentos impressos BAILY, Trevor C.; GATRELL, Anthony C. (1995) - Interactive Spatial Data Analysis, Longman, 413pp.. BURROUGH, Peter A.; MCDONNELL, Rachel A. (2006) – Principles of Geographical Information Systems, Oxford University Press, 333pp.. CEIA, Carlos (2005) – Normas para Apresentação de Trabalhos Científicos, Editorial Presença, 5ª edição, Lisboa, 77pp.. COURTNEY, Steven (2000) – Understanding xDSL loop testing in the physical copper layer, Spirent Communications. Documentos técnicos e comerciais internos à du – Emirates Integrated Telecommunications Company (2007 – 2008), Policop., Dubai, Emirados Árabes Unidos. Documentos técnicos e comerciais internos à Sonaecom (2000 – 2007), Policop., Lisboa, Portugal. ECO, Umberto (2005) – Como se faz uma tese em ciências humanas, Editorial Presença, 12ª edição, Lisboa, 238pp.. JOHNSTON, Kevin; HOEF, Jay M. Ver; KRIVORUCHKO, Konstantin; LUCAS, Neil (2003) – ArcGIS 9, Using ArcGIS Geostatistical Analyst, ESRI, 300pp.. LONGLEY, Paul A.; GOODCHILD, Michael F.; MAGUIRE, David J.; RHIND, David W. (2007) – Geographic Information Systems and Science, John Wiley & Sons Ltd., 517pp.. POLÈSE, Mario (1998) – Economia Urbana e Regional – Lógica espacial das transformações económicas, Colecção APDR, Coimbra, 377pp.. RODRIGUES, Pedro Luís Dias; SOBRAL, Pedro Nuno Gonçalves (2002) – “Fixed Wireless Access”, FEUP - Departamento de Engenharia Electrotécnica e de Computadores, 103 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Licenciatura em Engenharia Electrotécnica e de Computadores, cadeira de SISTEMAS DE TELECOMUNICAÇÕES II – 2002/2003, Prof. Mário Jorge Leitão. SOARES, Amílcar (2006) – Geoestatística para as ciências da terra e do ambiente, Instituto Superior Técnico Press, Lisboa, 214pp.. SOUSA, António; MUGE, Fernando (1990) – Elementos de geoestatística, Laboratório de Mineralurgia e Planeamento Mineiro, Janeiro, policop., 58pp.. TANENBAUM, Andrew S. (1996) – Computer Networks, Prentice Hall, Third Edition, United States of America, 813pp.. Documentos electrónicos APDSI. Glossário da Sociedade da Informação. 2005. Disponível no URL: http://purl.pt/426/1/ AWARE. ADSL2 and ADSL2+, the new ADSL standards white paper. 2002. Disponível no URL: http://www.dslprime.com/a/adsl21.pdf BANGEMANN, M. et al. - Recommendations to the European Council - Europe and the global information society. 1994. Disponível no URL: http://europa.eu.int/ISPO/infosoc/backg/bangeman.html CLARK, Isobel. Practical Geostatistics. 13 de Julho, 2001 Disponível no URL: http://www.kriging.com/PG1979/PG1979_pdf.html COELHO, Paulo. Tecnologias xDSL para pares de cobre. Redes e serviços em banda larga. 2002. Disponível no URL: http://www.estv.ipv.pt/paginaspessoais/pcoelho/disciplinas/rsbl/apontamentos/xdsl.pdf 104 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Estatística http://www.explicacoes.com/apontamentos/estatistica_probabilidades.pdf HOLTE, Nils. Bredbåndsteknologier, ytelser og begrensninger. 2003 Disponível no URL: http://www.iet.ntnu.no/projects/beats/Documents/Maaletekn03.pdf ITU, Asymmetric Digital Subscriber Line (ADSL) transceivers – Extended bandwidth ADSL2 (ADSL2+). Maio 2003. Disponível no URL: http://www.itu.int/rec/T-REC-G.992.5-200305-S/en JENKS, George F., Generalization in Statistical Mapping. Março 1963. Disponível no URL: http://www.jstor.org/pss/2569134 MATEUS, Abel M. - As Telecomunicações e o Mercado Único. Disponível no URL: http://www.autoridadedaconcorrencia.pt/vImages/Telecomunicacoes_e_Mercado_Unico.pdf NEXTEP Broadband. DSL Variations. Definitions and differences of Digital Subscriber Line variations. 2001. Disponível no URL: http://www.nextep.com.au/upload/DSL_Variations.pdf ORALL - Oferta de Referência para Acesso ao Lacete Local. 22-08-2006. Disponível no URL: http://ptwholesale.telecom.pt/GSW/PT/Canais/ProdutosServicos/OfertasReferencia/ORALL/ Orall.htm WILCOM, SELT & DELT FAQ. 2005. Disponível no URL: http://www.wilcominc.com/documents/WILCOM-FAQ-SELT-DELT.pdf Páginas Internet 105 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga http://www.biomedware.com/software/Atlas_WebHelp/interface/map/classify/About_natural_ breaks.htm http://www.terralib.org/index.php http://www.r-project.org/ http://www.ssg-surfer.com/ssg/detailed_description.php?products_id=135#features http://www.epa.gov/ada/csmos/models/geoeas.html http://en.wikipedia.org/wiki/Main_Page http://www.itu.int/net/home/index.aspx http://www.atis.org/glossary/ http://www.icp.pt http://www.autoridadedaconcorrencia.pt/ http://ptwholesale.telecom.pt/GSW/PT/ http://www.dslforum.org/index.shtml http://sigarra.up.pt/fbaup/web_base.gera_pagina?p_pagina=2464#Documentos%20impress os http://europa.eu/scadplus/glossary/television_pt.htm http://www.verio.com/support/files/glossary.cfm http://bandalarga.org/ http://www.internode.on.net/adsl2/ http://gasa.dcea.fct.unl.pt/gasa/tig/aulasteoricas.html http://www.duxus.com.br/produtos/tecnologia/addin/metrixus/manual/ http://www.dpi.inpe.br/terraview/ http://www.dpi.inpe.br/spring/ 106 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga https://repositorium.sdum.uminho.pt/bitstream/1822/4379/15/Cap%C3%ADtulo+5.pdf http://www.mct.uminho.pt/rmenezes/pdf/RMenezes_ClusterSV.pdf http://recursos.gabrielortiz.com/index.asp?Info=059 http://www.scholarpedia.org/article/DSL http://www-users.cs.umn.edu/~gandhi/courses/CS8701/g4_e2_semivariogram.pdf http://www.esri.com/software/arcgis/arcgisxtensions/geostatistical/research_papers.html http://www.dpi.inpe.br/terraview/index.php 107 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Apêndices Tabela 8 - Resultados das validações do primeiro grupo de testes Kriging, para o conjunto de dados sem candidatos a outliers Validação Cruzada (dados de treino) ID M RMS ASE Validação (dados de teste) ASE-RMS 12 0.003252 4.359000 5.744000 1.385000 9 - 0.040060 4.333000 4.184000 - 0.149000 5 0.031090 4.325000 5.921000 1.596000 10 - 0.085000 3.910000 5.462000 4 0.075210 4.319000 7 - 0.050200 19 ASE vs. RMS sobre MS RMSS RMSS 1-RMSS 0.006216 0.775900 sobre 0.224 - 0.008194 0.998700 sobre 0.001 sobre 0.001342 0.809900 sobre 0.190 1.552000 sobre - 0.006638 0.737000 sobre 0.263 4.470000 0.151000 sobre 0.006094 1.131000 sub - 0.131 4.311000 4.126000 - 0.185000 sub - 0.010750 1.008000 sub - 0.008 - 0.051910 4.031000 3.655000 - 0.376000 sub 0.001376 1.387000 sub - 0.387 21 0.114100 4.332000 4.554000 0.222000 sobre 0.032720 0.988700 sobre 0.011 1 0.080030 4.382000 4.199000 - 0.183000 sub 0.009531 0.990100 sobre 0.010 2 0.119400 4.448100 4.064000 - 0.384100 sub 0.016260 1.069000 sub 3 0.112100 4.443000 4.261000 - 0.182000 sub 0.016340 0.991400 sobre 6 0.104700 4.297000 4.006000 - 0.291000 sub 0.010360 1.098000 sub - 0.098 8 - 0.033850 4.361000 3.916000 - 0.445000 sub - 0.007399 1.171000 sub - 0.171 11 13 - 0.119600 - 0.076960 3.942000 4.040000 5.873000 3.661000 1.931000 - 0.379000 sobre sub - 0.009928 - 0.003100 0.699300 1.384000 sobre sub - 0.301 0.384 sub - 0.069 0.009 M 0.156500 0.616500 0.333000 0.466100 0.359600 0.580000 0.448600 0.246300 0.338200 0.318700 0.450200 0.578000 0.418300 0.552900 - ASE vs. RMS Contagem dos melhores erros RMS ASE ASE-RMS 4.923000 5.158000 sobre 5 5.571000 3.852000 0.235000 1.719000 sub 4 5.113000 5.485000 0.372000 sobre 3 4.844000 4.992000 sobre 2 5.161000 4.283000 sub 1 5.537000 3.774000 sub 1 4.948000 3.470000 sub 1 4.998000 4.061000 sub 1 5.139000 3.858000 sub 0 5.106000 3.702000 sub 0 5.164000 3.094200 sub 0 5.421000 3.807000 sub 0 5.391000 3.527000 0.148000 0.878000 1.763000 1.478000 0.937000 1.281000 1.404000 2.069800 1.614000 1.864000 sub 0 4.963000 5.417000 0.454000 - sobre sub 0 0 108 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga 14 - 0.097220 4.061000 4.767000 0.706000 sobre - 0.005071 1.029000 sub - 15 0.059610 4.287000 4.508000 0.221000 sobre 0.021560 0.989800 sobre 0.010 16 - 0.082370 3.966000 5.963000 1.997000 sobre - 0.005363 0.677700 sobre 0.322 17 - 0.121900 3.945000 6.173000 2.228000 sobre - 0.009589 0.657900 sobre 0.342 18 0.032450 4.401000 6.259000 1.858000 sobre 0.011240 0.716600 sobre 0.283 20 - 0.092480 4.043000 4.770000 0.727000 sobre - 0.004626 1.027000 sub - 0.029 0.027 0.418500 0.518900 0.262000 0.493200 0.562000 0.322600 0.498100 4.863000 3.488000 sub 0 4.043000 1.375000 0.540000 0.932000 5.039000 4.499000 4.975000 sub 0 4.928000 5.394000 0.466000 sobre 0 4.966000 5.635000 0.669000 sobre 0 5.074000 5.596000 sobre 0 5.002000 4.499000 0.522000 0.503000 sub 0 M – Erro Médio (Mean); RMS – Erro Quadrático Médio (Root-Mean-Square); ASE – Erro Padrão Médio (Average Standard Error); MS – Erro Relativo Médio (Mean Standardized); RMSS – Erro Relativo Quadrático Médio (Root-Mean-Square Standardized). Sub – Subestimado; Sobre – Sobrestimado. Segundo melhor resultado Melhor resultado Tabela 9 - Resultados das validações do segundo grupo de testes kriging, para o conjunto de dados incluindo os valores candidatos a outliers Validação Cruzada (dados de treino) ID M RMS ASE Validação (dados de teste) ASE-RMS ASE vs. RMS MS RMSS RMSS 1-RMSS 0.104 12 - 0.057730 7.553000 8.511000 0.958000 sobre - 0.003593 0.896000 sobre 9 - 0.032080 7.692000 7.700000 0.008000 sobre - 0.003126 1.021000 sub - 0.021 5 0.023340 8.735000 5.607000 - 3.128000 0.006424 2.122000 sub - 1.122 10 - 0.075030 7.586000 8.212000 0.626000 - 0.004449 0.942800 sobre sub sobre 0.057 M 0.686100 1.068000 1.526000 1.033000 RMS ASE 9.434000 7.376000 9.258000 6.702000 9.772000 5.091000 9.288000 7.141000 ASE-RMS 2.058000 2.556000 4.681000 2.147000 ASE vs. RMS Contagem dos melhores erros sub 5 sub 7 sub 2 sub 4 109 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Figura 40 - Modelo com a 1ª melhor classificação no conjunto de 21 testes kriging realizados Figura 41 - Modelo com a 2ª melhor classificação no conjunto de 21 testes kriging realizados 110 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Figura 42 - Modelo com a 3ª melhor classificação no conjunto de 21 testes kriging realizados Figura 43 - Modelo com a 4ª melhor classificação no conjunto de 21 testes kriging realizados 111 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Anexos Tabela 10 - Métodos de cálculo de valores para os polígonos de Voronoi Método Descrição Pode ser aplicado para determinar... Simples O valor atribuído a um dado polígono é o valor Influência local registado no ponto amostrado dento desse polígono. Média O valor atribuído a um dado polígono é a média Local Smoothing calculada dos valores desse polígono e de todas os polígonos vizinhos (polígonos directamente contíguos). Moda Todos os polígonos são agrupados em 5 classes de Local Smoothing intervalos. O valor atribuído a um dado polígono é a moda (a classe com maior frequência de ocorrência) de um dado polígono e os seus vizinhos. Cluster Todos os polígonos são agrupados em 5 classes de Candidatos a outliers intervalos. Se o intervalo de um dado polígono é locais diferente dos intervalos dos seus vizinhos, esse polígono é assinalado, diferenciando-se dos restantes. Entropia Todos os polígonos são agrupados em 5 classes de Variação local intervalos com base num agrupamento natural dos valores (i.e., smart quantiles). O valor atribuído a um polígono é a entropia que é calculada entre esse polígono e os seus vizinhos. A entropia mínima ocorre quando os valores de um polígono e ser vizinhos encontram-se todos na mesma classe. A entropia máxima ocorre quando cada polígono e seus vizinhos encontram-se em diferentes classes de intervalos. Mediana O valor atribuído a cada polígono é o valor da mediana Local Smoothing calculada da frequência de distribuição de um dado polígono e os seus vizinhos. 112 Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Desvio Padrão O valor atribuído a um polígono é o desvio padrão Variação local calculado entre esse polígono e os seus vizinhos. Intervalo inter- O primeiro e o terceiro quantis são calculados da quantis frequência de distribuição de um polígono e os seus (Interquartile vizinhos. O valor atribuído ao polígono é calculado range) subtraindo o valor do 1º quantil ao valor do 3º quantil. Variação local Fonte: JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003). Ordinário ou normal dos Indicadores Erros padrão probabilidade Mapa de Mapa de quantis Erros padrão (3) Estimativas cokriging Kriging e Tabela 11 - Resultados por método de interpolação kriging e cokriging Pressupostos Parâmetros Assume uma média Uma transformação constante incógnita apropriada, uma possível superfície de anulação de Sim Sim Sim(1) tendência Sim(1) (detrending), modelos de semivariograma e vizinhos mais Simples Universal próximos Assume uma Sim Sim (1) Sim (1) Sim tendência média Assume uma média Sim Sim (1) Sim (1) Sim constante conhecida 113 Indicador Elegibilidade e qualificação da rede de cobre para serviços de telecomunicações de banda larga Sim Assume uma média O threshold, constante incógnita modelos de semi- Sim variograma e covariância e Vizinhos mais próximos Probabilístico O threshold, modelos de semiSim Sim variograma e covariância e Vizinhos mais próximos Uma transformação Disjuntivo apropriada e eliminação da Sim(2) Sim(2) Sim(2) Sim(2) tendência, modelos de semi-variograma e co-variância e Vizinhos mais próximos (1) Parte do pressuposto de que se trata de uma distribuição normal. (2) Parte do pressuposto de que se trata de uma bivariação normal para cada par de amostras. (3) um mapa de erros padrão quantifica a incerteza da estimativa. Se os dados vêm de uma distribuição normal, o valor correcto será ± 2 vezes os erros padrão da estimativa, 95% das vezes aproximadamente. Fonte: JOHNSTON; HOEF; KRIVORUCHKO; LUCAS (2003). 114