universidade federal do abc - Pós
Transcrição
universidade federal do abc - Pós
UNIVERSIDADE FEDERAL DO ABC Curso de Pós-Graduação em Ciência da Computação Dissertação de Mestrado Luciano Rossi Caracterização de grafos de genealogia acadêmica por meio de métricas topológicas Santo André 2015 Curso de Pós-Graduação em Ciência da Computação Dissertação de Mestrado Luciano Rossi Caracterização de grafos de genealogia acadêmica por meio de métricas topológicas Trabalho apresentado como requisito parcial para a obtenção do título de Mestre em Ciência da Computação, sob orientação do Professor Doutor Jesús Pascual Mena-Chalco. Santo André 2015 Este trabalho contou com auxílio financeiro da Universidade Federal do ABC – UFABC (bolsa de mestrado, institucional), de março/2013 a janeiro/2014 e da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – CAPES (bolsa de mestrado, demanda social), de fevereiro/2014 a fevereiro/2015. Este exemplar foi revisado e alterado em relação à versão original, de acordo com as observações levantadas pela banca no dia da defesa, sob responsabilidade única do autor e com a anuência de seu orientador. Santo André, 03 de Agosto de 2015. Assinatura do autor: Assinatura do orientador: Agradecimentos Esta dissertação de mestrado representa um marco em minha história pessoal, pois trata-se da realização de objetivos que, até então, julgava impossíveis de serem feitos por mim. Agradeço a minha esposa, Rosana, que sempre foi a motivação maior para a superação de todos os desafios, aos meus filhos, Pedro e Julia, simplesmente por existirem e serem quem são. Ao prof. Jesús, por ser uma pessoa extremamente generosa e um orientador que reúne tudo aquilo que um orientado pode esperar: conhecimento, dedicação, paixão pelo saber, humildade no compartilhar, clareza na comunicação, paciência, respeito, companheirismo e um empenho inigualável em desenvolver o conhecimento científico com muita inspiração e trabalho duro. Obrigado, esteja certo que sua orientação impactou de forma relevante minha vida. Agradeço aos professores com os quais contei durante este período, especialmente: prof. Ronaldo Cristiano Prati, prof. Daniel Morgato Martin, prof. Etelvino José Henriques Bechara e prof. Igor Leite Freire. Muito obrigado pelas valiosas contribuições. i ii Resumo ROSSI, L. Caracterização de grafos de genealogia acadêmica por meio de métricas topológicas. 2015. Dissertação (Mestrado) - Centro de Matemática, Computação e Cognição, Universidade Federal do ABC, Santo André, 2015. A busca pela origem de indivíduos apresenta-se como uma tentativa recorrente em obter respostas que expliquem o presente, com base no passado e permitam traçar os caminhos do futuro. A origem de um indivíduo esta ligada à algum tipo de relacionamento que possibilite identificar outro que o precedeu. Este modelo de estruturação de grupos sociais é objeto de estudo da genealogia. A genealogia acadêmica utiliza os relacionamentos de orientação entre professores (orientadores) e alunos (orientados) para criar a estrutura social que, comumente, é representada por um grafo de genealogia. O grafo descreve seus vértices como orientadores e orientados e suas arestas direcionadas descrevem as orientações acadêmicas existentes entre eles. Nesta dissertação de mestrado busca-se caracterizar os vértices de um grafo de genealogia considerando somente seus relacionamentos de orientação acadêmica. A caracterização dos vértices é realizada por meio do desenvolvimento e/ou adaptação de um conjunto de métricas topológicas. O conjunto é composto por 22 métricas, sendo 13 de composição descendente ((i) largura, (ii) número de folhas, (iii) profundidade, (iv) fecundidade, (v) fecundidade ponderada, (vi) maior largura, (vii) índice h genealógico, (viii) impacto, (ix) distância média, (x) média dos menores caminhos, (xi) pagerank inverso, (xii) pagerank inverso ponderado e (xiii) balanceamento pela fecundidade), 8 de composição ascendente ((xiv) fecundidade inversa, (xv) fecundidade média do território inverso, (xvi) fecundidade ponderada média do território inverso, (xvii) número de origens, (xviii) largura inversa, (xix) profundidade inversa, (xx) pagerank e (xxi) pagerank ponderado) e 1 de composição mista ((xxii) balanceamento global ). Acreditamos que todas as métricas propostas possam servir de insumo para analisar computacionalmente qualquer grafo de genealogia. Em particular, as métricas propostas foram calculadas para o conjunto de doutores em matemática cadastrados na plataforma do Mathematics Genealogy Project (MGP), que em Abril de 2014 contava com mais de 178 mil registros de 185 países, e permitiu realizar análises para: (i) observar características específicas dos vértices do grafo, (ii) estudar o efeito da abrangência das métricas (janela) na caracterização dos vértices e (iii) classificar os vértices em função dos conjuntos de valores de suas métricas. Palavras-chave: métricas topológicas, grafos, atributos quantitativos, orientador-orientando, genealogia acadêmica. iii iv Abstract ROSSI, L. Characterization of academic genealogy graphs through topological metrics. 2015. Dissertação (Mestrado) - Centro de Matemática, Computação e Cognição, Universidade Federal do ABC, Santo André, 2015. The search for the origin of individuals is presented as a recurrent attempt to get answers to explain the present, based on the past and to retrace the paths of the future. The origin of a subject is linked to some kind of relationship that allows identify others that preceded it. The academic genealogy uses the orientation relationships between professors (advisors) and students (advisees) to create a social structure that, commonly, is represented by a genealogy graph. The graph describes its vertices as advisors/advisees and the directed edges describe their existing academic guidelines between them. In this master thesis we present a characterization of a genealogy graph considering only their academic guindance relationships. The characterization of the vertices is performed through the development and / or adaptation of a set of topological metrics. The set consists of 22 metrics. The first 13 descending composition metrics are related with: (i) width, (ii) leaf number, (iii) depth, (iv) fecundity, (v) weighted fecundity, (vi) max width, (vii) genealogical h-index, (viii) impact, (ix) average distance (x) average of the shortest paths, (xi) reverse pagerank, (xii) reverse pagerank weighted and (xiii) balanced fecundity. Eight ascending composition metrics related with: (xiv) reverse fecundity, (xv) fecundity of the reverse territory, (xvi) weighted average fecundity of the reverse territory, (xvii) number of origins, (xviii) reverse width, (xix) reverse depth, (xx) pagerank and (xxi) weighted pagerank. Finally, one mixed composition metrics called (xxii) overall balance. We believe that all proposed metrics can serve as input to analyze genealogy graphs. The proposed metrics were calculated for all PhDs in mathematics registered on Mathematics Genealogy Project (MGP), which in April 2014 had more than 178,000 records from 185 countries, and allowed to perform analysis in order: (i) to observe specific characteristics of the graph vertices, (ii) to study the effect of coverage metrics (i.e, window size) in the characterization of vertices and, (iii) to classify the vertices according to the sets of values of their metrics. Keywords: topological metrics, graphs, quantitative attributes, advisors-advisees, academic genealogy. v vi Sumário Lista de Símbolos xi Lista de Figuras xiii Lista de Tabelas xv 1 Introdução 1 1.1 Considerações preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Definições preliminares 5 2.1 Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Conjunto de grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Métricas em grafos de genealogia 3.1 11 Métricas de composição descendente . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.1 Largura – Número de descendentes diretos. . . . . . . . . . . . . . . . . . . . 11 3.1.2 Número de folhas – Vértices sem descendentes 3.1.3 Profundidade – Número de gerações descendentes . . . . . . . . . . . . . . . . 12 vii . . . . . . . . . . . . . . . . . 12 viii SUMÁRIO 3.1.4 Fecundidade – Número de descendentes diretos e indiretos . . . . . . . . . . . 12 3.1.5 Fecundidade ponderada – Influência normalizada de descendentes diretos e indiretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.6 Maior largura – Maior número de descendentes pertencentes a uma geração . 14 3.1.7 Índice-h genealógico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1.8 Impacto – Proporção de descendentes diretos ou indiretos considerando o conjunto total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1.9 Distância média – Média do tamanho dos caminhos existentes no grafo . . . . 15 3.1.10 Média dos menores caminhos . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1.11 Pagerank inverso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.1.12 Pagerank inverso ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.1.13 Balanceamento pela fecundidade . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.1.14 Balanceamento global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Métricas de composição ascendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.1 Fecundidade inversa – número de ascendentes diretos ou indiretos . . . . . . . 19 3.2.2 Fecundidade média do território inverso – influência normalizada de ascendentes diretos e indiretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2.3 Fecundidade ponderada média do território inverso . . . . . . . . . . . . . . . 20 3.2.4 Número de ascendentes origem – Vértices sem ascendência 3.2.5 Largura inversa – Número de ascendentes diretos . . . . . . . . . . . . . . . . 20 3.2.6 Profundidade inversa – Número de gerações ascendentes . . . . . . . . . . . . 21 3.2.7 Pagerank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.8 Pagerank ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 . . . . . . . . . . 20 3.3 Métricas limitadas por janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4 Taxonomia das métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4 Sobre os dados utilizados 29 4.1 Conjunto dos matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.2 Relacionamentos de orientação acadêmica . . . . . . . . . . . . . . . . . . . . . . . . 32 4.3 Mathematics Subject Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 SUMÁRIO ix 4.4 Grupos e escolas matemáticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.5 Topologia do grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5 Resultados 5.1 5.2 43 Correlação entre as métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.1.1 Correlação entre métricas descendentes . . . . . . . . . . . . . . . . . . . . . . 44 5.1.2 Correlação entre métricas ascendentes . . . . . . . . . . . . . . . . . . . . . . 46 5.1.3 Correlação entre os conjuntos de métricas combinados . . . . . . . . . . . . . 47 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6 Trabalhos correlatos 57 6.1 Relacionamentos de orientação – base de dados do MGP . . . . . . . . . . . . . . . . 58 6.2 Relacionamentos de orientação – outras bases de dados . . . . . . . . . . . . . . . . . 59 6.3 Outros tipos de relacionamentos – no contexto brasileiro . . . . . . . . . . . . . . . . 60 7 Conclusões 63 7.1 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 7.2 Sugestões de pesquisas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 A Caracterização da base de dados 65 B Classificação por janelas 73 C Publicações realizadas no período do mestrado 83 C.1 BRASNAM – III Brazilian Workshop on Social Network Analysis and Mining (2014) 83 C.2 SPGABC – Simpósio de Pesquisa do Grande ABC (2014) . . . . . . . . . . . . . . . 96 C.3 BRASNAM – IV Brazilian Workshop on Social Network Analysis and Mining (2015) 99 C.4 CMAC – Congresso de Matemática Aplicada e Computacional (2015) . . . . . . . . . 112 Referências Bibliográficas 115 x SUMÁRIO Lista de Símbolos A(v) Conjunto dos ascendentes diretos do vértice v bf (v) Métrica balanceamento pela fecundidade do vértice v bg(v) Métrica balanceamento global do vértice v C (k) (v) Conjunto dos caminhos de comprimento k sendo v o vértice origem c(k) (v) Número de caminhos de comprimento k sendo v o vértice origem D(v) Conjunto dos descendentes diretos do vértice v D(k) (v) Conjunto dos descendentes diretos k-férteis do vértice v dm(v) Métrica distância média no grafo de genealogia do vértice v dei (||mvi ||) Valor da distância euclidiana entre as i métricas dos vértices adjacentes a v DE(v) Conjunto dos valores das distâncias euclidianas dos vértices adjacentes a v E Conjunto de arestas de um grafo f + (v) Métrica fecundidade do vértice v f − (v) Métrica fecundidade inversa do vértice v F (v) Conjunto dos valores de fecundidade dos vértices adjacentes a v f p(v) Métrica fecundidade ponderada do vértice v f mT − (v) Métrica fecundidade média do território inverso do vértice v f pmT − (v) Métrica fecundidade ponderada média do território inverso do vértice v ~ G Grafo dirigido h(v) Métrica índice h genealógico do vértice v i(v) Métrica impacto do vértice v xi xii LISTA DE SÍMBOLOS l+ (v) Métrica largura do vértice v l− (v) Métrica largura inversa do vértice v l(k) (v) Largura k-fértil do vértice v ||mvi || Valor normalizado das i métricas do vértice v ml(v) Métrica maior largura no grafo de genealogia do vértice v nf (v) Métrica número de folhas no grafo de genealogia do vértice v N F (v) Conjunto dos vértices folha no grafo de genealogia do vértice v no(v) Métrica número de origens do território inverso do vértice v O(v) Conjunto dos vértices origem do território inverso do vértice v p+ (v) Métrica profundidade do grafo de genealogia do vértice v p− (v) Métrica profundidade inversa do vértice v pr+ (v) Métrica pagerank do vértice v prp+ (v) Métrica pagerank ponderado do vértice v pr− (v) Métrica pagerank inverso do vértice v prp− (v) Métrica pagerank inverso ponderado do vértice v T + (v) Território do vértice v T − (v) Território inverso do vértice v V Conjunto de vértices de um grafo Lista de Figuras 2.1 Conjunto de grafos de genealogia dos matemáticos no Brasil . . . . . . . . . . . . . . 3.1 Janelas em grafo de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Conjunto de grafos de genealogia – métricas descendentes . . . . . . . . . . . . . . . 25 3.3 Conjunto de grafos de genealogia – métricas ascendentes . . . . . . . . . . . . . . . . 26 3.4 Taxonomia das métricas topológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1 Fluxograma do método de obtenção dos dados . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Evolução do número de matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.3 Matriz de correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4 Mathematics Subject Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.5 Diagrama de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.6 Influência das escolas de matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.7 Grafo de genealogia acadêmica dos matemáticos . . . . . . . . . . . . . . . . . . . . . 40 4.8 Topologia do grafo de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.1 Correlação entre as métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.2 Variação dos coeficientes de correlação entre as métricas. . . . . . . . . . . . . . . . . 48 5.3 Exemplo de conjunto de grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . 50 5.4 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.5 Variação da classificação em função do tamanho das janelas . . . . . . . . . . . . . . 52 5.6 Impacto do ano de titulação em função do tamanho da janela considerda. . . . . . . 53 5.7 PCA com janelas de diferentes tamanhos . . . . . . . . . . . . . . . . . . . . . . . . . 55 xiii 9 xiv LISTA DE FIGURAS 5.8 Identificação dos matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.9 Grafo dos 50 matemáticos mais relevantes . . . . . . . . . . . . . . . . . . . . . . . . 56 Lista de Tabelas 5.1 Correlação entre as métricas descendentes . . . . . . . . . . . . . . . . . . . . . . . . 46 5.2 Correlação entre as métricas ascendentes . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.3 Correlação entre as métricas combinadas . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.4 Características das janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 A.1 Ranking de países e instituições – parte I . . . . . . . . . . . . . . . . . . . . . . . . 66 A.1 Ranking de países e instituições – parte II . . . . . . . . . . . . . . . . . . . . . . . . 67 A.2 Ranking de escolas – parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 A.2 Ranking de escolas – parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 A.3 MSC – parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 A.3 MSC – parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 B.1 Ranking – janela 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 B.2 Ranking – janela 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 B.3 Ranking – janela 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 B.4 Ranking – janela 15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 B.5 Ranking – janela 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 B.6 Ranking – janela 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 B.7 Ranking – janela 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 B.8 Ranking – janela 41 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 xv xvi LISTA DE TABELAS Capítulo 1 Introdução 1.1 Considerações preliminares Atualmente, com o grande crescimento de informações disponíveis, a internet tornou-se um campo fértil para a interação on-line e o desenvolvimento de diversas áreas da ciência da informação [Pinheiro & Loureiro, 1995] e ciência da computação [Hey et al., 2009]. Dentre elas a mineração ou prospeccão de dados (data mining) que vem ganhando grande destaque e importância nesse cenário. Nos últimos anos, está se dando especial interesse a tais tópicos devido à descoberta de conhecimento que pode ser obtido a partir do tratamento de conjuntos de dados disponíveis nos repositórios de produção científica, e.g., banco de dados de produções bibliográficas, de orientação acadêmica, de projetos de pesquisa, e de diretórios de grupos de pesquisa [Tang et al., 2008]. Por outro lado, a importância das pesquisas científicas no desenvolvimento de uma nação é inegável. Também é inegável que instituições de ensino e pesquisa têm como um dos seus principais ativos a qualidade de seus docentes e a capacidade destes em fomentar, orientar e formar seus alunos para a pesquisa científica como ferramenta geradora de inovação com o objetivo de promover o desenvolvimento tecnológico e socioeconômico de um país [de Moraes, 2000]. A atividade de orientação/supervisão acadêmica é uma forma de relacionamento que promove a evolução do orientado, da instituição, da ciência e da sociedade de um modo geral. Atualmente pode-se observar diferentes iniciativas, por parte de comunidades acadêmicas específicas, no sentido de documentar, analisar e classificar estruturas de genealogia acadêmica. Analisar estes relacionamentos sob a forma de uma estrutura genealógica (grafo de genealogia acadêmica), permite um maior entendimento sobre a comunidade científica (que é objeto deste estudo), a caracterização do indivíduo por meio de seus relacionamentos e a identificação do impacto gerado por esses indivíduos na formação dessa comunidade. A identificação dos diferentes níveis de impacto que membros de comunidades acadêmicas exercem sobre seus respectivos grupos de atuação e na sociedade, de forma mais ampla, é comumente realizada por meio da análise de publicações. No entanto, considerar o desempenho dos acadêmicos nas atividades de orientação/supervisão como sendo parte importante da contribuição do indivíduo 1 2 INTRODUÇÃO 1.2 no desenvolvimento da ciência e, por conseguinte, da sociedade, não apresenta o mesmo grau de relevância. A genealogia acadêmica pode ser definida como um estudo quantitativo da herança intelectual perpetrada por meio de relacionamentos de orientação entre estudantes e seus orientadores [Sugimoto, 2014]. Os relacionamentos de orientação acadêmica promovem a propagação de conhecimento científico por meio da interação entre orientador, com diferentes desempenhos em orientação, e seus orientados, que são influenciados pelas características de seus orientadores [Malmgren et al., 2010]. Neste contexto, a genealogia acadêmica fornece meios para mensurar e analisar estas interações. A análise e caracterização de acadêmicos em um contexto genealógico, onde os relacionamentos de orientação/supervisão são os únicos elementos considerados, é possível por meio da utilização de um conjunto de métricas topológicas que, considerando toda a rede social, diferencie estes acadêmicos com base na relevância de suas orientações/supervisões. Diferentes estudos foram publicados sobre genealogia acadêmica com o objetivo de caracterizar áreas do conhecimento específicas, como a Neurociência [David & Hayden, 2012], a Química Orgânica [Andraos, 2005], a Matemática [Chang, 2011, Malmgren et al., 2010], a Fisiologia [Bennett & Lowe, 2005, Jackson, 2011], a Metereologia [Hart & Cossuth, 2013], entre outros. Há ainda, iniciativas para a captação e estruturação de dados genealógicos utilizando plataformas Web. O Mathematics Genealogy Project (http://genealogy.math.ndsu.nodak.edu) e o projeto Neurotree (http://neurotree.org/neurotree) são pautados na obtenção de dados genealógicos das respectivas áreas e na interpretação das estruturas genealógicas obtidas, a comunidade científica dos Físicos (http://academictree.org/physics) e, de forma mais específica, para os acadêmicos titulados com doutorado (http://phdtree.org). Estes projetos são, inicialmente, orientados para a obtenção e documentação de seus membros, não oferecendo análises destes conjuntos de dados. Porém, estes registros contribuem para a documentação histórica destas comunidades e resulta em campo fértil para estudos futuros. Esta dissertação considera como estudo de caso os registros genealógicos da comunidade acadêmicocientífica dos matemáticos. A captação, estruturação e documentação destes registros foi realizada pela North Dakota State University por meio do Mathematics Genealogy Project (MGP). A escolha deste conjunto de dados justifica-se pela magnitude, estrutura, abrangência e riqueza das informações disponibilizadas pelo projeto. É importante notar que esta base de dados possui abrangência internacional e ainda não foi amplamente analisada, o que se apresenta como uma oportunidade ímpar para a obtenção de novos conhecimentos a respeito desta comunidade científica. 1.2 Objetivos O objetivo geral desta dissertação é desenvolver e/ou adaptar um conjunto de métricas topológicas, de base quantitativa, que permita a caracterização de bancos de dados estruturados em forma de grafo de genealogia, em um contexto acadêmico, por meio dos relacionamentos de orientação 1.5 CONTRIBUIÇÕES 3 acadêmica existentes entre os indivíduos. Os objetivos específicos deste trabalho são os seguintes: (a) Estruturar os dados genealógicos prospectados em forma de grafos de genalogia, possibilitando a visualização da estrutura topológica do conjunto; (b) Analisar a influência de grupos na formação da comunidade acadêmico-científica; (c) Estudar a abrangência com que os relacionamentos de orientação acadêmica influenciam as gerações posteriores; (d) Classificar os vértices do grafo de genealogia por meio da aplicação de técnicas de redução de dimensionalidade. 1.3 Contribuições As principais contribuições deste trabalho são listadas a seguir: (a) Propor a utilização de métricas topológicas (ascendentes e descendentes) baseadas na Teoria dos Grafos, desenvolvidas e/ou adaptadas, para a caracterização de grafos de genealogia acadêmica. (b) Documentar e registrar de forma perene os grafos de genealogia acadêmica em banco de dados orientado a grafos, disponibilizando as estruturas para consultas. (c) Caracterizar a comunidade acadêmico-científica dos doutores em matemática; (d) Identificar os países/escolas com maior impacto na formação da comunidade dos doutores em matemática. 1.4 Limites Os resultados pretendidos com esta dissertação estão fortemente relacionados com a corretude e completude dos dados utilizados. Os dados considerados neste estudo de caso corresponde ao MGP, e apesar deste projeto ser uma iniciativa abrangente e seus dados constituírem um conjunto ímpar a respeito dos doutores em matemática, algumas inconsistências foram observadas e documentadas. Os registros obtidos na plataforma do MGP, em alguns casos, não são completos. Identifica-se a ausência de atributos ligados à titulação, como: ano, instituição e país. Também não é possível, na maioria dos casos, verificar a corretude das informações disponíveis. Os registros identificados como incompletos e/ou incorretos foram excluídos das análises que necessitavam destes dados. Ainda precisam ser feitos estudos para determinar se a completude dos dados pode ter impacto significante sobre os resultados obtidos para o estudo de caso (veja no Capítulo 4 uma descrição do percentual de registros desqualificados). 4 INTRODUÇÃO 1.5 1.5 Organização do trabalho Esta dissertação está organizada em sete Capítulos, incluindo este Capítulo introdutório. O Capítulo 2 apresenta conceitos elementares sobre a Teoria dos Grafos, com as principais definições utilizadas nesta dissertação, além de uma breve descrição sobre a área da genealogia e seus elementos, apresentando os principais objetivos desta ciência. Um exemplo construído a partir de um subconjunto dos dados (doutores em matemática com titulação no Brasil) prospectados no MGP completam este Capítulo. As métricas topológicas desenvolvidas e adaptadas para a caracterização de grafos de genealogia acadêmica são descritas no Capítulo 3, ordenadas de acordo com suas características (descendentes ou ascendentes). Neste Capítulo descreve-se o processo de cálculo bem como o objetivo de cada uma das 22 métricas. Há, também, uma descrição sobre a abrangência das métricas (janelas) e um exemplo de grafo de genealogia conceitual com os valores das métricas calculados para janelas distintas. A base de dados utilizada no estudo de caso desta dissertação é descrita em detalhes no Capítulo 4, onde há uma sucinta esplanação sobre o MGP e sobre o método utilizado para a prospecção de seus dados. Os dados são detalhados sob diferentes aspectos: (i) os matemáticos, (ii) os relacionamentos de orientação acadêmica, (iii) as áreas mais proeminentes (Mathematics Subject Classification), (iv) as escolas matemáticas e (v) a topologia do grafo resultante. O Capítulo 5 descreve a correlação observada entre as métricas topológicas e sobre a capacidade das métricas em caracterizam os vértices do grafo em função de seus coeficientes de correlação. Ainda neste capítulo, há a descrição a respeito do procedimento matemático denominado Análise de Componentes Principais (PCA). Este procedimento foi utilizado, nesta dissertação, com o objetivo de reduzir a dimensionalidade dos dados e, assim, possibilitar uma classificação dos vértices do grafo por meio dos resultados de suas respectivas métricas topológicas. A classificação por meio da PCA foi realizada considerando as 41 janelas possíveis para o grafo de genealogia, a variabilidade observada na classificação para cada janelas também é apresentada neste capítulo. O Capítulo 6 é dedicado a descrever os trabalhos correlatos a esta dissertação que estão ordenados por: (i) trabalhos que utilizaram a mesma base de dados e o mesmo tipo de relacionamento, (ii) bases de dados diferentes e o mesmo tipo de relacionamento e (iii) diferentes bases de dados e tipos de relacionamentos. Finalmente, o Capítulo 7 apresenta as principais conclusões obtidas no estudo de caso e lista possíveis desdobramentos futuros para esta dissertação. Capítulo 2 Definições preliminares 2.1 Grafos Um grafo (G) pode ser definido como um par (V, E), onde V é um conjunto (não vazio) de objetos, denominados vértices, e E é um conjunto de pares de vértices (u, v) que representam ligações entre os vértices u e v; essas ligações são denominadas arestas. Outros conceitos fundamentais sobre grafos, utilizados nesta dissertação, são descritos a seguir: • Grafos dirigidos As arestas de um grafo podem apresentar orientações que indicam o sentido da ligação entre os vértices, ou seja, E é um conjunto de pares ordenados de vértices (u, v). Os grafos que possuem arestas dirigidas são denominados grafos dirigidos. Se (u, v) é uma aresta em um ~ = (V, E), diz-se que a aresta (u, v) é incidente do vértice u e é incidente no grafo dirigido G vértice v. Nesse contexto o vértice v é adjacente ao vértice u (u → v). • Graus de grafos dirigidos ~ o grau de saída de um vértice v é o número de arestas que incidem Em um grafo dirigido G, dele (saem), denotado por d(v)− , e o grau de entrada de um vértice v é o número de arestas que incidem nele (entram), denotado por d(v)+ . O grau de um vértice é definido como a soma do grau de entrada e o grau de saída, ou seja, d(v) = d(v)− + d(v)+ . • Caminhos e ciclos em grafos dirigidos Um caminho de comprimento k (C (k) ) de um vértice origem u a um vértice destino u0 em ~ é uma sequência (v0 , v1 , v2 , . . . , vk ) de vértices tais que u = v0 , u0 = vk e um grafo dirigido G (vi−1 , vi ) para i = 1, 2, 3, . . . , k. Em um grafo dirigido, um caminho (v0 , v1 , v2 , . . . , vk ) forma um ciclo se v0 = vk e o caminho contém no mínimo uma aresta. Um grafo que não possui ciclos é acíclico. • Grafos dirigidos conexos ~ é conexo se existe, no mínimo, um caminho ligando todos os vértices Um grafo dirigido G 5 6 DEFINIÇÕES PRELIMINARES 2.3 deste grafo. No contexto desta dissertação, utiliza-se o termo grafo de genealogia que é definido como um grafo dirigido acíclico conexo. • Níveis em grafos Um vértice de origem, em um grafo de genealogia, é aquele que apresenta grau de entrada igual a zero (d(v)+ = 0) e, neste trabalho, é denominado vértice raiz. A posição do vértice raiz ~ e dado no grafo de genealogia é identificada como nível zero. Dado um grafo de genealogia G um vértice raiz v ∈ V o nível m de um vértice v 0 ∈ V no grafo de genealogia é o comprimento k do menor caminho existente entre v e v 0 . 2.2 Genealogia A busca da humanidade sobre suas origens é tema recorrente e pode ser observado desde os registros no Livro de Gênesis até iniciativas contemporâneas no sentido de documentar a história de comunidades acadêmicas por meio de suas relações. A genealogia acadêmica busca, através do registro de acadêmicos, em diversas áreas, e seus relacionamentos de orientação documentar de forma perene a história de comunidades acadêmico-científicas e, assim, possibilitar um melhor entendimento sobre como o passado impactou na formação do presente e qual a tendência para o futuro destas comunidades. A genealogia é uma ciência auxiliar da história que estuda a origem, evolução e disseminação de grupos inter-relacionados por laços familiares ou outro tipo de relacionamento qualquer. O objeto de pesquisa da genealogia são os ascendentes e os descendentes de um indivíduo. O processo de pesquisa envolvido na genealogia abrange a identificação de parentesco entre indivíduos por meio de registros históricos como certidões de nascimento, casamento, óbito, registro de propriedades e outros documentos que possam comprovar uma ligação entre eles. Um objetivo importante em um estudo genealógico é obter conhecimento que possibilite um entendimento do futuro com base no passado, por vezes, desconhecido. Esse estudo possibilitaria traçar a memória de diferentes indivíduos. O desenvolvimento da internet e de novas tecnologias de informação mudou radicalmente a forma pela qual pesquisadores na área de genealogia conduzem suas pesquisas, o acesso e o compartilhamento de dados é uma das evoluções observadas no mundo digital [Hey et al., 2009, Marton et al., 2013]. Pesquisadores na área de genealogia, seja em qual for o contexto, têm como ferramenta fundamental de trabalho o compartilhamento amplo e assertivo de dados referentes aos indivíduos pesquisados e seus relacionamentos. 2.3 Grafos de genealogia A utilização de representações gráficas para estruturar os indíviduos que têm algum tipo de conexão facilita o estudo genealógico. A estrutura geralmente utilizada é denominada árvore de genealogia. A origem do nome é devido a semelhança com a ramificação das árvores observadas na 2.4 CONJUNTO DE GRAFOS DE GENEALOGIA 7 natureza, que normalmente seguem o padrão Fibonacci. O conceito também é utilizado na medicina para o estudo de doenças de cunho genético. As estruturas construídas a partir de dados de genealogia acadêmica não podem ser categorizadas como árvores no rigor da matemática formal, pois não atendem à todos os critérios de definição deste tipo de estrutura (e.g.: “deve haver um único caminho entre dois vértices em uma árvore.”). Nesta dissertação é utilizado o termo grafo de genealogia para nomear as estruturas de genealogia. Um grafo de genealogia pode ser definido como uma estrutura gráfica onde os indivíduos são representados por elementos geométricos (círculo, retângulo) e as ligações existentes entre estes elementos por segmentos de reta, ou seja, trata-se de um caso particular de grafo sendo categorizado como grafo direcionado acíclico conexo. Os grafos de genealogia podem, em algum contexto, apresentar ciclos. Isto ocorre quando diferentes tipos de relacionamentos de orientação acadêmica são considerados no mesmo grafo. Suponha um relacionamento professor-aluno do tipo iniciação científica. Caso o aluno continue evoluindo em seus estudos e o professor não, é possível que, no futuro, o aluno torne-se, por exemplo, orientador de mestrado de seu antigo professor. Este exemplo, apesar de improvável, resultaria em um ciclo no grafo de genealogia. Para este trabalho todos os relacionamentos são de mesmo tipo, não havendo possibilidade do surgimento de ciclos. ~ é um par (V, E), onde V é um conjunto finito de vértices e E é uma relação Um grafo dirigido G binária ordenada em V . Para este trabalho, os acadêmicos e seus relacionamentos de orientação são estruturados na forma de grafo de genealogia. Os vértices (V ) representam os indivíduos (acadêmicos) e as arestas direcionadas (E) representam seus relacionamentos. Tanto os vértices quanto as arestas direcionas (e.g., orientação ou supervisão) possuem atributos. As informações que comumente podem ser consideradas nos vértices desse tipo de estrutura são as seguintes: (i) nome do orientador/orientado, (ii) nome da instituição profissional a qual pertence, (iii) área de pesquisa do orientador/orientado, (iv) geolocalização da instituição acadêmica. Já as arestas podem considerar informações relacionadas a: (i) ano da orientação, (ii) tipo de orientação, (iii) nome da instituição onde foi realizada a orientação, (iv) áreas de pesquisa consideradas na orientação e (v) período de orientação1 . 2.4 Conjunto de grafos de genealogia Um grafo de genealogia, neste contexto, é um conjunto de vértices interligados ou um único elemento isolado. Um conjunto de grafos de genealogia é utilizado para representar comunidades acadêmico-científicas em que seus vértices e arestas direcionadas contém atributos que podem ser categorizados em um mesmo contexto. O conjunto de grafos de genealogia acadêmica prospectado da plataforma do MGP foi constituído de forma a representar os acadêmicos e seus relacionamentos, estruturando-os em um banco de 1 Para o conjunto de dados do estudo de caso considerado neste trabalho, não utilizamos atributos para os relacionamentos visto que não há registros deste tipo na base de dados utilizada. 8 DEFINIÇÕES PRELIMINARES 2.4 dados orientado a grafos2 , onde cada acadêmico é representado por um vértice e os relacionamentos de orientação acadêmica são representados por arestas direcionadas. A título de exemplo, na Figura 2.1 apresenta-se um subconjunto de grafos de genealogia acadêmica, constituído pelos grafos de genealogia dos matemáticos que obtiveram sua titulação no Brasil. Os grafos são ordenados segundo o tamanho (número de vértices) de cada componente conexa, onde a magnitude dos grafos aumenta da base para o topo da figura. Neste conjunto, observamos grafos constituídos desde um único vértice até estruturas mais complexas com diferentes níveis de profundidade3 . O conjunto de grafos de genealogia acadêmica dos matemáticos do Brasil é composto por 1.615 vértices que representam os matemáticos que foram titulados em instituições brasileiras [Rossi & Mena-Chalco, 2014b] e corresponde a 0,90% da base de dados total. Este conjunto ocupa a 12a posição em relação ao total de matemáticos (veja no Capítulo 4 uma descrição completa do conjunto de dados utilizado). Trata-se de uma comunidade jovem que apresenta franco crescimento em número de titulações ano após ano. Comparando as décadas de 1980 e 1990 observa-se uma taxa de crescimento de 159%, para a década seguinte o crescimento se mantém a uma taxa de 118%. 2 Para a constituição do banco de dados foi utilizado a plataforma Neo4j que é um software livre de banco de dados orientado à grafos [Robinson et al., 2013]. 3 A métrica que estima a profundidade é descrita no Capítulo 3. 2.4 CONJUNTO DE GRAFOS DE GENEALOGIA 9 Figura 2.1: Conjunto de grafos de genealogia dos matemáticos que obtiveram titulação no Brasil. Os vértices e as arestas direcionadas representam os matemáticos brasileiros e seus relacionamentos de orientação acadêmica, respectivamente. A magnitude dos grafos (número de vértices) aumenta da base para o topo da figura. 10 DEFINIÇÕES PRELIMINARES 2.4 Capítulo 3 Métricas em grafos de genealogia ~ = (V, E) é uma função de V em R, que utiliza Uma métrica em um grafo de genealogia G as ligações entre os vértices para o cálculo de seu valor. As métricas podem ser divididas em dois grupos, segundo seu objetivo específico. As métricas de composição descendente e ascendente. O conjunto de métricas utilizado nesta dissertação, com seus respectivos objetivos, são descritas neste capítulo. 3.1 Métricas de composição descendente As métricas de composição descendente são aquelas que utilizam para sua mensuração a descendência de um vértice de interesse. A descendência de um vértice é comumente chamada de território do vértice e pode ser definida por: T + (v) = {u ∈ V : ∃(v, u) − caminho em G}. (3.1) Esta categoria de métrica visa identificar como um determinado vértice impactou a formação do grafo de genealogia por meio de suas relações de orientação. Trata-se de uma visão posterior à origem do vértice analisado. As 14 métricas que compõem esta categoria são descritas a seguir. 3.1.1 Largura – Número de descendentes diretos. A largura (l+ ) representa o número de vértices adjacentes (vizinhos) a um vértice de interesse. Ela é uma medida simples usada para classificar um vértice com base em sua capacidade de conexão. Trata-se de uma análise quantitativa importante, porém ela não considera as possíveis conexões dos vértices adjascentes ao vértice raiz, portanto essa métrica não revela o impacto indireto exercido pelo vértice de interesse na formação do grafo de genealogia. ~ e um vértice de interesse v ∈ V , a descedência direta do vértice Dado um grafo de genealogia G v em G é: D(v) = {u ∈ V : (v, u) ∈ E}, 11 (3.2) 12 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.1 e a l+ (v) é dada por: l+ (v) = |D(v)|. 3.1.2 (3.3) Número de folhas – Vértices sem descendentes A métrica número de folhas (nf ) apresenta o número de vértices (v) não fecundos (d(v)− = 0) ~ ou seja, aqueles que não têm nenhum filho. No contexto existentes em um grafo de genealogia G, acadêmico, podemos encontrar este tipo de característica em alunos que não realizaram orientações. O número de folhas existentes em um grafo de genealogia pode nos indicar sua tendência de crescimento quando analisadas em conjunto com o atributo tempo. Por exemplo, folhas nascidas há muito tempo (i.e., matemáticos que obtiveram sua titulação há mais de 10 anos) podem indicar sua infertilidade. Caso o grafo apresente a maioria de suas folhas nesta condição, ele pode ser classificado como sendo um grafo com baixa capacidade de crescimento. Por outro lado, se a maioria das folhas são novas (i.e., matemáticos que obtiveram sua titulação há menos de 10 anos) o grafo certamente tem grande potencial de expansão. ~ = (V, E) e um vértice de interesse v ∈ V , a descendência de v Dado um grafo de genealogia G é dada por T + (v) (Eq. 3.1) e o conjunto N F dos vértices folha é definido por: N F (v) = {u ∈ T + (v) : d− (u) = 0} (3.4) neste contexto o valor da métrica nf (v) é dado por: nf (v) = |N F (v)|. 3.1.3 (3.5) Profundidade – Número de gerações descendentes A métrica profundidade (p+ ) é uma medida utilizada para representar o grau de maturação do grafo de genealogia. Quanto maior o valor de p+ tanto maior será o tempo de existência desta estrutura. O inverso não é verdadeiro, ou seja, não se pode afirmar que grafos pouco profundos sejam, necessariamente, novos. Essa métrica apresenta o tamanho do maior caminho existente no grafo de genealogia de um dado vértice e representa o número de gerações descendentes a partir de um vértice de interesse. ~ e um vértice de interesse v ∈ V , a profundidade p+ (v) é dada Dado um grafo de genealogia G pelo maior comprimento k dentre os caminhos possíveis, ou seja: p+ (v) = max{k ∈ N : ∃(v, u) − caminho em G, ∀u ∈ N F (v)}. 3.1.4 (3.6) Fecundidade – Número de descendentes diretos e indiretos A métrica fecundidade (f + ) refere-se a quão prolífico é um vértice do grafo, considerando o número de descendentes (diretos ou indiretos) que ele possui em todos os níveis do grafo de genea- 3.1 MÉTRICAS DE COMPOSIÇÃO DESCENDENTE 13 logia. Esta métrica tem como objetivo identificar o impacto do vértice analisado na composição do conjunto de grafos de genealogia. ~ e um vértice de interesse v ∈ V , a f + (v) é dada por: Dado um grafo de genealogia G f + (v) = |T + (v)|. (3.7) Desta forma, podemos considerar que vértices com maior fecundidade são aqueles que possuem um maior número de conexões diretas ou indiretas. 3.1.5 Fecundidade ponderada – Influência normalizada de descendentes diretos e indiretos Uma análise mais cuidadosa da métrica fecundidade, descrita anteriormente, nos leva a observar que os vértices localizados a partir do nível dois de um grafo não são resultado apenas da influência do vértice de interesse, mas também da influência direta dos vértices adjacentes no nível anterior. Analogamente a um grafo de genealogia familiar, é natural pensar que um neto sofre uma influência maior de seu pai do que de seu avô. Neste sentido as características similares às do avô que o neto apresenta foram recebidas indiretamente, ou seja, houve um elo entre eles, o pai. Por vezes, o pai pode desenvolver características próprias sem que as tenha recebido do avô, e influenciar o neto segundo estas caracterísiticas. Assim parte do perfil do neto não teria nenhuma participação do avô. A fecundidade ponderada (f p) é utilizada para normalizar a influência indireta que os vértices sofrem. Neste trabalho, a f p utiliza como fator de ponderação o comprimento k do caminho entre o vértice raíz e seus descendentes. ~ e um vértice de interesse v ∈ V , o conjunto de caminhos de Dado um grafo de genealogia G comprimento k é dado por: C (k) (v) = {(v, u) − caminhos de comprimento k em G : ∀u ∈ V }. (3.8) O número de caminhos de comprimento k de v ∈ V para todo u ∈ V , é: c(k) (v) = |C (k) (v)|. (3.9) n X c(k) (v) (3.10) Neste contexto, a f p(v) é dada por: f p(v) = k=1 k2 . A f p reduz o impacto da quantidade de vértices pertencentes à linhagem de um vértice raiz à medida que eles se distânciam, ou seja, quanto mais distante um vértice está da raiz, menor é sua contribuição na composição do valor da métrica. Uma informação importante que essa métrica produz é o quanto um vértice raiz foi capaz de motivar/influenciar seus descendentes. 14 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.1.6 3.1 Maior largura – Maior número de descendentes pertencentes a uma geração A maior largura (ml) identifica a maior quantidade de vértices existentes em um único nível do grafo. A métrica ml de um grafo indica sua amplitude e permite comparações com outros grafos do conjunto, com o objetivo de estimar qual deles é mais abrangente. Quando a análise da ml é feita em conjunto com o nível que a contém, temos uma ideia da topologia deste grafo. Normalmente, devido às características de propagação destas estruturas genealógicas, os maiores resultados são encontrados nos últimos níveis dos grafos. Quando a ml se apresenta em níveis superiores podemos classificar este nível como sendo o momento de ruptura da influência do vértice raiz, sendo que, a partir daquele nível, a propagação do grafo ocorrerá devido à influência de alguns poucos vértices em uma proporção menor que a observada nos níveis anteriores. ~ e um vértice de interesse v ∈ V , a ml(v) é dada por: Dado um grafo de genealogia G ml(v) = {k ∈ N : max(c(k) (v))}. 3.1.7 (3.11) Índice-h genealógico O índice h genealógico (h) de um vértice é definido como o maior número h de conexões existentes entre ele e seus vértices adjacentes que possuem, pelo menos, o mesmo número h de conexões cada um1 . O objetivo desta métrica é considerar a quantidade e a qualidade genealógica (no sentido de perpetuidade) dos relacionamentos em um grafo de genealogia. ~ um vértice de interesse v ∈ V é k-fértil se l+ (v) ≥ k (Eq. 3.3). Dado um grafo de genealogia G, A descendência direta k-fértil de um vértice u ∈ V é o conjunto: D(k) (u) = {v ∈ D(u) : l+ (v) ≥ k}, (3.12) l(k) (u) = |D(k) (u)|. (3.13) e a largura k-fértil de u é: Neste contexto, o índice h de um vértice u é definido por: h(u) = max{k ∈ N : l+ (u), l(k) (u) ≥ k}. 1 (3.14) O índice h, proposta por Hirsch [2005], é uma métrica que combina quantidade (número de publicações) e qualidade (número de citações) da produção acadêmica. Veja no Anexo C.3 um artigo redigido sobre a expansão deste índice-h. 3.1 15 MÉTRICAS DE COMPOSIÇÃO DESCENDENTE 3.1.8 Impacto – Proporção de descendentes diretos ou indiretos considerando o conjunto total Para verificar o quão importante um dado vértice é, em consideração a todo o conjunto de grafos de genealogia, utilizamos a métrica influência (i). A i é um valor entre 0 e 1, onde 0 significa nenhuma influência e 1 representa o total da floresta. A ideia de influência está ligada à seguinte premissa: caso o vértice não exista qual seria a magnitude do conjunto de grafos resultante? O cálculo da i leva em consideração a descendência total do vértice (f + ) (Eq. 3.7) para estimar sua importância. ~ um vértice de interesse v ∈ V , a influência i(v) é dada por: Dado um grafo de genealogia G, i(v) = 3.1.9 f + (v) . |V | (3.15) Distância média – Média do tamanho dos caminhos existentes no grafo A métrica distância média (dm) classifica a topologia do grafo constituído a partir de um vértice de interesse (v), considerando a proximidade de v em relação a todos seus descendentes. Na comparação entre grafos de genealogia, aqueles que possuem maiores valores para esta métrica podem ser considerados mais coesos, ou seja, o tamanho médio de seus caminhos (ramificações) é maior. Para o cálculo da dm consideramos a somatória do número de caminhos de tamanho k dividido pela somatória do número de caminhos totais, que resulta no tamanho médio dos caminhos no grafo. ~ e um vértice de interesse v ∈ V , a dm(v) é dada por: Dado um grafo de genealogia G Pn (k) k=1 c (v).k , dm(v) = Pn (k) k=1 c (v) (3.16) onde n é o tamanho do maior caminho no grafo. 3.1.10 Média dos menores caminhos Similarmente à dm, a métrica média dos menores caminhos (mmc) fornece, conceitualmente, informação sobre a distância entre os elementos do grafo, porém com a utilização de uma ponderação diferenciada. ~ = (V, E), um vértice de interesse v ∈ V , a mmc(v) é dada por: Dado um grafo de genealogia G mmc(v) = Pn k=1 c(k) (v).k P , c(k) (v) . nk=1 c(k) (v) − 1 Pn k=1 onde n é o tamanho do maior caminho no grafo. (3.17) 16 3.1 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.1.11 Pagerank inverso A métrica Pagerank (descrita na seção 3.2.7), que tem como objetivo classificar as páginas Web de acordo com sua relevância na rede, transmite o seu valor para os vértices adjacentes ao vértice de interesse, o que resulta em uma classificação onde os vértices folha apresentam um maior valor para essa métrica. Os vértices que têm maior impacto na composição de um grafo de genealogia são aqueles que deram origem ao grafo (vértice raíz), ou seja, no contexto dos grafos de genealogia, os vértices raíz possuem maior relevância que os vértices folha. A métrica Pagerank inverso (pr− ) tem por objetivo corrigir o fluxo de transmissão do valor do Pagerank para os vértices raíz, resultando em uma classificação onde estes vértices sejam privilegiados [Bar-Yossef & Mashiach, 2008]. ~ atribui-se um valor inicial: pr− (v) = 1 para Dado um conjunto de grafos de genealogia G, |V | todo v ∈ V . Dado um vértice de interesse v ∈ V , a ascendência de v é: A(v) = {u ∈ V : (u, v) ∈ E}, a largura inversa de v é: l− (v) = |A(v)| e o Pagerank inverso é dado por: − X pr (u) (1 − q) + q , pr− (v) = |V | l− (u) (3.18) u∈A(v) onde, q é um fator de amortecimento que representa uma probabilidade de, durante as iterações, ocorrer uma interrupção no ‘percurso’ pelas conexões entre os vértices. Para este trabalho utilizou-se q = 0, 85. 3.1.12 Pagerank inverso ponderado A métrica pagerank inverso ponderado (prp− ) tem por objetivo proporcionar uma dimensão adicional ao conjunto de métricas, auxiliando na caracterização dos vértices do grafo de genealogia. Seu valor é obtido por meio da utilização da métrica pagerank inverso como fator de ponderação. Vértice com valores maiores de prp− são aqueles que possuem menos descendentes, já os vértices que originam grandes grafos de genealogia possuem baixos valores para esta métrica. O valor da métrica prp− considerado neste trabalho está definido por: prp− (v) = 1 pr− (v) . (3.19) 3.1 MÉTRICAS DE COMPOSIÇÃO DESCENDENTE 3.1.13 17 Balanceamento pela fecundidade Um grafo de genealogia é considerado balanceado se suas ramificações (i.e., caminhos existentes do vértice raíz até todos os vértices folha) apresentam escalas semelhantes. A métrica balanceamento pela fecundidade (bf ) para o vértice v utiliza o desvio padrão dos valores da métrica fecundidade dos vértices adjacentes ao vértice v com o objetivo de classifica-lo segundo a magnitude dos grafos originados a partir de sua vizinhança. Vértices com valores baixos para bf são aqueles que possuem descendentes com características de conexão similares. ~ e um vértice de interesse v ∈ V , o conjunto dos valores da Dado um grafo de genealogia G fecundidade dos vértices adjacentes à v é: F (v) = {f + (u) : u ∈ D(v)} (3.20) onde: • f + (u) é a fecundidade de u (Eq. 3.7); • D(v) é o conjunto de descendente de v (Eq. 3.2); e o balanceamento pela fecundidade é dado por: bf (v) = std (F (v)) (3.21) onde std (F (v)) é o desvio padrão dos elementos do conjunto F . Os vértices w ∈ V que apresentam valores de bf (w) = 0 são aqueles que possuem grafos de genealogia com um balanceamento perfeito, ou seja, todos os seus vértices adjacentes possuem o mesmo número de descendendes. Valores de bf (w) > 0 indicam um desbalanceamento proporcional ao valor desta métrica. Para vértices que não apresentam adjacentes (i.e., d(w)− = 0), assumimos arbitrariamente que bf (w) = −1. 3.1.14 Balanceamento global A análise de balanceamento de grafos de genealogia proposta pela utilização da métrica balanceamento pela fecundidade, apresentada anteriormente, tem como limitação a utilização de somente uma única métrica (fecundidade) como parâmetro para definição do equilíbrio do grafo. Porém, esta métrica não permite medir este equilíbrio sob a ótica das demais métricas. A métrica balanceamento global (bg) também tem por objetivo verificar o balanceamento de grafos, entretanto utiliza todo o conjunto de métricas disponíveis para este fim. O cálculo da métrica bg é realizado em algumas etapas. Primeiramente, realiza-se uma normalização (min-max) [Ding et al., 2001] dos valores de todas as métricas adjacentes a um vértice de interesse, com o objetivo de harmonizar as escalas das métricas. ~ onde mvi é o valor da métrica i do vértice v ∈ V , Seja um conjunto de grafos de genealogia G os valores normalizados 0 ≤ ||mvi || ≤ 1 para as métricas são dados por: 18 3.2 MÉTRICAS EM GRAFOS DE GENEALOGIA ||mui || = mui − mumin : u ∈ D(v). mumax − mumin (3.22) O próximo passo consiste em calcular a distância euclidiana [Neto & Moita, 1998] entre os conjuntos de valores de métricas normalizados e suas respectivas médias ||mi ||. DE(v) = {dei (||mui ||) = O valor de bg(v) com v ∈ V é dado por: qX (||mi || − ||mui ||)2 : u ∈ D(v)}. bg(v) = std (DE(v)) , (3.23) (3.24) onde dei é a distância euclidiana do conjunto de métricas normalizadas do vértice u e std (DE(v)) é o desvio padrão dos valores das distâncias euclidianas obtidas. A interpretação do resultado da métrica balanceamento global e a tratativa para vértices que não possuem descendência, seguem as mesmas diretrizes descritas para a métrica balanceamento pela fecundidade. Aqui é importante destacar que a métrica de balanceamento global, ainda que inclusa nesta seção dedicada às métricas de composição descendentes, possui composição mista. O processo de obtenção dos valores de bg considerou ambos os grupos de métricas, as de composição descendente e ascendente, este último grupo é detalhado na seção que segue. 3.2 Métricas de composição ascendente Em um estudo de caso realizado com o grafo genealógico de Johann Bernoulli e aplicando-se parte das métricas topológicas, descritas anteriormente [Rossi & Mena-Chalco, 2014a], observou-se que a maioria dos vértices analisados (80,69%) não possuiam descendentes, ou seja, a maior parte da grafo é composta por vértices folha. Com a utilização somente de métricas de composição descendente, diferenciar este conjunto de vértices folha é uma tarefa que não é possível de se realizar, pois não há linhagem que possibilite o cálculo das métricas de composição descendente. Porém, considerando que cada vértice do grafo de genealogia possui ancestrais (ascendência) diferentes, pode-se supor que mesmo vértices folha podem ser distintos entre si devido à influência de seus ancestrais. No contexto acadêmico-científico, mais precisamente para as relações de orientação acadêmica, a qualidade da orientação impacta na formação do orientado [Malmgren et al., 2010]. Assim alunos que tiveram orientações diferentes tendem a apresentar desempenhos também diferentes. Para possibilitar a diferenciação entre os vértices pertencentes a um grafo de genealogia, em especial os vértices folha, utilizamos um conjunto de métricas de composição ascendente. Este conjunto utiliza a ascendência de um indivíduo para a composição do valor da métrica, ou seja, os pais, avós, e demais ascendentes, com o objetivo de identificar como um determinado vértice foi impactado pelas relações de orientação que recebeu. Trata-se de uma visão anterior à origem do 3.2 MÉTRICAS DE COMPOSIÇÃO ASCENDENTE 19 indivíduo analisado. A diferença fundamental nos cálculos das métricas, para os dois grupos apresentados, está na forma de se caminhar (ou percorrer) no grafo. Para as métricas de composição descendente utilizamos a orientação original das arestas, ou seja, caminhamos da origem para o destino, sendo origem o vértice inicial e destino um vértice adjacente que esteja ligado à origem por uma aresta direcionada. O cálculo das métricas de composição ascendente foram realizados com as arestas invertidas, ou seja, também caminhamos da origem para o destino, porém, sendo origem o vétice inicial e destino um vértice adjascente que esteja ligado à origem por uma aresta direcionada invertida. Os antecessores de um vértices são comumente chamados de território inverso (ou anti-território). ~ e um vértice de interesse v ∈ V , o território inverso de v é definido Dado uma grafo de genealogia G por: T − (v) = {u ∈ V : ∃(u, v) − caminho em G} (3.25) O principal objetivo deste grupo de métricas é possibilitar a caracterização de parte importante dos vértices das grafos de genealogia que não possuem descendentes, aumentando assim a possibilidade de se obter conhecimento sobre estas estruturas. 3.2.1 Fecundidade inversa – número de ascendentes diretos ou indiretos A métrica fecundidade inversa (f − ) considera o total de vértices que precederam um vértice de interesse, ou seja, contabiliza os pais, avós e os demais ascendentes de um dado vértice. A f − é uma importante medida visto que agrega o total de vértices que, direta ou indiretamente, participaram da formação de um determinado vértice de interesse. Possibilita, também, a identificação de vértices primos (vértices que possuem ascendentes comuns e estão no mesmo nível) e analisar possíveis correlações entre seus atributos. ~ e um vértice de interesse v ∈ V , a métrica f − é definida por: Dado uma grafo de genealogia G f − (v) = |T − (v)|. 3.2.2 (3.26) Fecundidade média do território inverso – influência normalizada de ascendentes diretos e indiretos A f − estima o total de vértices que estão conectados, direta ou indiretamente, a um determinado vértice de interesse, porém essa métrica não diferencia os vértices do território inverso entre si, portanto apresenta uma abordagem quantitativa. Para considerarmos o quão importante é um vértice que pertence à ascendência de outro e tranferir esta relevância para este vértice utilizamos a fecundidade média do território inverso (f mT − ). A f mT − representa o valor médio das f + individuais dos vértices que participam no território inverso do vértice em questão, transferindo para este vértice a relevância da qual seus antecessores fazem jus. 20 3.2 MÉTRICAS EM GRAFOS DE GENEALOGIA No contexto acadêmico, dois indivíduos podem ter a mesma quantidade de ancestrais, porém, cada ancestral apresenta resultados, em termos de orientação acadêmica, diferentes entre si que, em tese, influenciaram estes indivíduos de formas diferentes. ~ e um vértice de interesse v ∈ V , a métrica f mT − é dada por: Dado um grafo de genealogia G f mT − (v) = 3.2.3 1 f − (v) X f + (w). (3.27) w∈T − (v) Fecundidade ponderada média do território inverso Similarmente à f mT − , a fecundidade ponderada média do território inverso (f pmT − ) representa o valor médio das f p individuais dos vértices que participam no território inverso do vértice em questão. A principal diferença entre estas duas medidas é a utilização de bases diferentes em suas composições. Conforme discutido anteriormente, a f + representa a quantidade total de descendentes diretos ou indiretos enquanto a f p, devido ao seu fator de ponderação, estima de forma mais abrangente a importância de um vértice no grafo. ~ e um vértice de interesse v ∈ V , a métrica f pmT − é definida Dado um grafo de genealogia G por: f pmT − (v) = 3.2.4 1 − f (v) X f p(w). (3.28) w∈T − (v) Número de ascendentes origem – Vértices sem ascendência Um grafo de genealogia não é, comumente, originado de um único vértice raiz. Pode-se encontrar grafos que possuem mais de um vértice de origem. A principal característica de um vértice origem é a ausência de ascendentes (d(v)+ = 0). Esta métrica representa o número de ascendentes que, por sua vez, não tiveram ascendentes. A métrica dá a ideia do número de antecessores que influenciaram o vértice. ~ e um vértice de interesse v ∈ V , o conjunto O(v) dos vértices Dado um grafo de genealogia G origem é definido por: O(v) = {u ∈ T − (v) : d(u)+ = 0} (3.29) neste contexto, a métrica no(v) é definida por: no(v) = |O(v)|. 3.2.5 (3.30) Largura inversa – Número de ascendentes diretos A métrica largura inversa (l− ) de um vértice pode ser definida como o número de vértices existentes em seu território inverso que estão diretamente conectados, por uma aresta direcionada, 3.2 MÉTRICAS DE COMPOSIÇÃO ASCENDENTE 21 ao vértice de interesse. Esta métrica representa o número total de orientadores diretos do vértice em questão. ~ e um vértice de interesse v ∈ V , a ascendência de v é: Dado um grafo de genealogia G, A(v) = {u ∈ V : (u, v) ∈ E}, (3.31) l− (v) = |A(v)|. (3.32) a largura inversa de v é: 3.2.6 Profundidade inversa – Número de gerações ascendentes Todo vértice em um grafo de genealogia pertence a uma linhagem de outros vértices que o precederam, exceto os vértices origem, que não possuem ascendente. Em certo contexto, as características de um vértices podem ser, total ou parcialmente, transmitidas para um vértice adjacente. Este comportamento pode nos indicar que algumas características, as mais dominantes, se perpetuam pelo grafo devido às conexões existentes. A métrica profundidade inversa (p− ) é uma medida que apresenta o maior número de vértices que precederam um vértice de interesse e são conectados em um único caminho. Em outras palavras, esta métrica é o tamanho do maior caminho existente no grafo de genealogia de um dado vértice e um vértice origem, representando assim o número de gerações ascendentes de um vértice. ~ e um vértice de interesse v ∈ V , a profundidade inversa p− (v) Dado um grafo de genealogia G é dada pelo caminho de maior comprimento k dentre os caminhos possíveis entre v e u ∈ O(v), ou seja: p− (v) = max{k ∈ N : ∃(u, v) − caminho em G, ∀u ∈ O(v)}. 3.2.7 (3.33) Pagerank A métrica Pagerank foi originalmente desenvolvida por Larry Page e Sergey Brin [Page et al., 1999], fundadores do Google, com o objetivo de classificar as páginas Web de acordo com sua relevância na rede. Cada vértice representa uma página e cada aresta um link entres elas. As páginas com maiores valores de Pagerank são aquelas que: (i) têm maior número de páginas com link’s direcionados para si e/ou (ii) estas páginas conectadas apresentam alto valor para a métrica. O cálculo do Pagerank é feito de forma iterativa, onde as páginas são inicializadas com um valor específico para a métrica e, após cada iteração, este valor é recalculado até que se obtenha resultados estáveis de acordo com um limiar de convergência pré-estabelecido. No contexto deste trabalho, a métrica pagerank (pr) mantém seu objetivo original, ou seja, classificar os vértices de um grafo segundo suas ligações, diferenciando-se somente as característica do grafo utilizado que, para este caso, é um conjunto de grafos de genealogia. 22 3.3 MÉTRICAS EM GRAFOS DE GENEALOGIA ~ atribui-se um valor inicial: pr(v) = 1 para todo Dado um conjunto de grafos de genealogia G, |V | v ∈ V . Dado um vértice de interesse v ∈ V , o pr(v) é obtido por: X (1 − q) pr(u) pr(v) = + q , |V | l+ (u) em que: (3.34) u∈D(v) • q é um fator de amortecimento que representa uma probabilidade de, durante as iterações, ocorrer uma interrupção no “percurso” pelas conexões entre os vértices (para este trabalho utilizou-se q = 0, 85); • l+ (u) é a largura do vértice u (Eq. 3.3); • D(v) é a descendência do vértice v (Eq. 3.2). Em grafos que possuem ciclos o cálculo do pagerank é finalizado após n iterações até que um limiar de convergência seja atingido. Para os grafos de genealogia, devido à ausência de ciclos, foi utilizado n = 10 iterações, visto que, em testes empíricos, observou-se uma estabilidade nos resultados a partir de 3 iterações. 3.2.8 Pagerank ponderado A métrica pagerank ponderado (prp) tem por objetivo proporcionar uma dimensão adicional ao conjunto de métricas, auxiliando na caracterização dos vértices da grafo de genealogia. Seu valor é obtido por meio da utilização da métrica pagerank como fator de ponderação. Neste contexto, a métrica prp é definida por: prp(v) = 3.3 1 . pr(v) (3.35) Métricas limitadas por janelas A aplicação das métricas, descritas anteriormente, têm por objetivo a diferenciação dos vértices de um grafo de genealogia. Entretanto algumas métricas (e.g., fecundidade e fecundidade inversa) têm seus resultados impactados em função da posição do vértice na grafo. Utilizando o contexto acadêmico como exemplo, onde os vértices representam orientadores e/ou orientados, e as arestas os relacionamentos de orientação, um acadêmico que viveu e orientou alunos no século XIX tende a ser privilegiado se comparado a outro que iniciou sua carreira nos anos 1980. Ainda que o acadêmico mais contemporâneo tenha um excelente desempenho, seria difícil haver uma equiparação quantitativa com relação ao acadêmico secular. Com o objetivo de minimizar a ação do tempo nos resultados de algumas métricas, seus cálculos foram feitos limitando o território e o território inverso dos vértices analisados. Nesta dissertação 3.4 MÉTRICAS LIMITADAS POR JANELAS 23 esta limitação é denominada janela. Uma janela de tamanho 5, por exemplo, permite que os cálculos das métricas descendentes e ascendentes sejam limitados a vértices que estejam contidos em um caminho, a partir do vértice de interesse, de tamanho menor ou igual a 5, em ambos os sentidos. A Figura 3.1 exemplifica a seleção dos vértices considerados para o cálculo dos valores das métricas para janelas de tamanhos 1 a 4, tanto para o território do vértice de interesse, quanto para TERRITÓRIO JANELA 1 JANELA 2 JANELA 3 JANELA 4 TERRITÓRIO INVERSO seu território inverso. Figura 3.1: Grafo de genealogia, com a representação da abrangência de janelas de tamanhos 1 a 4, para o cálculo das métricas do vértice de interesse (destacado em vermelho). A utilização das janelas pode tornar a diferenciação dos vértices de um grafo de genealogia mais efetiva, equilibrando os valores das métricas e minimizando o fator tempo, quando as métricas são aplicadas em um contexto não teórico (e.g., acadêmicos e relacionamentos de orientação). A título de ilustração, as Figuras 3.2 e 3.3 apresentam um exemplo de um conjunto de grafos de genealogia contendo duas componentes conexas, sendo que uma delas possui 1 vértice e a outra 10 vértices. Para cada vértice foram calculados as métricas de composição descendente e ascendente, considerando janelas de abrangência de tamanhos 1, 2 e 3. 24 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.4 3.4 Taxonomia das métricas Cada uma das métricas topológicas, propostas nesta dissertação, possuem características e objetivos específicos. A Figura 3.4 (parte superior) apresenta as principais características individuais destas métricas. Nesta dissertação foram consideradas um total de 22 métricas, das quais 13 são de composição descendente, 8 de composição ascendente e 1 de composição mista. A utilização de janelas como limite de abrangência do cálculo das métricas não impacta todas elas, por exemplo, a métrica largura independe da abrangência da janela no processo de obtenção de seu valor, exceto os vértices folha que não possuem valores de métricas de composição descendente. Por outro lado, a métrica número de folhas depende da abrangência da janela para a obtenção de seu valor, ou seja, o mesmo vértice pode apresentar valores diferentes, para esta medida, em função da janela utilizada. A classificação das métricas, de acordo com sua dependência das janelas utilizadas, é apresentada no quadro resumo na Figura 3.4. Das 22 métricas, 15 são dependentes do tamanho da janela considerada no processo de cálculo de seus valores. Os valores de algumas métricas são obtidos por meio do uso de valores de outras. Um exemplo de métrica dependente é a fecundidade ponderada, que utiliza a fecundidade como elemento de cálculo. Por outro lado, a métrica largura é, neste contexto, independente, pois não utiliza nenhum outro valor de métrica para seu cálculo. No conjunto de métricas propostas, 10 delas são dependentes de outras medidas para a composição de seu valor. Também são 10 as métricas cujos valores são discretos (veja a Figura 3.4). 3.4 TAXONOMIA DAS MÉTRICAS MÉTRICA l+ (v) nf (v) p+ (v) f + (v) f p(v) ml(v) h(v) i(v) dm(v) mmc(v) pr− (v) prp− (v) bf (v) bg(v) TAMANHO DE JANELA 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 A 2 2 2 0 1 3 1 2 3 2 6 8 2,00 3,00 3,22 2 4 4 1 1 1 0,20 0,60 0,80 1,00 1,67 2,00 0,33 0,24 0,22 0,09 0,09 0,09 11,36 11,36 11,36 1,00 1,50 1,50 0,00 0,00 0,00 B 1 1 1 0 1 1 1 2 2 1 2 2 1,00 1,25 1,25 1 1 1 1 1 1 0,10 0,20 0,20 0,00 1,50 1,50 0,50 0,50 0,50 0,03 0,03 0,03 33,16 33,16 33,16 0,00 0,00 0,00 0,00 0,00 0,00 C 3 3 3 1 3 3 1 2 2 3 5 5 3,00 3,50 3,50 3 3 3 1 1 1 0,30 0,50 0,50 1,00 1,40 1,40 0,25 0,23 0,23 0,06 0,06 0,06 17,42 17,42 17,42 0,47 0,47 0,47 0,64 0,64 0,64 D 1 1 1 1 1 1 1 1 1 1 1 1 1,00 1,00 1,00 1 1 1 0 0 0 0,10 0,10 0,10 0,00 0,00 0,00 0,50 0,50 0,50 0,02 0,02 0,02 51,46 51,46 51,46 0,00 0,00 0,00 0,00 0,00 0,00 VÉRTICES E F 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1,00 1,00 1,00 1,00 1,00 1,00 1 1 1 1 1 1 0 0 0 0 0 0 0,10 0,10 0,10 0,10 0,10 0,10 0,00 0,00 0,00 0,00 0,00 0,00 0,50 0,50 0,50 0,50 0,50 0,50 0,02 0,02 0,02 0,02 0,02 0,02 51,46 51,46 51,46 51,46 51,46 51,46 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 (v) G 1 1 1 1 1 1 1 1 1 1 1 1 1,00 1,00 1,00 1 1 1 0 0 0 0,10 0,10 0,10 0,00 0,00 0,00 0,50 0,50 0,50 0,03 0,03 0,03 39,64 39,64 39,64 0,00 0,00 0,00 0,00 0,00 0,00 H 0 0 0 0 0 0 0 0 0 0 0 0 0,00 0,00 0,00 0 0 0 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,01 0,01 73,33 73,33 73,33 -1,00 -1,00 -1,00 -1,00 -1,00 -1,00 I 0 0 0 0 0 0 0 0 0 0 0 0 0,00 0,00 0,00 0 0 0 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,01 0,01 73,33 73,33 73,33 -1,00 -1,00 -1,00 -1,00 -1,00 -1,00 25 J 0 0 0 0 0 0 0 0 0 0 0 0 0,00 0,00 0,00 0 0 0 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,01 0,01 73,33 73,33 73,33 -1,00 -1,00 -1,00 -1,00 -1,00 -1,00 Figura 3.2: Exemplo de conjunto de grafos de genealogia com os seus respectivos valores para as métricas de composição descendente, calculadas para janelas de tamanhos 1, 2 e 3. K 0 0 0 0 0 0 0 0 0 0 0 0 0,00 0,00 0,00 0 0 0 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,01 0,01 73,33 73,33 73,33 -1,00 -1,00 -1,00 -1,00 -1,00 -1,00 26 3.4 MÉTRICAS EM GRAFOS DE GENEALOGIA MÉTRICA f − (v) f mT − (v) f pmT − (v) no(v) l− (v) p− (v) pr+ (v) prp+ (v) TAMANHO DE JANELA 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 A 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0 0 0 0 0 0 0 0 0 0,01 0,01 0,01 73,33 73,33 73,33 B 1 1 1 2,00 6,00 8,00 2,00 3,00 3,22 1 1 1 1 1 1 1 1 1 0,02 0,02 0,02 51,46 51,46 51,46 C 1 1 1 2,00 6,00 8,00 2,00 3,00 3,22 1 1 1 1 1 1 1 1 1 0,02 0,02 0,02 51,46 51,46 51,46 D 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0 0 0 0 0 0 0 0 0 0,01 0,01 0,01 73,33 73,33 73,33 VÉRTICES (v) E F G 1 1 1 2 2 2 2 2 2 1,00 3,00 3,00 4,00 5,50 5,50 5,00 6,50 6,50 1,00 3,00 3,00 2,12 3,25 3,25 2,24 3,36 3,36 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 0,03 0,02 0,02 0,03 0,02 0,02 0,03 0,02 0,02 33,16 52,24 52,24 33,16 52,24 52,24 33,16 52,24 52,24 H 2 3 3 2,00 4,00 4,67 2,00 2,50 2,57 1 2 2 2 2 2 1 2 2 0,03 0,03 0,03 32,54 32,54 32,54 I 2 4 5 1,00 2,25 3,40 1,00 1,69 1,99 0 0 1 2 2 2 1 2 3 0,06 0,06 0,06 18,01 18,01 18,01 J 1 2 3 1,00 3,00 4,67 1,00 2,25 2,57 0 0 1 1 1 1 1 2 3 0,03 0,03 0,03 33,44 33,44 33,44 K 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0 0 0 0 0 0 0 0 0 0,01 0,01 0,01 73,33 73,33 73,33 Figura 3.3: Exemplo de conjunto de grafos de genealogia com os seus respectivos valores para as métricas de composição ascendente, calculadas para janelas de tamanhos 1, 2 e 3. 3.4 TAXONOMIA DAS MÉTRICAS DEPENDENTE MÉTRICA DERIVADA TIPO DE SIGLA DE JANELA l+ NÃO NÃO DISCRETA 02 – Número de folhas nf SIM NÃO DISCRETA 03 – Profundidade? p+ SIM NÃO DISCRETA + SIM NÃO DISCRETA 01 – Largura? ? 04 – Fecundidade † f ‡ 27 DE MÉTRICA VARIÁVEL fp SIM SIM CONTÍNUA ml SIM NÃO DISCRETA 07 – Índice h genealógico h NÃO SIM DISCRETA 08 – Impacto‡ i SIM SIM CONTÍNUA dm SIM NÃO CONTÍNUA mmc SIM NÃO CONTÍNUA pr− NÃO SIM CONTÍNUA prp NÃO SIM CONTÍNUA 13 – Balanceamento pela fecundidade bf SIM SIM CONTÍNUA 14 – Balanceamento global‡ bg SIM SIM CONTÍNUA SIM NÃO DISCRETA 05 – Fecundidade ponderada 06 – Maior largura‡ / 09 – Distância média‡ 10 – Média dos menores caminhos ‡ 11 – Pagerank inverso• ‡ − 12 – Pagerank inverso ponderado ‡ ‡ f 15 – Fecundidade inversa ‡ − − 16 – Fec. média do território inverso f mT SIM SIM CONTÍNUA 17 – Fec. pond. média do território inverso‡ f pmT − SIM SIM CONTÍNUA no SIM NÃO DISCRETA − NÃO NÃO DISCRETA p− SIM NÃO DISCRETA NÃO NÃO CONTÍNUA NÃO SIM CONTÍNUA ‡ 18 – Número de origens 19 – Largura inversa ‡ l 20 – Profundidade inversa‡ 21 – Pagerank ◦ 22 – Pagerank ponderado pr ‡ + + prp Figura 3.4: Descrição das principais características das métricas topológicas. ‡ Desenvolvida para a dissertação. • Adaptada de Bar-Yossef & Mashiach ◦ Adaptada de Page et al. [1999] [2008] † Adaptada / Adaptada ? de David & Hayden [2012]. de Hirsch [2005] Adaptada de Bondy & Murty [1976] 28 MÉTRICAS EM GRAFOS DE GENEALOGIA 3.4 Capítulo 4 Sobre os dados utilizados Os dados utilizados neste trabalho referem-se ao conjunto dos doutores em matemática e seus relacionamentos de orientação acadêmica. Este tipo de estrutura, devido a suas características, é comumente denominada grafo (ou árvore) de genealogia acadêmica dos matemáticos. O projeto de genealogia dos matemáticos (Mathematic Genealogy Project – MGP 1 ) foi idealizado por Harry Coonce, professor na North Dakota State University, no início da década de 1990 [Jackson, 2007]. Esta plataforma tem como objetivo compilar informações sobre todos os matemáticos (e, nos últimos anos, acadêmicos de áreas afins) do mundo, por meio do registro histórico, via Web, dos indíviduos que obtiveram o título de doutor e seus respectivos alunos/doutores com formação concluída. A plataforma do MGP é apresentada como ferramenta para a captação de novos registros e possibilita consulta à base de dados existente, que, em Abril de 2014, contava com mais de 178 mil doutores cadastrados de diversas partes do mundo. As informações que são possíveis de se obter, por meio da plataforma do projeto, são descritas a seguir. • Nome completo do matemático; • Nome da instituição e o nome do país onde foi obtida a titulação; • Ano no qual o grau foi obtido; • Título do trabalho defendido no doutorado; • Número de classificação da área a qual o trabalho está relacionado (Mathematics Subject Classification 2 ); • Lista de identificação do seu(s) orientador(es) e orientado(s); 1 • Número total de descendentes. Disponível em: http://genealogy.math.ndsu.nodak.edu/ Classificador alfanumérico formulado pela American Mathematical Society utilizado para categorizar temas/tópicos da matemática, disponível em: http://www.ams.org/msc/msc2010.html 2 29 30 4.1 SOBRE OS DADOS UTILIZADOS Os registros do MGP são identificados por meio de um número de identificação exclusivo (id) para cada matématico. Os dados, que são objeto de estudo nesta dissertação, foram obtidos por meio de consultas recursivas ao site do MGP, onde, com a utilização do id, obtivemos o (i) nome do matemático, (ii) nome da instituição, (iii) nomde do país onde foi obtido o título, (iv) o ano de titulação, (v) a lista de todos os orientados cadastrados e (vi) o número de classificação da área de atuação. A Figura 4.1 descreve o método utilizado para a obtenção dos dados do MGP. Por meio do fornecimento de um id obteve-se um documento em formato html do indivíduo em questão. Este registro, posteriormente, foi submetido a uma seleção dos dados de interesse, conforme descrito anteriormente. Após a obtenção e seleção de todos os registros disponíveis, estes dados estruturados foram utilizados para povoar um banco de dados orientado à grafos, onde cada indivíduo foi representado por um vértice e cada relacionamento entre estes indivíduos foi representado por uma aresta direcionada. Os demais dados sobre o indivíduo foram armazenados como atributos dos vértices. Como informações nas arestas podem ser considerados o ano de titulação e o número de classificação de área. Plataforma MGP ID’s registros Dados genealógicos Parâmetros selecionados registro html Coleta de dados registros Grafos de genealogia Figura 4.1: Fluxograma, ilustrativo, do método utilizado para a obtenção dos dados genealógicos. 4.1 CONJUNTO DOS MATEMÁTICOS 4.1 31 Conjunto dos matemáticos Em Abril de 2014 foram obtidos 178.698 registros de doutores em matemáticas e áreas afins e 187.199 relacionamentos de orientação acadêmica, estes indivíduos estão distribuídos em 185 países ou combinação destes (isso ocorre devido à declaração de dois países como local de titulação) e 2.671 instituições ou combinações destas. O primeiro registro data de 1363, na França, e segue até os dias atuais, conforme ilustrado na Figura 4.2, onde os gráficos apresentam a evolução do número de Doutores nos respectivos anos de obtenção do título. Para possibilitar a análise do crescimento do número de matemáticos, o período total de abrangência do MGP (1363-2013) foi dividido em quatro intervalos (1363-1600, 1601-1800, 1801-1900 e 1901-2013), onde observa-se as contagens anual e acumulada. O ano de 2014 apresentou, até Abril, um total de 199 novos registros de doutores. Estes não foram considerados na evolução pois referem-se à um período ainda incompleto. Figura 4.2: Crescimento do número de matemáticos que obtiveram o título de doutor através dos anos. Os registro observados no MGP não são completos em sua totalidade. Do total de 178.698 registros em 167.915 (93,97%) encontramos a declaração do país e da instituição onde foi obtido o título de doutor e em 167.643 (93,81%) encontramos o ano da titulação. As Tabelas A.1 e A.1, disponíveis no Apêndice A, apresentam os resultados dos 20 países com maior número de matemáticos cadastrados no MGP e suas respectivas instituições melhores colocadas segundo a quantidade de titulações realizadas. As quatro primeiras colunas identificam os países, com sua posição e seu nome seguido do número de matemáticos que obtiveram a titulação naquela localidade e a porcentagem correspondente ao total da base de dados. Nas últimas quatro 32 4.2 SOBRE OS DADOS UTILIZADOS colunas observamos a posição e o nome da instituição pertencente aquele país, o número de doutores titulados e sua representação percentual referente ao total de doutores daquele país. O maior grupo de doutores em matemática é encontrado nos EUA3 . Observamos 81.353 matemáticos titulados nas intituições norte-americanas. Entre elas a mais representativa é a Universidade da California, onde mais de 4% dos matemáticos norte-americanos obtiveram suas titulações. O Brasil figura como 12o colocado com 1.615 matemáticos cadastrados no MGP (aproximadamente 0,90% do total) e sua instituição com maior representatividade, neste critério, é a Universidade de São Paulo (USP) com 428 matemáticos4 . A relação completa dos países e suas respectivas instituições estão disponíveis em: https://sites. google.com/site/lucianorossihomepage/. 4.2 Relacionamentos de orientação acadêmica Uma análise importante sobre as relações de orientação acadêmica, encontradas no MGP, é descrita na dissertação de mestrado de Narayan [2011] (Universidade de Oxford), onde buscouse verificar a tendência de matemáticos em se relacionarem, por meio de orientação com outros indivíduos, levando-se em consideração o número de alunos que ambos tiveram. Esse conceito, denominado assortividade, é muito utilizado em redes sociais para se verificar a correlação existente entre atributos de indivíduos pertencentes à rede analisada [Newman, 2002]. A Figura 4.3 apresenta uma matriz de relacionamento onde cada célula representa, por meio de sua coloração, a quantidade de relacionamentos existentes entre dois indivíduos que têm k e j filhos respectivamente. O cálculo dos valores apresentados é dado por: e(j,k) = |E(k−1),(j−1) | , |E| (4.1) para j, k = {1, 2, ..., n + 1}, em que E(k,j) é a quantidade de relacionamentos existentes entre um matemático que orientou k alunos e seus filhos acadêmicos que registram j orientados, E é o total de relacionamentos existentes e n é o maior número de relacionamentos pertencente à um matemático da base de dados em questão. As células na cor azul representam valores altos para a quantidade de relacionamentos. Vale notar que, a célula e(10, 0) apresenta um valor alto, 0, 0266 (célula na cor azul), esse valor representa a razão entre o número de relacionamentos observados e o total de relacionamentos existentes. Os relacionamentos observados são aqueles entre um orientador com 10 alunos orientados que, por sua vez, não orientaram alunos. A célula e(10, 10) apresenta um valor baixo, 0, 00013 (célula na cor verde claro) que representa o número de relacionamentos entre orientador e orientado em que, ambos, tiveram 10 alunos, divido pelo total de relacionamentos existentes. Por outro lado, o valor 3 As informações apresentadas na Tabela A.1 forão grafadas respeitando a declaração realizada no MGP. Esta contagem incluí somente os matemáticos cuja declaração da instituição foi grafada como Universidade de São Paulo. 4 4.4 MATHEMATICS SUBJECT CLASSIFICATION 33 da célula e(10, 100) é igual a zero e indica que não existem orientadores com 10 alunos orientados que, por sua vez, orientaram 100 alunos. A Figura 4.3 sugere que, para o conjunto de dados analisado, os relacionamentos mais observados são aqueles entre orientador com até 30 alunos orientados que não realizaram orientação (estas combinações apresentam acima de 1.000 ocorrências). As ocorrências diminuem à medida que buscamos orientadores com maior número de alunos orientados e, diminuem ainda mais, quando consideramos maiores quantidades de orientações realizadas pelos alunos. Figura 4.3: Matriz de correlações (assortividade) entre matemáticos e seus orientados. A cor da células representa a quantidade de relacionamentos observados entre indivíduos com k alunos (eixo horizontal) e j alunos (eixo vertical) respectivamente. 4.3 Mathematics Subject Classification De acordo com a declaração da missão do Mathematics Genealogy Project, disponível na sua página web, o termo matemática é utilizado de forma geral, podendo incluir doutores em áreas do conhecimento distintas. Um atributo disponível nos registros do MGP que permite a identificação da área de atuação do acadêmico registrado é a Mathematics Subject Classification (MSC). A MSC é um esquema de classificação alfanumérico e hierárquico, desenvolvido com o objetivo de facilitar a classificação de publicações científicas da área. O registro desta informação no MGP é limitada ao primeiro nível de especificação. A maioria dos registros (55,76%) apresentam o código “00” ou a ausência da identificação do MSC. A Figura 4.4 apresenta as dez classificações mais observadas. A relação completa dos registros classificados pela MSC está disponível no conjunto de dados considerado apresentada nas Tabelas A.3 e A.3 do Apêndice A. 34 SOBRE OS DADOS UTILIZADOS 4.4 Figura 4.4: As 10 principais áreas de atuação declaradas no “MGP”. Os registros classificados como “General” referem-se, também, à ausencia da declaração na base de dados. A grafia das categorias foi mantida em concordância com a representação disponível em: http:// www.ams.org/ msc/ pdfs/ classifications2010.pdf . 4.4 Grupos e escolas matemáticas Os registros dos matemáticos cadastrados na plataforma do MGP possuem diversos atributos, como descrito anteriormente. O atributo país é referente ao local onde o matemático obteve sua titulação e não ao local de seu nascimento. Podemos encontrar alguns exemplos onde o local da titulação é diferente do local de nascimento do matemático. Sofya Kovalevskaya titulou-se na Alemanha, porém seu país natal é a Russia. O húngaro Alfred Haar obteve sua titulação, também, na Alemanha [Chang, 2011]. No contexto desta dissertação, podemos agrupar os matemáticos pelo atributo país que ele apresenta. Há, ainda neste contexto, duas possibilidades de realizar este agrupamento: (i) levando-se em consideração a declaração referente à este atributo na base de dados (grupo) ou (ii) considerandose os relacionamentos de orientação acadêmica (escola). Para a segunda possibilidade, a escola de um matemático é definida pelo local de titulação de seu ancestral direto (orientador), já a escola deste orientador é definida pelo local de titulação de seu ancestral. Este processo é repetido de forma sequencial até que se encontre um matemático que não apresenta ancestral (vértice origem). Neste exercício de análise, um matemático que não apresenta ancestral é denominado origem. No contexto das métricas, descritas no Capítulo 3, um vértice origem é aquele que apresenta o valor 0 como resultado da métrica profundidade inversa. Uma escola pode ser definida como um conjunto de vértices origem, agrupados pelo compartilhamento do mesmo atributo país, e suas respectivas descendências, independente do local de titulação dos descendentes. Por outro lado, define-se grupo como um conjunto de vértices agrupados em função de seu país de titulação. O grafo de genealogia acadêmica, constituído a partir dos dados da plataforma MGP, apresenta um total de 71 escolas constituídas por 9.677 origens 5 e suas respectivas descendências, identificadas pelo método descrito anteriormente. Estas escolas são descritas nas Tabelas A.2 e A.2, no Apêndice 5 Não foram consideradas as origens cuja declaração do país de titulação foi omitida. 4.4 GRUPOS E ESCOLAS MATEMÁTICAS 35 A, onde temos: seus nomes, sua linhagem total, o número de origens que a compõem, a média de matemáticos por origem e a representação percentual do total de matemáticos na escola (linhagem e origens) pelo total de matemáticos na base de dados (178.698). Um caso interessante, considerando-se a comparação entre a magnitude do grupo e da escola, é o norte-americano. Os EUA, em números absolutos, são o primeiro país em quantidade de matemáticos titulados em suas instituições, conforme descrito na Tabela A.1 (Apêndice A). Sob o ponto de vista das escolas (origem histórica dos indivíduos), a norte-americana é apenas a 8a colocada apesar de apresentar 3.992 origens. Este alto número de origens se deve ao fato de que a escola americana é relativamente nova, quando comparada às escolas européias, e grande parte dos matemáticos titulados neste país têm, em sua ascendência, algum orientador pertencente a outras escolas. O Brasil apresenta uma situação semelhante à dos EUA. Em número de titulações ocorridas em instituições brasileiras, o Brasil é o 12o colocado. Observando as características da escola brasileira, temos 14 origens e somente um matemático em sua linhagem. O restante dos matemáticos titulados no Brasil pertencem a outras escolas, ou seja, seus orientadores, diretos ou indiretos, não pertencem à escola brasileira. Podemos classificar os matemáticos, no contexto das escolas às quais pertencem, em dois grupos: (i) os matemáticos que apresentam uma única origem (escola) e (ii) aqueles oriundos de diversas origens (escolas). Pertencem ao primeiro grupo aqueles que apresentam, em sua linhagem ascendente, apenas indivíduos oriundos de uma única escola, ou seja, tanto a escola quanto o local da titulação fazem referência ao mesmo país. Já o segundo grupo, descende de matemáticos de duas ou mais escolas distintas e ainda podem divergir quanto ao local de titulação de seus membros. Assim sendo, os matemáticos com diversas origens são aqueles que tiveram dois ou mais orientadores de escolas diferentes, seja no nível imediatamente superior ou nos demais níveis ascendentes dos grafos. Um matemático pode pertencer a duas ou mais escolas simultâneamente quando há interseção de uma ou mais escolas. A interseção de escolas ocorre quando um matemático recebe orientação acadêmica direta de dois ou mais orientadores de escolas diferentes. Este matemático é o ponto, a partir do qual, diferentes escolas compartilham os mesmos matemáticos. Para a identificação das escolas das quais os matemáticos fazem parte, podemos utilizar um vetor binário onde cada posição identifica uma escola. Caso o matemático pertença àquela escola, associa-se à posição correspondente o valor 1, caso contrário associa-se o valor 0. A Figura 4.5 apresenta um diagrama de Venn a título de ilustração. Neste diagrama as três escolas (A, B e C) apresentam áreas de interseção simultânea. O número de áreas resultantes destas interseções é dado por 2r − 1, onde a base binária corresponde a presença (1) ou ausência (0) de um elemento e r é o número de escolas. Definimos a localização de um elemento do conjunto analisado por meio de um vetor binário. Caso um determinado elemento pertença, simultâneamente, às três escolas, ele se localiza na área representada pelo vetor [1,1,1], ou seja, este elemento está presente nas escolas A, B e C. Para um elemento que está presente apenas na escola C e não está presente em A e B, o vetor da área correspondente é [0,0,1]. Os vértices de origem única são identificados pelos vetores onde somente uma posição contem o valor de 1. 36 SOBRE OS DADOS UTILIZADOS 4.4 Figura 4.5: Diagrama de Venn das interseções possíveis entre três escolas e os vetores binários que caracterizam as possíveis áreas que compartilham elementos. Os vetores binários correspondentes aos matemáticos da plataforma MGP têm 71 posições. Cada posição refere-se a uma das escolas identificadas na base de dados e apresentadas nas Tabelas A.2 e A.2 (Apêndice A). Para consulta do número de matemáticos pertencentes às diversas combinações possíveis de escolas, os dados estão disponíveis em: https://sites.google.com/site/ lucianorossihomepage/. A identificação dos grupos e escolas matemáticas é importante para o entendimento sobre a composição do conjunto de grafos de genealogia matemática e suas características. Matemáticos que pertencem ao mesmo grupo (mesmo país de titulação) podem pertencer a escolas distintas, ou ainda, a um conjunto destas escolas. Se admitirmos que um relacionamento de orientação acadêmica pode impactar na formação de um indivíduo, perpetuando características do orientador no orientado, então indivíduos pertencentes a uma mesma escola podem, em algum nível, compartilhar as mesmas características. A conjunto de grafos de genealogia dos matemáticos é, em sua maior parte, o resultado da interseção de escolas diferentes. As interseções das escolas formam grupos específicos que, em teoria, compartilham características. Utilizando o vetor binário, descrito anteriormente, para cada matemático analisado, foi identificada a(s) escola(s) que influenciou estes matemáticos e como estas influenciaram os diferentes grupos de matemáticos. A Figura 4.6 apresenta os gráficos de influência entre as escolas e os grupos identificados. Para esta representação utilizamos os 20 maiores grupos do conjunto de dados (Tabela A.1). Cada gráfico representa a influência sob dois aspectos. Para cada radar chart temos a influência que esta escola exerceu sobre os 20 maiores grupos da base de dados (linha vermelha) e a influência que este grupo recebeu das 20 escolas identificadas (linha azul).O ponto central e a maior circunferência no gráfico representam: nenhuma influência e influência total, respectivamente. 4.4 GRUPOS E ESCOLAS MATEMÁTICAS 37 A escola mais influente, neste contexto, é a francesa6 , que exerceu grande influência (em média próxima à 75%) sobre os 20 maiores grupos da base de dados. Outras escolas representativas são: a britânica, a alemã, a polonesa, a checa7 e a belga que influenciaram, de forma relevante, a formação da comunidade acadêmica dos matemáticos, segundo o conjunto de dados do MGP. As demais 65 escolas apresentaram pouca influência na comunidade, na grande maioria dos casos a influência foi inferior a 5%. O grupo de matemáticos titulados no Brasil foi influenciado de forma semelhante pelas escolas: alemã, britânica, francesa e polonesa (cerca de 75% dos matemáticos titulados no Brasil, pertencem a estas escolas). As escolas belga e austríaca completam às mais influentes, porém, com menor impacto (cerca de 50% e 12%, respectivamente). Como escola, o Brasil não exerceu influência sobre nenhum outro grupo. 6 A grafia do nome das escolas nos gráficos de influência foram mantidas em concordância com o registro do MGP. A escola checa não foi representada devido a não ser um dos 20 maiores grupos, em número de matemáticos titulados. 7 38 4.4 SOBRE OS DADOS UTILIZADOS ! " $ % ) & % % ' # & ' ( % "% (% %! & & + *%& # " % $ *%& Figura 4.6: Representação gráfica da influência das escolas matemáticas sobre os grupos de matemáticos titulados naquele país. A linha vermelha representa a influência exercida pela escola (país ao qual o gráfico refere-se) sobre os grupos (20 eixos), já a linha azul refere-se à influência que aquele grupo (país ao qual o gráfico refere-se) sofreu das escolas (20 eixos). O ponto central e a maior circunferência representam nenhuma influência e influência total, respectivamente. 4.5 TOPOLOGIA DO GRAFO 4.5 39 Topologia do grafo O grafo de genealogia, resultante da representação dos matemáticos como vértices e seus relacionamentos de orientação acadêmica como arestas direcionadas, possui 10.048 componentes conexas. A maior componente conexa contém aproximadamente 88,72% dos vértices totais (158.548 vértices), por outro lado, a segunda componente conexa, em relação ao número de vértices, apresenta apenas 0,08% dos vértices totais (141 vértices). As últimas 7.542 componentes conexas referem-se a vértices isolados, ou seja, não possuem ascendentes ou descendentes. No grafo, em média, cada vértice possue 2,094 vizinhos. A Figura 4.7 apresenta o grafo dos matemáticos. As componentes conexas foram ordenadas por meio do número de vértices que possuem. Para possibilitar uma melhor visualização os vértices folha (vértices que não possuem descendentes) foram retirados da representação gráfica, estes vértices representam um total de 136.230 matemáticos, ou seja, a estrutura apresentada na Figura 4.7 representa cerca de 23,76% do conjunto total, reunindo os matemáticos mais relevantes em função de suas orientações acadêmicas. Os vértices do grafo de genealogia são rotulados pelos seus respectivos valores da métrica índiceh genealógico, cuja escala de valores varia de 0 à 12, a dimensão e a coloração dos vértices (de azul a vermelho) representam a variação desta escala. A Figura 4.8 apresenta algumas medidas sobre a topologia do grafo. O grau de entrada de um vértice (Figura 4.8a) representa o número de arestas que nele incidem. No contexto do grafo de genealogia, esta medida identifica o número de orientadores que um determinado matemático teve no processo de obtenção de seu título. Há uma predominância de vértices com somente um ascendente. Por outro lado, poucos vértices apresentam descendente (grau de saída), como destacado na Figura 4.8b. A vizinhança ou adjacência de um vértice v em um grafo é um conjunto de vértices N (v) que estão ligados a v por uma aresta. A conectividade da vizinhança de v é a média dos graus dos vértices w ∈ N (v). A Figura 4.8c apresenta a conectividade média da vizinhança dos vértices cujos graus variam de 1 à 122. As Figuras 4.8d e 4.8e referem-se à conectividade média da vizinhança considerando o grau de saída da vizinhança ascendente e o grau de entrada da vizinhança descendente, respectivamente. Finalmente, a Figura 4.8f descreve a distribuição dos comprimentos dos menores caminhos encontrados no grafo de genealogia. 40 SOBRE OS DADOS UTILIZADOS 4.5 Figura 4.7: Representação do grafo de genealogia acadêmica dos matemáticos. As componentes conexas são ordenadas segundo o número de vértices que as compõem. A rotulação dos vértices refere-se à métrica índiceh genealógico, cuja escala de valores varia de 0 (azul) à 12 (vermelho). Os vértices folha foram omitidos para facilitar a visualização. 4.5 TOPOLOGIA DO GRAFO 41 (a) Distribuição do grau de entrada (b) Distribuição do grau de saída (c) Conectividade da vizinhança (d) Conectividade da vizinhança (entrada) ! (e) Conectividade da vizinhança (saída) (f) Distribuição dos menores caminhos Figura 4.8: Topologia do grafo de genealogia. (a) Distribuição de frequência dos vértices segundo seus graus de entrada. (b) Distribuição de frequências dos vértices segundo seus graus de saída. (c) Conectividade média do grau da vizinhança dos vértices. (d) Conectividade média do grau de entrada da vizinhança descendente dos vértices. (e) Conectividade média do grau de saída da vizinhança ascendente dos vértices. (f ) Distribuição dos comprimentos dos menores caminhos no grafo. 42 SOBRE OS DADOS UTILIZADOS 4.5 Capítulo 5 Resultados 5.1 Correlação entre as métricas Os estudos com o objetivo de extrair conhecimento relevante a respeito de grupos estruturados em grafos de genealogia, feitos até o presente momento, comumente utilizam a fecundidade (f + ) de um vértice do grafo para caracterizá-lo, especialmente trabalhos dedicados à análise de comunidades acadêmicas (e.g. o trabalho desenvolvido por [David & Hayden, 2012]). Esta métrica é importante para a caracterização de um acadêmico de interesse, porém a utilização individual da f + não é suficiente para caracterizar um vértice com certo grau de assertividade. Os trabalhos correlatos, descritos no Capítulo 6, são exemplos da utilização apenas do território de um vértice para sua caracterização, ou de poucas outras métricas com esse objetivo. Este trabalho não se limita à utilização somente da descendência de um vértice. O objetivo é adaptar e desenvolver métricas topológicas que, individualmente, tragam alguma informação relevante sobre o conjunto de grafos de genealogia e, quando combinadas, possam diferenciar seus vértices, agrupando-os de acordo com os resultados de seus relacionamentos. Para verificar a capacidade de diferenciação que as métricas, quando analisadas em conjunto, podem proporcionar foi utilizado a análise de correlação. Esta análise consiste de verificar se os valores de uma determinada variável estão relacionados a uma outra, e em que proporção isto ocorre. A análise foi realizada para cada par de métricas isoladamente. Utilizando o diagrama de dispersão correspondente a cada par e seu coeficiente de correlação r (método de Pearson), que é dado por: P P P n xi yi − ( xi ) ( yi ) r = r P P P P n x2i − ( xi )2 n yi2 − ( yi )2 (5.1) Foi observado que as métricas de maior efetividade para a caracterização de vértices são aquelas que apresentam baixa correlação com outras, ou seja, os valores das métricas apresentam baixa relação entre si. Nestes casos, podemos dizer que as informações fornecidas pelas métricas são 43 44 RESULTADOS 5.1 de naturezas distintas e proporcionam uma melhor diferenciação entre os vértices. É importante notar que as correlações entre as métricas dependem diretamente dos dados utilizados, ou seja, a efetividade das métricas apresentam variação em função do conjunto de dados utilizado. Segundo Cohen [1992], um coeficiente de correlação é considerado alto quando acima de 0,50, para valores entre 0,30 e 0,50 o coeficiente é considerado médio e baixo para valores inferiores a 0,30. Os pares de métricas podem, ainda, apresentar uma correlação onde o valor de uma métrica aumenta proporcionalmente, em algum grau, em função do aumento da outra, nestes casos classificamos a correlação como positiva. As correlações são negativas quando, considerando um par de métricas, a medida que o valor de uma aumenta, o valor da outra diminui proporcionalmente em algum grau. Para a obtenção dos coeficientes de correlação entre as métricas foi utilizado o método de Pearson. O método de cálculo e o objetivo individual de cada uma das métricas é apresentado em detalhes no Capítulo 3. A Figura 5.1 apresenta os resultados da aplicação da correlação. A diagonal principal identifica as métricas utilizadas – exceto profundidade e profundidade inversa que definem as janelas utilizadas – juntamente com o respectivo histograma que ilustra as frequências para todas as métricas (de composição ascendente e descendente) para o conjunto de dados completo. Abaixo da diagonal, nas interseções entre as colunas e linhas, encontra-se os diagramas de dispersão. No lado oposto, os respectivos coeficientes de correlação para cada par de vértices analisado. 5.1.1 Correlação entre métricas descendentes As métricas de composição descendente utilizam a descendência (território) de um vértice para sua caracterização. Trata-se de uma visão posterior ao surgimento do vértice em questão e tem como objetivo verificar sua contribuição na formação do conjunto de grafos de genealogia. Uma característica importante nestas métricas para definir sua efetividade em diferenciar vértices de uma grafo de genealogia é a de que seus valores sejam independentes entre si, ou seja, métricas que apresentam baixos coeficientes de correlação (valores inferiores a 0,30) podem contribuir de forma mais efetiva para a caracterização do grupo analisado. Analisando somente o conjunto de métricas de composição descendente, pode-se classificar seus coeficientes de correlação e, consequentemente, a efetividade deste conjunto em caracterizar vértices, de acordo com a Tabela 5.1. Para este conjunto, cerca de 47,43% das análises apresentaram coeficientes de correlação com graus considerados baixos, sejam as correlações positivas ou negativas. Os resultados mostram que este conjunto, isoladamente, não apresenta boa capacidade para diferenciar vértices em um grafo de genealogia, visto que na maioria dos casos há uma correlação, de grau alto ou médio, entre os resultados das métricas. A métrica média dos menores caminhos (mmc) pode ser considerada um destaque neste grupo. Ela apresenta baixa correlação com 10 métricas deste grupo. Somente 2 métricas têm forte correlação com a mmc: reverse pagerank ponderado (rprp) (r = −0, 55) e balanceamento global (bg) (r = 0, 69). Por outro lado, a métrica fecundidade ponderada (f p) produz resultados que estão fortemente correlacionados com a maioria dos resultados das outras métricas, exceto com: mmc (r = 0, 01) e 5.1 CORRELAÇÃO ENTRE AS MÉTRICAS 45 Figura 5.1: Correlação entre as métricas topológicas para o conjunto de dados completo da plataforma MGP. A diagonal principal apresenta o nome e a frequência dos valores de cada métrica. Abaixo da diagonal principal estão representados os gráficos de dispersão para cada combinação de pares de métricas e acima os respectivos coeficientes de correlação. 46 5.1 RESULTADOS bg (r = 0, 27). Tabela 5.1: Coeficientes de correlação entre as métricas de composição descendentes. Intervalo Frequência Frequência Absoluta Relativa −1 ≤ r ≤ −0, 5 5 6,41% −0, 5 < r ≤ −0, 3 1 1,28% −0, 3 < r ≤ 0 12 15,38% 0 < r ≤ 0, 3 25 32,05% 0, 3 < r ≤ 0, 5 10 12,82% 0, 5 < r ≤ 1 25 32,05% Correlação Grau Orientação alto negativa médio negativa baixo negativa baixo positiva médio positiva alto positiva O conjunto de métricas de composição descendente foi aplicado, de forma preliminar, em um estudo de caso utilizando o grafo de genealogia acadêmica de Johann Bernoulli [Rossi & Mena-Chalco, 2014a]. Os resultados obtidos foram relevantes no sentido de caracterizar este grafo de genealogia e diferenciar os vértices que o compõem. No entanto, dos 81.768 vértices identificados somente 15.791 (19,31%) apresentavam descendência, ou seja, 65.977 vértices não puderam ser caracterizados devido à ausência de descendentes (vértices folha). Para possibilitar a caracterização de vértices que não apresentam descendentes, utilizamos um conjunto de métricas de composição ascendente, que é descrito a seguir. 5.1.2 Correlação entre métricas ascendentes Parte importante dos vértices que compõem o conjunto de grafos de genealogia dos matemáticos não apresentam descendentes (136.230 vértices). Percentualmente, os vértices folha representam 76,23% da base de dados, porém, o fato de um vértice não possuir descendentes não significa que todos possam ser considerados semelhantes. Os ascendentes de um determinado vértice possuem valores de métricas que os diferenciam, portanto ascendências diferentes podem impactar de modo distinto estes vértices folha, permitindo sua caracterização. A efetividade na caracterização dos vértices pelas métricas de composição ascendente também foram estudas por meio de seus coeficientes de correlação. O conjunto de métricas ascendentes, detalhadas no Capítulo 3, têm como objetivo caracterizar os vértices do conjunto de grafos por meio de seus ancestrais. A análise das correlações entre o conjunto de métricas de composição ascendente demonstrou que este grupo apresenta maior potencial de caracterização de vértices, quando comparado ao conjunto de métricas de composição descendente. A Tabela 5.2 descreve a classificação dos coeficientes de correlação encontrados neste grupo. Cerca de 60,72% dos coeficientes analisados têm grau de correlação baixo, ou seja, a maior parte dos valores das métricas deste grupo tendem a ser independentes entre si. 5.1 CORRELAÇÃO ENTRE AS MÉTRICAS 47 Três métricas se destacam neste grupo, devido ao baixo grau de correlação encontrado, são elas: pagerank (pr), pagerank ponderado (prp) e balanceamento global 1 (bg). Todos os coeficientes de correlação das três métricas apresentaram valores baixos, com exceção feita à correlação entre prp e l− (largura inversa) que apresentou r = −0, 52. Tabela 5.2: Coeficientes de correlação entre as métricas de composição ascendentes. Intervalo Frequência Frequência Absoluta Relativa −1 ≤ r ≤ −0, 5 1 3,57% −0, 5 < r ≤ −0, 3 0 0,00% −0, 3 < r ≤ 0 12 42,86% 0 < r ≤ 0, 3 5 17,86% 4 14,29% 0, 3 < r ≤ 0, 5 0, 5 < r ≤ 1 6 21,43% Correlação Grau Orientação alto negativa médio negativa baixo negativa baixo positiva médio positiva alto positiva Os coeficientes de correlação entre as métricas, descendentes ou ascendentes, podem variar de acordo com o conjunto de dados considerado. As métricas poderão ser mais ou menos efetivas na caracterização de vértices em grafos de genealogia, em função das características dos dados analisados. Para a conjunto de grafos de genealogia dos matemáticos, o conjunto de métricas utilizado apresentou bons resultados em caracterizar os vértices das grafos. 5.1.3 Correlação entre os conjuntos de métricas combinados As análises individuais dos conjuntos de métricas descendentes e ascendentes, resultaram na identificação das métricas com maior potencial para a caracterização de seus vértices. A viabilidade da utilização dos dois conjuntos, simultâneamente, depende, também, da correlação existente entre eles, visto que, quanto menor for a correlação, melhor é o potencial de diferenciação dos vértices. A utilização do conjunto total de métricas topológicas proporciona um aumento da efetividade de caracterização do conjunto de métricas propostas. Para este cenário, conforme ilustrado na Tabela 5.3, cerca de 72,63% das 190 correlações possíveis apresentam coeficientes de correlação baixos. A Figura 5.2 apresenta um gráfico que sumariza as correlações, em um plano cartesiano, onde no eixo das abscissas tem-se as métricas e no eixo das ordenadas observa-se a escala dos coeficientes de correlação. As barras representam os coeficientes encontrados entre a métrica em questão e as demais métricas do conjunto. 1 A métrica balanceamento global foi considerada nas duas análises de correlação, tanto para o conjunto descendente quanto para o ascendente, devido à sua composição ser mista. 48 5.1 RESULTADOS Tabela 5.3: Coeficientes de correlação entre o conjunto total de métricas. Intervalo Frequência Frequência Absoluta Relativa −1 ≤ r ≤ −0, 5 6 3,16% −0, 5 < r ≤ −0, 3 1 0,53% 70 36,84% −0, 3 < r ≤ 0 0 < r ≤ 0, 3 68 35,79% 14 7,37% 0, 3 < r ≤ 0, 5 0, 5 < r ≤ 1 31 16,32% Correlação Grau Orientação alto negativa médio negativa baixo negativa baixo positiva médio positiva alto positiva A métrica que apresenta correlação baixa com as demais do conjunto é o pagerank. Um outro destaque é o pagerank ponderado, que apresenta correlação significativa com somente uma outra métrica (largura inversa). As correlações entre as métricas topológicas propostas são importantes para identificar aquelas que permitem diferenciar os vértices de grafos de genealogia, quando aplicadas em conjunto. Porém cada métrica individualmente produz informações relevantes sobre a topologia do grafo resultante de um vértice de interesse. Mesmo aquelas métricas supostamente redundantes, devido à correlação existente entre elas, podem, individualmente, proporcinar dados distintos sobre o conjunto de vértices analisado. Figura 5.2: Correlação das métricas topológicas. As colunas representam as métricas, cada barra plotada identifica o coeficiente de correlação entre a métrica em questão e as demais. O eixo vertical apresenta a escala dos coeficientes de correlação. 5.2 ANÁLISE DE COMPONENTES PRINCIPAIS 5.2 49 Análise de componentes principais O cálculo das métricas topológicas, para todos os vértices do grafo de genealogia, resultou em um conjunto de dados multidimensional, onde cada vértice é representado por um vetor de valores aqui denominadode “características”. Cada valor corresponde a cada uma das 22 métricas. Para possibilitar a diferenciação dos vértices segundo seus vetores de características foi implementado um procedimento matemático tradicional denominado análise de componentes principais (PCA – principal component analysis) que é comumente usada para reduzir a dimensionalidade de dados multidimensionais [Hoffmann, 1999, Jackson, 2005, Neto & Moita, 1998]. As dimensões obtidas por meio da aplicação da PCA são denominadas componentes principais. A primeira componente principal concentra a maior variação dos dados. As demais componentes concentram as variações de maior a menor, sendo ortogonais às anteriores. A PCA pode ser definida, algebricamente, como combinações lineares das variáveis originais ou, geometricamente, como coordenadas dos pontos amostrais em novos eixos que são o resultado da rotação dos eixos originais, na direção da variação máxima. As componentes principais são obtidas por meio de uma matriz de rotação que possibilita rotacionar o sistema de coordenadas original. Para ilustrar a redução de dimensão possibilitada pela PCA, foi considerado o grafo de genealogia representado na Figura 5.3. Os vetores de características de cada vértices foram submetidos ao procedimento que resultou em duas componentes principais que explicam 61,10% e 21,33% da variação total, para a primeira e segunda componentes, respectivamente. A Figura 5.4.b apresenta o sentido e a orientação de cada uma das métricas utilizadas nas duas componentes principais obtidas. As orientações (representadas graficamente na Figura 5.4.b por um vetor) indicam o quadrante e um ângulo, no plano cartesiano, nos quais as métricas se localizam. O sentido (representado graficamente pela seta do vetor) representa a direção de aumento dos valores de cada métrica. A aplicação da PCA reuniu as métricas de composição descendente em um grupo com sentido e orientação muito similares, este comportamento também se repetiu para as métricas de composição ascendente, porém, de forma mais esparsa. As métricas pagerank inverso ponderado e pagerank ponderado apresentaram sentido e orientação opostos aos dois grupos anteriores, possívelmente devido ao fator de ponderação utilizado. A distribuição dos vértices no plano cartesiano em função das duas componentes principais é apresentada na Figura 5.4.a. Cada vértice no eixo da primeira componente pode ser utilizado para uma classificação (ranking), em função de suas métricas topológicas onde foram consideradas suas conexões diretas e indiretas. 50 RESULTADOS 5.2 Figura 5.3: Exemplo de grafos de genealogia para ilustração da aplicação da PCA. Figura 5.4: Análise de componentes principais: (a) distribuição dos vértices da conjunto de grafos apresentada na Figura 5.3, nas duas componentes principais. Observe que, a primeira componente pode fornecer uma classificação dos vértices segundo suas métricas; (b) orientação das métricas nas duas componentes princiais. O exemplo apresentado para ilustrar a classificação de vértices, em um conjunto de grafos de genealogia em função de suas métricas topológicas, considerou todo o conjunto de vértices. Em um contexto de grande quantidade de vértices, como é o caso da genealogia dos matemáticos, considerar todo o conjunto de vértices pode influenciar o resultado da classificação. Vértices que estejam posicionados nos níveis superiores do grafo de genealogia apresentam uma vantagem no cálculo de suas métricas, quando comparados com os vértices posicionados nos níveis inferiores. Esta vantagem é devida ao fator tempo, ou seja, estes vértices absorvem o desempenho de uma descendência de maior magnitude que, a rigor, não é resultado do desempenho direto do vértice de 5.2 ANÁLISE DE COMPONENTES PRINCIPAIS 51 interesse. Limitar a abrangência dos níveis considerados no grafo para o cálculo das métricas pode reduzir o efeito gerado pelo tempo e, consequentemente, normalizar o desempenho de vértices pertencentes a níveis diferentes no grafo. Considerando o grupo dos matemáticos, podemos comparar dois indivíduos que possuem diferentes números de gerações a partir de si, tornando-os equivalentes em relação a profundidade do grafo. A diferenciação entre os matemáticos fica, exclusivamente, a cargo do número de descendentes existentes nas gerações consideradas. O conjunto de grafos de genealogia dos matemáticos possui 42 níveis (gerações), ou seja, o tamanho do maior caminho encontrado neste grafo é 41. O cálculo das métricas topológicas foi realizado limitando o tamanho do maior caminho de 1 a 41, a partir do vértice de interesse tanto para o território quanto para o território inverso deste vértice (Capítulo 3). Esta limitação na influência dos vértices que serão contemplados no cálculo é denominado janela. No contexto da genealogia dos matemáticos, o tamanho da janela definirá o número de gerações anteriores e posteriores consideradas a partir do matemático de interesse. Para ilustrar a influência do tamanho da janela considerado no cálculo das métricas, na Figura 5.5 é apresentado uma matriz de classificação para os 0,1% matemáticos melhores posicionados. Cada coluna na matriz representa a posição na primeira componente principal, considerando um tamanho de janela variando de 1 a 41. Os matemáticos são distinguidos pelos diferentes tons de cores, que foram utilizadas para rotular indivíduos antes da classificação. O posicionamento dos matemáticos no ranking é alterado em função do tamanho de janela considerado, observando-se uma redução da influência do tamanho da janela a partir de um certo limiar (aproximadamente para um tamanho de janela igual a 32). Conforme discutido anteriormente, o posicionamento do vértice nos níveis do grafo de genealogia impacta o resultado de suas respectivas métricas. Para o conjunto de dados considerado, o posicionamento do matemático no grafo está correlacionado com o ano de obtenção da titulação. Na Figura 5.6 observa-se a variação do ano de titulação do matemático para diferentes tamanhos de janela, sob a perspectiva da moda e da média dos anos de titulação. Os resultados mostram que existe uma tendência de as janelas com menor abrangência resultarem em classificações onde os matemáticos mais contemporâneos estão melhores posicionados. Considerando a moda como parâmetro, a janela de tamanho 1 produz um ranking em que os matemáticos melhores posicionados são aqueles que obtiveram suas titulações no século XX. As janelas com tamanho variando de 2 a 6 produzem classificações onde os matemáticos titulação no século XIX são destacados. Para valores superiores ao tamanho 15 existe uniformidade com relação ao período de titulação. Os dados representados na Figura 5.6 fornecem base para concluir que quanto maior for o tamanho da janela considerada no cálculo das métricas topológicas, tanto maior será o impacto do fator tempo na classificação obtida pela PCA, até um limiar de uniformidade (janela de tamanho 15), 52 RESULTADOS 5.2 Figura 5.5: Variação da classificação dos matemáticos em função do tamanho da janela considerada. As colunas representam as diferentes classificações para as 41 janelas utilizadas para o cálculo das métricas. Foram representados os 0,1% matemáticos melhores colocados que são distinguidos pelas diferentes tonalidades de cores. para este conjunto de dados. O padrão deste comportamento pode ser representado pela sumarização dos valores de moda e média dos anos de titulação por meio de um polinômio de grau 3 (linha contínuas na figura). Os diferentes tamanhos de janela não influenciam a variabilidade observada na aplicação da PCA. A variação total, considerando as duas componentes, apresenta-se estável em cerca de 50%, exceto para a janela de tamanho 1 que, para este conjunto, resulta em um percentual de variação ligeiramente maior (aproximadamente 57%). Por outro lado, a média de orientados diretos para os 50 indivíduos melhores colocados é inversamente proporcional ao tamanho da janela, havendo uma estabilidade a partir da janela 20. Estes dados são apresentados na Tabela 5.4. A Figura 5.7 apresenta os resultados da aplicação da PCA para janelas de tamanho 1, 5, 10, 15, 20, 25, 30 e 41. Estas janelas foram escolhidas arbitrariamente com o objetivo de abranger todo o intervalo. Os sentidos e orientações das métricas topológicas sofrem a influência do tamanho da janela utilizada, conforme observado no segundo diagrama de cada uma das oito sub-figuras. A distribuição dos vértices nas duas componentes principais, segundo os resultados de suas respectivas métricas, apresenta um padrão similar. Porém, conforme discutido anteriormente, estas distribuições 5.2 ANÁLISE DE COMPONENTES PRINCIPAIS 53 Figura 5.6: Diagrama da moda (linha vermelha tracejada) e da média (linha azul tracejada) dos anos de titulação dos matemáticos da plataforma do MGP em função do tamanho da janela considerada. A correlação do tamanho da janela e do ano de titulação é representada pela sumarização dos dados por meio de um polinômio de grau 3, tanto para a moda (linha vermelha contínua) quanto para a média (linha azul contínua). Foram utilizados os 1% matemáticos com melhor classificação segundo a aplicação da PCA. Tabela 5.4: Principais características para diferentes tamanhos de janelas. Tamanho Orientados diretos Variação total nas duas da janela (média) componentes principais 1 72,92 56,89% 5 25,18 50,64% 10 12,46 50,56% 15 7,34 49,53% 20 5,00 48,91% 25 4,60 49,24% 30 4,34 50,38% 41 4,32 50,57% também são afetadas, havendo uma aparente alternância no posicionamento dos vértices de acordo com o tamanho da janela considerado. As análises realizadas não possibilitaram uma conclusão definitiva a respeito do tamanho ideal de janela que resulte em uma efetiva classificação dos matemáticos. Entretanto, é fato que esta escolha interfere fortemente no resultado pretendido. Note que, o tamanho da janela pode ser considerado como um parâmetro a ser relevante como um parâmetro a ser considerado na tomada de decisões em política científica. Empíricamente, pode-se considerar um tamanho adequado de janela como sendo um valor entre 5 e 7, considerando que uma supervisão de doutorado tenha duração média de 5 anos, o período total de atividade de um orientador é, no mínimo, de 25 à 35 anos, não considerando um período 54 RESULTADOS 5.2 intermediário de maturação entre as supervisões. Provavelmente, a influência de um acadêmico em um indivíduo de sua descendência após este período é pouco relevante. No Apêndice B são apresentados os ranking’s dos 50 matemáticos melhores posicionados segundo os resultados de suas métricas topológicas para os oito tamanhos de janelas considerados. Considerando a classificação obtida por meio da aplicação da PCA onde os valores das métricas topológicas foram calculados com uma janela de tamanho 5, pode-se identificar os matemáticos mais representativos segundo estes critérios. Na Figura 5.8 identifica-se o nome e o país de titulação dos matemáticos com maior destaque em orientações acadêmicas. O grupo identificado reúne matemáticos renomados por suas contribuições para o desenvolvimento da ciência. Entretanto, no contexto desta dissertação o ranking dos matemáticos é feito exclusivamente por meio de seus respectivos desempenhos em orientação acadêmica. O matemático de maior destaque neste grupo é David Hilbert. Apesar de Hilbert ser declarado como pertencente à escola alemã no MGP, ele é natural de Königsberg, Prussia (hoje Kaliningrado, Russia), onde titulou-se em 1885. De acordo com a base de dados obtida, Hilbert possui 13.238 descendentes sendo 75 diretos2 . Os matemáticos identificados neste processo estão interligados por relacionamentos de orientação acadêmica, seja direta ou indiretamente. As conexões existentes entre eles é apresentada na Figura 5.9, onde foram representados os 50 matemáticos mais importantes de acordo com esta classificação. Os vértices foram rotulados com os respectivos países de titulação de cada matemático e foram destacados os 8 melhores, em concordância com a Figura 5.8. O grafo de relacionamentos apresenta dois aspectos importantes. O matemático de maior destaque (Hilbert) é filho acadêmico do segundo colocado (Lindermann), ou seja, o orientado apresenta melhor desempenho em formação de recursos humanos que o orientador, intuitivamente seria natural que ocorresse o contrário. Outro aspecto interessante é sobre a formação das escolas. Observa-se uma tendência de relação entre indivíduos de um mesmo país, quando há um relacionamento de orientação entre matemáticos de países diferentes, novas escolas surgem. A aplicação da PCA apresenta-se como uma forma efetiva de ordenar, de forma automática, os vértices em um grafo de genealogia. A identificação de um tamanho de janela adequado como elemento fundamental que possibilite a comparação entre vértices de “gerações” diferentes é ainda um desafio que deverá ser tratado nos próximos passos deste projeto. 2 Dados de Abril de 2014. 5.2 ANÁLISE DE COMPONENTES PRINCIPAIS (a) Janela com tamanho 1 (b) Janela com tamanho 5 (c) Janela com tamanho 10 (d) Janela com tamanho 15 (e) Janela com tamanho 20 (f) Janela com tamanho 25 (g) Janela com tamanho 30 (h) Janela com tamanho 41 55 Figura 5.7: Análises de componentes principais para janelas de tamanhos: 1, 5, 10, 15, 20, 25, 30 e 41. Para cada análise é apresentado a projeção dos vértices em função das duas primeiras componentes principais e a orientação das métricas topológicas. 56 5.2 RESULTADOS Figura 5.8: Identificação dos principais matemáticos classificados por meio da PCA utilizando uma janela de tamanho 5. E. H. Moore 1885 C. F. Klein 1868 K. Weierstrass 1841 E. Kummer 1831 6 8 4 3 2 7 1 O. Veblen 1903 5 C.L.F. Lindemann 1873 E. Schmidt 1905 D. Hilbert 1885 Figura 5.9: Grafo de genealogia acadêmica que descreve os relacionamentos existentes entre os 50 principais matemáticos, segundo a PCA com janela de tamanho 5. Capítulo 6 Trabalhos correlatos A análise de redes sociais é uma abordagem que origina-se em outras áreas do conhecimento (sociologia, psicologia social e antropologia) [Matheus et al., 2006] e apresenta grande crescimento nos últimos anos devido ao (i) aumento da quantidade de dados disponíveis para análise, (ii) desenvolvimento das áreas de informática e processamento de dados e (iii) a ampliação dos assuntos de interesse e áreas do conhecimento que utilizam este tipo de análise. A utilização destas análises pode ser de grande valor para a obtenção de conhecimento sobre diversos grupos sociais e envolve quatro componentes principais: gerenciamento e estruturação de dados, descoberta de conhecimento, aprendizagem de máquina e técnicas de visualização [Freitas et al., 2008]. A representação de indivíduos e seus relacionamentos em forma de redes (grafos) apresenta-se como método eficaz para extrair conhecimento em contextos, por vezes, de difícil interpretação. Caracterizar a ciência, como por exemplo a área da Ciência da Informação, e a contribuição que a análise de redes sociais proporciona para a correta interpretação é ainda um desafio. Nesse contexto, utilizar grafos de genealogia como ferramenta para o estudo e descoberta de conhecimento em grupos inter-relacionados é uma estratégia interessante que apresenta ampla aplicação. Um desafio importante, neste tipo de estudo, recai sobre a forma pela qual pode-se extrair conhecimento relevante a respeito de tais estruturas. Segundo Sugimoto [2014], os estudos de genealogia acadêmica são principalmente utilizados no ambiente acadêmico por pesquisadores interessados em traçarem suas próprias raízes. Entretanto, estes estudos são pouco explorados por aqueles que estudam a ciência a partir de perspectivas históricas, filosóficas, sociológicas e científicas. A real importância da genealogia acadêmica deve-se ao fato de oferecer insumos quantitativos e qualitativos para mensurar as interações, em diferentes dimensões, dos orientadores e seus orientados/supervisados. Adicionalmente, este tipo de estudo permite analisar a ciência desde um ponto de vista de transferência de conhecimento científico entre diferentes gerações, assim como, o impacto ou influência desta transferência. Os trabalhos desenvolvidos com objetivos correlatos ao desta dissertação são apresentados a seguir. Os estudos estão agrupados em três categorias de acordo com os tipos de relacionamentos considerados e os dados utilizados. O primeiro grupo refere-se aos trabalhos correlatos que utilizaram 57 58 TRABALHOS CORRELATOS 6.1 o mesmo tipo de relacionamento (orientação acadêmica) e a mesma base de dados (plataforma do MGP ). O segundo grupo reúne aqueles trabalhos que utilizaram dados provenientes de outras bases de dados e o mesmo tipo de relacionamento. Por fim, no terceiro grupo descreve-se os trabalhos realizados em grafos estruturados em função de outros tipos de relacionamentos e outras bases de dados. 6.1 Relacionamentos de orientação – base de dados do MGP O MGP é o resultado dos esforços empreendidos por Harry Coonce [Jackson, 2007] para documentar todos os doutores em matemática do mundo e seus relacionamentos de orientação acadêmica em todos os tempos. Este projeto constitui uma excelente base de dados sobre a comunidade acadêmica dos matemáticos. Uma descrição detalhada sobre os dados deste projeto é descrita no Capítulo 4. Devido à sua importância e às características de seus dados, a plataforma do MGP serviu de base para diversos estudos sobre este pequeno e seleto grupo de acadêmicos. É importante destacar que o conjunto de dados gerado a partir da plataforma do MGP é uma base ímpar que ainda não foi explorada completamente. O papel da orientação acadêmica no desempenho dos orientados, para a área da matemática, pode ser verificada analisando a fecundidade dos matemáticos estudados1 . Segundo Malmgren et al. [2010], a fecundidade dos matemáticos se mantem estável ao longo dos últimos 60 anos e o desempenho dos orientados é impactado pelas características do orientador, no que se refere à orientação acadêmica. As análises apresentadas nesse trabalho foram referentes a um subconjunto de 7.259 matemáticos, com titulação ocorrida entre 1900 e 1960, e suas respectivas contagens de descendentes diretos (fecundidade). O referido estudo apresenta resultados interessantes, utilizando análises estatísticas descritivas, para a compreensão, em escala temporal, do desenvolvimento do grupo considerado e correlações existentes entre fecundidade e outras medidas de desempenho acadêmico. A representação dos matemáticos e seus relacionamentos como vértices e arestas, respectivamente, pode ser feita sob abordagens diferentes [Narayan, 2011]. Os relacionamentos podem ser representados como arestas direcionadas e não-direcionadas, sendo que para cada uma das modelagens são obtidas possibilidades de análise distintas. Há, também, a possibilidade da utilização de relacionamentos não explícitos. Um relacionamento deste tipo ocorre, por exemplo, quando considera-se um conjunto de vértices que são derivados de um único vértice. Este tipo de ligação é denominada relacionamento entre “irmãos”. Veja no trabalho de [Narayan, 2011] um melhor aprofundamento de representação de relacionamento entre pessoas. O trabalho descrito anteriormente considerou um conjunto de 137.138 matemáticos e seus relacionamentos, obtidos na plataforma do MGP, com o objetivo de identificar o impacto do relacionamento de orientação e entender a formação da comunidade científica dos matemáticos. 1 No contexto desta dissertação de mestrado, a métrica que demonstra este resultado é a largura, definida no Capítulo 3. 6.2 RELACIONAMENTOS DE ORIENTAÇÃO – OUTRAS BASES DE DADOS 59 A modelagem de dados pode mudar de acordo com a intenção do estudo. Myers et al. [2011] utilizou os vértices de uma rede para representar as instituições norte-americanas cadastradas no projeto e as orientações ocorridas entre matemáticos de diferentes instituições foram representadas por arestas. A rede resultante foi utilizada para determinar o prestígio matemático de cada instituição estudada. Os resultados possíveis, a partir da análise de dados genealógicos estruturados em forma de grafo de genelogia, incluem a caracterização de indivíduos específicos ou de comunidades específicas. A caracterização de Johann Bernoulli e sua descendência foi objeto de estudo em Rossi & Mena-Chalco [2014a]. Bernoulli foi um nome importante para a área da matemática que ajudou a eleva-lá ao nível de ciência. Neste estudo, seu grafo genealógico, composto de 81.768 vértices e 88.955 arestas direcionadas, foi caracterizado por meio de métricas topológicas em grafos, que permitiram a diferenciação entre os indivíduos na árvore e sua classificação pela redução de dimensões dos resultados das métricas. Finalmente, um registro histórico a respeito de um conjunto de matemáticos selecionados da plataforma do MGP foi publicado por Chang [2011] no livro “Academic Genealogy of Mathematicians”. Esta obra apresenta os mais importantes matemáticos agrupados por meio de suas escolas (países) e seus relacionamentos de orientação acadêmica. 6.2 Relacionamentos de orientação – outras bases de dados A utilização de grafos de genealogia não se limita à análise da comunidade acadêmico-científica dos matemáticos. Este tipo de abordagem é utilizada para estudos dos mais diversos grupos, principalmente em comunidades acadêmicas. A seguir apresenta-se uma descrição de trabalhos correlatos a esta dissertação com a utilização de dados provenientes de outras áreas do conhecimento. Os acadêmicos da área da neurociência foram documentados por meio de seus relacionamentos de orientação acadêmica. O projeto Neurotree [David & Hayden, 2012], busca a compreensão da comunidade acadêmica dos neurocientistas através do estudo de sua genealogia. Uma dificuldade comum a este projeto e ao dos matemáticos é a obtenção de informações sobre os orientadores e suas relações de orientação. O projeto Neurotree (http://neurotree.org/neurotree) foi pautado na obtenção das informações da área e, pela primeira vez em projetos deste tipo, na interpretação de grafos de genealogia acadêmica obtidos. A utilização de métricas de avaliação de grafos apresentou resultados interessantes na caracterização da área da Neurociência. Este projeto conta com, aproximadamente, 40.000 pesquisadores e 60.000 relacionamentos cadastrados. Outras comunidades acadêmicas no mundo que consideram a genealogia como ferramenta para a documentação e/ou caracterização de seus membros são: a Química Orgânica [Andraos, 2005], a Fisiologia [Bennett & Lowe, 2005, Jackson, 2011], a Metereologia [Hart & Cossuth, 2013], entre outros. Iniciativas similares, com o objetivo de captar e estruturar dados genealógicos utilizando plataformas Web são observadas para a comunidade científica dos Físicos (http://academictree.org/physics) e, de forma mais específica, para os acadêmicos titulados com doutorado (http://phdtree.org). Estes 60 TRABALHOS CORRELATOS 6.3 projetos, ainda não bem adotados pelas suas comunidades, são pautados na obtenção e documentação de seus membros, não oferecendo análises destes conjuntos de dados. Porém, esses registros contribuem para a documentação histórica destas comunidades e resulta em campo fértil para estudos futuros. Documentar a história e compreender a expansão de grupos com interesses comuns, destacando principalmente as comunidades acadêmicas, passa obrigatoriamente pela utilização da genealogia e, consequentemente, pela construção de grafos genealógicos. A utilização da genealogia foi o caminho para o estudo de um seleto grupo de meteorologistas tropicais, apresentado em Hart & Cossuth [2013]. Os resultados deste estudo motivaram, devido às características de interdisciplinaridade dos indivíduos pertencentes ao grafo, a ampliação da busca por pessoas fora dos limites da área. O desenvolvimento de métodos para caracterizar grafos genealógicos é parte importante do trabalho de gerar conhecimento por meio destas estruturas. Estudos neste sentido, como o de Griffiths [1987], demonstram a viabilidade da caracterização de grafos de genealogia por meio de métricas específicas, como por exemplo: determinar o número de árvores de genealogia com um dado grau ou com uma determinada sequência. A escolha da modelagem dos dados está diretamente relacionada com os objetivos pretendidos. Os relacionamentos entre irmãos ou redes de parentesco (kinship networks) resultam em grafos de genealogia de composição mista. As arestas direcionadas (que indicam relacionamento top-down comumente usadas para interligar pais e filhos), as arestas não-direcionadas (que indicam relacionamento, como por exemplo casamento, onde não existe uma orientação de origem e destino) são menos frequentes neste tipo de abordagem. Essa forma de modelar árvores, ou estruturas mais sofisticadas, é descrita no estudo apresentado por Hamberger et al. [2011] e demonstra as possibilidades de avaliação com diferentes estruturas. 6.3 Outros tipos de relacionamentos – no contexto brasileiro A comunidade acadêmico-científica apresenta outros tipos de relacionamentos, além da orientação acadêmica, que podem ser utilizados na estruturação de redes. As coautorias em publicações são um tipo de relacionamento muito utilizado com o objetivo de caracterizar grupos específicos inter-relacionados por meio da colaboração em publicações. A caracterização dos programas de pós-graduação de Ciência da Computação no Brasil foi objeto de estudo de Digiampietri et al. [2014], que utilizaram os relacionamentos de coautoria em publicações científicas da área. Este estudo demonstrou, entre outros resultados, que há uma correlação entre a produtividade dos programas e sua inserção na rede de co-autoria. A Plataforma Lattes é uma importante fonte de dados acadêmicos e foi objeto de estudo em [Mena-Chalco et al., 2014]. Esta base de dados conta com mais de 4 milhões de registros2 identificados e caracterizados, por meio de métricas topológicas, utilizando uma rede de co-autoria em publicações. 2 Dados referentes à Maio de 2015. 6.3 OUTROS TIPOS DE RELACIONAMENTOS – NO CONTEXTO BRASILEIRO 61 A análise de redes de co-autoria em publicações é um tema importante para a extração de conhecimento e requer o estudo e desenvolvimento de novos métodos especificos [Perez-Cervantes et al., 2013] que possam contribuir nesta tarefa. Devido à magnitude e complexidade das redes, novos métodos de caracterização apresentam-se como ferramenta fundamental para a correta interpretação destas estruturas. Atualmente, como parte do projeto do grupo de pesquisa na UFABC estão sendo considerados todos os registros da Plataforma Lattes, assim como mais de 600 mil registros do Banco de Teses e Dissertações da CAPES. 62 TRABALHOS CORRELATOS 6.3 Capítulo 7 Conclusões 7.1 Considerações finais Qualificar os acadêmicos em função do desempenho percebido em suas atividades de orientação e estudar sua contribuição no desenvolvimento da comunidade acadêmica é tão importante quanto medir o impacto e a relevância de suas publicações científicas. Nesta dissertação foi apresentado um estudo baseado em métricas topológicas para a caracterização de grafos de genealogia acadêmica. A identificação dos acadêmicos mais proeminentes e a obtenção de características de formação da comunidade acadêmica dos matemáticos, que é objeto de estudo desta dissertação, são os principais resultados obtidos. A importância do desenvolvimento e adaptação de métricas topológicas em conjunto com a possibilidade de prospecção, seleção e estruturação automáticas de dados genealógicos, se apresentam como contribuições de destaque deste trabalho, que poderão auxiliar na busca de novas formas de estudar o desenvolvimento acadêmico-científico e seu efeito, por meio do reconhecimento de padrões de orientação acadêmica que influênciem positivamente na formação de novos orientadores. Acreditamos que, a documentação perene de dados genealógicos e as informações que eles proporcionam, é tema atraente e de grande interesse por parte dos diversos atores envolvidos no contexto acadêmico-científico. 7.2 Sugestões de pesquisas futuras A abordagem de extração de conhecimento, apresentada nesta dissertação, em dados de genealogia acadêmica pode ser classificada em duas vertentes. A primeira está relacionada com o desenvolvimento do método, de forma a proporcionar resultados mais assertivos na caracterização de grafos de genealogia. Uma analogia que ilustra esta vertente é o desenvolvimento do “termômetro” que produzirá medições de temperatura mais assertivas. A segunda vertente é a implementação do método desenvolvido em diferentes conjuntos de dados estruturados em grafos de genealogia, de forma a extrair conhecimento relevante a respeito destas 63 64 CONCLUSÕES estruturas. Para este caso, o objetivo é a utilização do “termômetro” existente para a medição de temperatura em diferentes contextos. Como sugestões de pesquisas futuras, apresenta-se, a seguir, os objetivos classificados nas duas vertentes descritas. 1. Desenvolvimento do método 1a. O estudo e desenvolvimento de novas métricas, com forte intuição semântica, podem melhorar os resultados de trabalhos com grafos de genealogia. A utilização de métricas derivadas, onde seus resultados são obtidos por meio da implementação conjunta de outras métricas que definam atributos simples, e.g. a utilização das métricas: profundidade, maior largura e fecundidade ponderada em conjunto podem resultar em uma nova métrica composta que classificaria um grafo de genealogia segundo sua amplitude, abrangência e densidade, simultâneamente. 1b. A identificação de padrões locais nas conexões do grafo (por exemplo, a identificação de motifs em redes) pode gerar um maior conhecimento a respeito do processo de desenvolvimento de comunidades acadêmicas. Acreditamos que, como pesquisa futura, o desenvolvimento e implementação de ferramentas computacionais que permitam a realização automática destas identificações elevará a qualidade dos resultados e análises de grafos de genealogia acadêmica. 1c. O aprofundamento das análises referentes à identificação do tamanho ideal de janela para a correta comparação entre vértices de diferentes “gerações” apresenta-se como passo fundamental para a melhoria do método. 2. Aplicação do método 2a. A aplicação das métricas topológicas em conjuntos de dados mais heterogêneos (e.g. conjunto dos currículos da plataforma Lattes, conjunto de teses e dissertações) permitirá, além da caracterização do conjunto, realizar estudos sobre a interdiciplinaridade entre diversas áreas do conhecimento. A utilização de outros tipos de relacionamento (e.g. iniciação científica, mestrado, doutorado e pós-doutorado) produzirão um conjunto de dados propício para a identificação da evolução acadêmica de forma segmentada, facilitando, dessa forma, conclusões mais específicas de acordo com as particularidades de cada tipo de relação. 2b. Ampliar a utilização de atributos (i.e., características próprias de cada indivíduo), tanto dos vértices quanto das arestas, enriquecem os resultados. Acreditamos que, a consideração do período de orientação produzirá análises temporais sob a perspectiva do desenvolvimento e formação do grupo que é objeto de estudo. Apêndice A Caracterização da base de dados 65 66 APÊNDICE A Tabela A.1: Ranking dos países e instituições segundo os registros obtidos no MGP (parte I). PAÍS NOME PHDs INSTITUIÇÃO POS. %. POS. NOME 1o University of California, Berkeley 2o Massachusetts Institute of Technology 1o United 81353 45,53% 3o Stanford University States 4o University of Illinois at Urbana-Champaign 5o University of Wisconsin-Madison 1o Georg-August-Universitat Gottingen 2o Rheinische Friedrich-Wilhelms-Universitat Bonn o 2 Germany 21968 12,29% 3o Ludwig-Maximilians-Universitat Munchen 4o Technische Universitat Munchen 5o Universitat Leipzig 1o University of Cambridge 2o University of Oxford 3o United 9503 5,32% 3o University of London 4o University of Warwick Kingdom 5o Imperial College 1o Universite Paris VI - Pierre et Marie Curie 2o Universite Paris-Sud XI - Orsay o 4 France 6512 3,64% 3o Universite Denis Diderot - Paris VII 4o Universite Bordeaux 1 5o Universite de Paris 1o University of Toronto 2o University of Waterloo 5o Canada 5489 3,07% 3o University of British Columbia 4o McGill University 5o Universite de Montreal 1o Universiteit van Amsterdam 2o Universiteit Utrecht o 6 Netherlands 5238 2,93% 3o Universiteit Leiden 4o Rijksuniversiteit Groningen 5o Technische Universiteit Delft 1o Moscow State University 2o St. Petersburg State University 7o Russia 4468 2,50% 3o Voronezh State University 4o Steklov Institute of Mathematics 5o Novosibirsk State University 1o Eidgenossische Technische Hochschule Zurich 2o Ecole Polytechnique Federale de Lausanne o 8 Switzerland 2852 1,60% 3o Universitat Zurich 4o Universite de Geneve 5o Universitat Bern 1o Universitat Politecnica de Catalunycap 2o Universidad de Barcelona o 9 Spain 2723 1,52% 3o University Complutense de Madrid 4o Universidad Complutense de Madrid 5o Universidad de Granada 1o Monash University 2o Australian National University o 10 Australia 1806 1,01% 3o University of Adelaide 4o University of Sydney 5o University of Melbourne PHDs 3616 3202 2893 2377 2135 1064 914 862 813 745 1975 1152 893 634 435 736 654 401 318 255 935 745 508 340 331 1042 1018 710 564 526 1604 492 485 234 164 1576 401 301 152 129 240 199 195 189 187 336 324 188 162 117 % 4,445% 3,936% 3,556% 2,922% 2,624% 4,843% 4,161% 3,924% 3,701% 3,391% 20,783% 12,122% 9,397% 6,672% 4,578% 11,302% 10,043% 6,158% 4,883% 3,916% 17,034% 13,573% 9,255% 6,194% 6,030% 19,893% 19,435% 13,555% 10,767% 10,042% 35,900% 11,012% 10,855% 5,237% 3,671% 55,259% 14,060% 10,554% 5,330% 4,523% 8,814% 7,308% 7,161% 6,941% 6,867% 18,605% 17,940% 10,410% 8,970% 6,478% CARACTERIZAÇÃO DA BASE DE DADOS 67 Tabela A.1: Ranking dos países e instituições segundo os registros obtidos no MGP (parte II). PAÍS POS. NOME PHDs 11o 12o 13o 14o 15o 16o 17o 18o 19o 20o INSTITUIÇÃO %. POS. NOME 1o Uniwersytet Jagiellonski 2o Uniwersytet Warszawski Poland 1741 0,97% 3o Uniwersytet Lodzki 4o Uniwersytet im. Adama Mickiewicza Poznan 5o Uniwersytet Wroclawski 1o Universidade de Sao Paulo 2o Instituto de Matematica Pura e Aplicada Brazil 1615 0,90% 3o Universidade Estadual de Campinas 4o Universidade Federal do Rio de Janeiro 5o Pontificia Universidade Catolica do Rio de Janeiro 1o Scuola Internazionale Superiore di Studi Avanzati 2o Universita di Pisa Italy 1592 0,89% 3o Universita di Roma La Sapienza 4o Universita di Padova 5o Scuola Normale Superiore di Pisa 1o Indian Institute of Technology, Kanpur 2o Indian Statistical Institute, Calcutta India 1566 0,88% 3o University of Pune 4o Indian Institute of Technology 5o University of Mumbai 1o Katholieke Universiteit Leuven 2o Universite Libre de Bruxelles Belgium 1481 0,83% 3o Universite Catholique de Louvain 4o Universiteit Gent 5o Universiteit Antwerpen 1o Technion-Israel Institute of Technology 2o Hebrew University Israel 1464 0,82% 3o Tel Aviv University 4o Weizmann Institute of Science 5o Bar-Ilan University 1o Kungliga Tekniska Hogskolan 2o Uppsala Universitet Sweden 1452 0,81% 3o Lund University 4o Stockholm University 5o Chalmers Tekniska Hogskola 1o Universitat Wien 2o Technische Universitat Wien Austria 1367 0,76% 3o Johannes Kepler Universitat Linz 4o Technische Universitat Graz 5o Universitat Innsbruck 1o Institute of Mathematics, Kiev 2o Kiev State University Ukraine 1098 0,61% 3o Kharkiv State University 4o Ivan Franko National University of Lviv 5o Institute of Mathematics, Ukrainian Acad. of Science 1o Chinese Academy of Sciences 2o Peking University China 880 0,49% 3o Tsinghua University 4o Lanzhou University 5o Shanghai University PHDs 380 231 151 113 106 428 303 292 140 95 183 163 162 106 95 126 116 82 80 63 498 313 244 104 97 402 316 291 284 83 298 289 208 176 125 462 289 182 130 129 245 172 168 130 67 99 67 51 45 43 % 21,827% 13,268% 8,673% 6,491% 6,088% 26,502% 18,762% 18,080% 8,669% 5,882% 11,495% 10,239% 10,176% 6,658% 5,967% 8,046% 7,407% 5,236% 5,109% 4,023% 33,626% 21,134% 16,475% 7,022% 6,550% 27,459% 21,585% 19,877% 19,399% 5,669% 20,523% 19,904% 14,325% 12,121% 8,609% 33,797% 21,141% 13,314% 9,510% 9,437% 22,313% 15,665% 15,301% 11,840% 6,102% 11,250% 7,614% 5,795% 5,114% 4,886% 68 APÊNDICE A Tabela A.2: Ranking das escolas mais relevantes. A ordem é dada pela quantidade de matemáticos pertencentes à sua linhagem (parte I). POS. ESCOLA LINHAGEM ORIGENS 1o 2o 3o 4o 5o 6o 7o 8o 9o 10o 11o 12o 13o 14o 15o 16o 17o 18o 19o 20o 21o 22o 23o 24o 25o 26o 27o 28o 29o 30o 31o 32o 33o 34o 35o 36o France UnitedKingdom Germany Poland CzechRepublic Belgium Italy UnitedStates Austria Hungary Switzerland Sweden Norway Netherlands Russia Spain India Canada Japan Ukraine Serbia Australia Denmark China Argentina Ireland Portugal Azerbaijan Bulgaria Slovakia Estonia Mexico Romania Israel Finland Bangladesh 123125 119161 117800 112680 92700 92148 13437 10591 6209 4920 3324 3011 1550 1034 850 558 548 499 461 423 387 334 194 111 103 68 49 48 45 41 38 31 31 25 17 11 205 1059 2840 30 25 22 36 3992 104 29 153 47 12 69 64 41 49 193 33 18 25 286 40 38 20 7 6 2 4 12 5 3 43 14 20 2 MÉDIA /ORIGEM 600,61 112,52 41,48 3756,00 3708,00 4188,55 373,25 2,65 59,70 169,66 21,73 64,06 129,17 14,99 13,28 13,61 11,18 2,59 13,97 23,50 15,48 1,17 4,85 2,92 5,15 9,71 8,17 24,00 11,25 3,42 7,60 10,33 0,72 1,79 0,85 5,50 % DA BASE 69,02% 67,28% 67,51% 63,07% 51,89% 51,58% 7,54% 8,16% 3,53% 2,77% 1,95% 1,71% 0,87% 0,62% 0,51% 0,34% 0,33% 0,39% 0,28% 0,25% 0,23% 0,35% 0,13% 0,08% 0,07% 0,04% 0,03% 0,03% 0,03% 0,03% 0,02% 0,02% 0,04% 0,02% 0,02% 0,01% CARACTERIZAÇÃO DA BASE DE DADOS 69 Tabela A.2: Ranking das escolas mais relevantes. A ordem é dada pela quantidade de matemáticos pertencentes à sua linhagem (parte II). POS. ESCOLA LINHAGEM ORIGENS 37o 38o 39o 40o 41o 42o 43o 44o 45o 46o 47o 48o 49o 50o 51o 52o 53o 54o 55o 56o 57o 58o 59o 60o 61o 62o 63o 64o 65o 66o 67o 68o 69o 70o 71o Georgia SouthAfrica NewZealand Lithuania Catalonia Egypt Singapore Moldova Philippines Algeria Belarus Benin Brazil Latvia Pakistan Taiwan Uzbekistan Armenia Cameroon Chile Cuba Greece HongKong Iran Kenya Korea Malaysia Nigeria Slovenia SouthKorea Thailand Turkey Uganda Venezuela Vietnam 11 8 7 5 4 3 3 2 2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 9 7 1 2 2 2 2 4 3 1 8 14 3 1 5 1 1 5 1 1 4 1 12 4 1 1 2 1 3 1 20 2 2 1 MÉDIA /ORIGEM 11,00 0,89 1,00 5,00 2,00 1,50 1,50 1,00 0,50 0,33 1,00 0,13 0,07 0,33 1,00 0,20 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 % DA BASE 0,01% 0,01% 0,01% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,01% 0,01% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,01% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,01% 0,00% 0,00% 0,00% 70 APÊNDICE A Tabela A.3: Distribuição das classificações encontradas na base de dados, de acordo com o Mathematics Subject Classification (parte I). CÓDIGO QTDE PORCENTAGEM DESCRIÇÃO 00 99649 55,76% General 13732 7,68% Computer science 68 62 7057 3,95% Statistics 65 3584 2,01% Numerical analysis 60 3389 1,90% Probability theory and stochastic processes 35 3038 1,70% Partial differential equations 90 2661 1,49% Operations research, mathematical programming 2289 1,28% Number theory 11 94 2279 1,28% Information and communication, circuits 46 2230 1,25% Functional analysis 2072 1,16% Combinatorics 05 20 1959 1,10% Group theory and generalizations 1870 1,05% Mathematical logic and foundations 03 76 1845 1,03% Fluid mechanics 81 1821 1,02% Quantum theory 53 1735 0,97% Differential geometry 92 1734 0,97% Biology and other natural sciences 14 1716 0,96% Algebraic geometry 93 1603 0,90% Systems theory; control 97 1411 0,79% Mathematics education 37 1323 0,74% Dynamical systems and ergodic theory 34 1229 0,69% Ordinary differential equations 85 1162 0,65% Astronomy and astrophysics 91 1059 0,59% Game theory, economics, social and behavioral sciences 74 864 0,48% Mechanics of deformable solids 832 0,47% Associative rings and algebras 16 47 832 0,47% Operator theory 83 799 0,45% Relativity and gravitational theory 82 759 0,42% Statistical mechanics, structure of matter 51 757 0,42% Geometry 55 717 0,40% Algebraic topology 30 712 0,40% Functions of a complex variable CARACTERIZAÇÃO DA BASE DE DADOS 71 Tabela A.3: Distribuição das classificações encontradas na base de dados, de acordo com o Mathematics Subject Classification (parte II). CÓDIGO QTDE PORCENTAGEM DESCRIÇÃO 54 645 0,36% General topology 57 615 0,34% Manifolds and cell complexes 557 0,31% Optics, electromagnetic theory 78 41 553 0,31% Approximations and expansions 551 0,31% Calculus of variations and optimal control; optimization 49 70 524 0,29% Mechanics of particles and systems 518 0,29% Commutative rings and algebras 13 42 460 0,26% Fourier analysis 52 458 0,26% Convex and discrete geometry 32 429 0,24% Several complex variables and analytic spaces 17 389 0,22% Nonassociative rings and algebras 366 0,20% Global analysis, analysis on manifolds 58 18 361 0,20% Category theory; homological algebra 15 355 0,20% Linear and multilinear algebra; matrix theory 22 354 0,20% Topological groups, Lie groups 287 0,16% History and biography 01 86 279 0,16% Geophysics 26 272 0,15% Real functions 243 0,14% Order, lattices, ordered algebraic structures 06 08 236 0,13% General algebraic systems 43 184 0,10% Abstract harmonic analysis 28 181 0,10% Measure and integration 80 173 0,10% Classical thermodynamics, heat transfer 33 162 0,09% Special functions 12 141 0,08% Field theory and polynomials 40 138 0,08% Sequences, series, summability 39 132 0,07% Difference and functional equations 19 125 0,07% K-theory 45 120 0,07% Integral equations 31 113 0,06% Potential theory 58 0,03% Integral transforms, operational calculus 44 72 APÊNDICE A Apêndice B Classificação por janelas 73 74 APÊNDICE B Tabela B.1: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 1. Registro 93643 11498 69895 51373 51374 21566 76955 7298 64567 7401 10480 45228 8415 65093 148660 12042 96080 79876 104644 85043 71057 58777 63602 9112 7952 64272 18355 30979 40628 7404 93649 18758 97284 18331 70804 21648 4209 37407 14701 15860 18746 13411 13300 21344 94950 61476 103443 129705 20846 13415 Nome C.-C. Jay Kuo Roger Temam Andrew Whinston Leonard Ornstein Ludwig Prandtl Willi Jager Yurii Mitropolsky David Hilbert Ronold King C. Felix Klein Andrei Kolmogorov Selim Krein David Moursund Alexander Mikhalev Arnold Zellner Wilhelm Magnus Charles Ehresmann Bruce Vogeli Richard Eden Egon Krause Edward McCluskey, Jr. Pekka Neittaanmaki Robert Newcomb Neil Davidson Hubert Wall Jean-Claude Nedelec Beno Eckmann Terence Speed Wayne Fuller C. L. Ferdinand Lindemann Anatoliy Samoilenko Shing-Tung Yau Bart De Moor Ernst Kummer David Cox Eduard Stiefel David Blackwell Azriel Rosenfeld George Bachman John Tukey Roger Brockett Joseph Keller Arthur Bryson, Jr. Heinz-Gerd Hegering David Bogy Peter Phillips Donald Marcotte Jack Wolf Gunter Schwarze Peter Lax Ano de titulação 1987 1967 1962 1908 1899 1966 0 1885 1932 1868 1925 1942 1963 1967 1957 1931 1934 1960 1951 1966 1956 1978 1960 1970 1927 1970 1942 1968 1959 1873 1963 1971 1988 1831 1949 1935 1941 1960 1956 1939 1964 1948 1951 1971 1966 1974 1969 1960 1963 1949 País de titulação UnitedStates France UnitedStates Netherlands Germany Germany Ukraine Germany UnitedStates Germany Russia unknow UnitedStates Russia UnitedStates Germany France UnitedStates UnitedKingdom UnitedStates UnitedStates Finland UnitedStates UnitedStates UnitedStates France Switzerland Australia UnitedStates Germany Ukraine UnitedStates Belgium Germany UnitedKingdom Switzerland UnitedStates UnitedStates UnitedStates UnitedStates UnitedStates UnitedStates UnitedStates Germany UnitedStates UnitedKingdom UnitedStates UnitedStates Germany UnitedStates Orientados diretos 120 112 97 95 88 91 87 75 100 63 82 81 82 85 81 74 78 77 80 76 71 81 70 73 66 71 72 69 67 48 68 66 77 55 62 63 65 58 63 56 60 59 59 65 62 59 61 59 62 55 CLASSIFICAÇÃO POR JANELAS 75 Tabela B.2: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 5. Registro 7298 7404 7401 806 7361 18331 805 7486 7461 7865 5879 34254 4642 7378 7487 10479 17409 7451 11370 19524 34266 24109 7862 7488 31357 12545 25484 18571 7402 19964 8011 29458 10480 26995 34233 12543 51374 286 39071 7379 12544 17865 73816 36703 30176 17946 18589 8038 12546 17806 Nome David Hilbert C. L. Ferdinand Lindemann C. Felix Klein E. H. Moore Erhard Schmidt Ernst Kummer Oswald Veblen Karl Weierstrass Solomon Lefschetz H. A. Newton George Birkhoff Gaston Darboux Ferdinand Frobenius Richard Courant Hermann Schwarz Nikolai Luzin Heinz Hopf William Story Lazarus Fuchs Ludwig Bieberbach C. Emile Picard Dimitri Egorov Edmund Landau Leopold Fejer Arnold Sommerfeld Waclaw Sierpinski Heinrich Scherk Edmund Whittaker Julius Plucker Rudolf Lipschitz Alonzo Church Christoph Gudermann Andrei Kolmogorov Michel Chasles Laurent Schwartz Andrei Markov Ludwig Prandtl R. L. Moore Emile Borel Erich Hecke Georgy Voronoy Simeon Poisson Georges Valiron Jacques-Louis Lions Karl Pearson Gustav Dirichlet Wilhelm Scheibner Salomon Bochner Stanislaw Zaremba G. H. Hardy Ano de titulação 1885 1873 1868 1885 1905 1831 1903 1841 1911 1850 1907 1866 1870 1910 1864 1915 1925 1875 1858 1910 1877 1901 1899 1902 1891 1906 1823 1895 1823 1853 1927 1823 1925 1814 1943 1884 1899 1905 1893 1910 1896 1800 1914 1954 1879 1827 1848 1921 1889 0 País de titulação Germany Germany Germany UnitedStates Germany Germany UnitedStates Germany UnitedStates UnitedStates UnitedStates France Germany Germany Germany Russia Germany Germany Germany Germany France Russia Germany Hungary Germany Poland Germany UnitedKingdom Germany Germany UnitedStates Germany Russia France France Russia Germany UnitedStates France Germany Russia France France France UnitedKingdom Germany Germany Germany France UnitedKingdom Orientados diretos 75 48 63 31 32 55 16 41 26 4 46 6 17 36 19 17 50 20 28 25 15 12 31 20 35 9 2 8 1 1 34 2 82 2 16 6 88 50 6 14 2 3 7 44 4 6 32 38 10 24 76 APÊNDICE B Tabela B.3: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 10. Registro 17865 7401 17864 66476 18231 18230 17946 7404 19964 7402 108295 47064 47025 17981 29642 57670 26995 38586 25484 65161 7298 57667 18331 29458 18603 7486 108266 806 146036 7865 65162 34254 127710 53410 128986 15635 7361 805 12541 57659 12542 42016 41423 7461 5879 72669 34266 7487 127668 7451 Nome Simeon Poisson C. Felix Klein Joseph Lagrange Abraham Kastner Carl Gauss Johann Pfaff Gustav Dirichlet C. L. Ferdinand Lindemann Rudolf Lipschitz Julius Plucker Pierre-Simon Laplace Martin Ohm Karl von Langsdorf Jean-Baptiste Fourier Christian Gerling Christian Hausen Michel Chasles Leonhard Euler Heinrich Scherk Georg Lichtenberg David Hilbert Bernhard Thibaut Ernst Kummer Christoph Gudermann Friedrich Bessel Karl Weierstrass Jean d’Alembert E. H. Moore Giovanni Battista Beccaria H. A. Newton Heinrich Brandes Gaston Darboux Johann Bode Johann Bernoulli Johann Planer Carl Jacobi Erhard Schmidt Oswald Veblen Nikolai Brashman Johann Mayer Pafnuty Chebyshev William Hopkins Enno Dirksen Solomon Lefschetz George Birkhoff Johann Wichmannshausen C. Emile Picard Hermann Schwarz Johann Busch William Story Ano de titulação 1800 1868 0 1739 1799 1786 1827 1873 1853 1823 0 1811 1781 0 1812 1713 1814 1726 1823 1765 1885 1796 1831 1823 1810 1841 0 1885 0 1850 1800 1866 0 1690 1686 1825 1905 1903 1834 1773 1849 1830 1820 1911 1907 1685 1877 1864 1752 1875 País de titulação France Germany Italy Germany Germany Germany Germany Germany Germany Germany unknow Germany Germany France Germany Germany France Switzerland Germany Germany Germany Germany Germany Germany Germany Germany unknow UnitedStates unknow UnitedStates Germany France Germany Switzerland Germany Germany Germany UnitedStates Russia Germany Russia UnitedKingdom Germany UnitedStates UnitedStates Germany France Germany Germany Germany Orientados diretos 3 63 3 10 10 5 6 48 1 1 1 11 3 2 1 3 2 6 2 4 75 3 55 2 2 41 1 31 1 4 1 6 1 4 2 6 32 16 2 2 6 6 11 26 46 1 15 19 1 20 CLASSIFICAÇÃO POR JANELAS 77 Tabela B.4: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 15. Registro 57670 66476 17865 17864 128986 38586 53410 18230 21235 54440 137705 7401 108295 18231 108266 60782 72669 146036 127962 143011 76481 127710 128938 127668 129628 128046 125886 7404 60985 17946 129708 47025 19964 65161 7402 17981 143084 47064 26995 29642 7298 143630 125971 57667 124000 123974 125125 18331 143083 25484 Nome Christian Hausen Abraham Kastner Simeon Poisson Joseph Lagrange Johann Planer Leonhard Euler Johann Bernoulli Johann Pfaff Otto Mencke Jacob Bernoulli Jakob Thomasius C. Felix Klein Pierre-Simon Laplace Carl Gauss Jean d’Alembert Johann Segner Johann Wichmannshausen Giovanni Battista Beccaria Michael Walther, Jr. Nicolas Malebranche Elias Camerarius, Sr. Johann Bode Rudolf Camerarius Johann Busch Nikolaus Eglinger Johann Pasch Georg Hamberger C. L. Ferdinand Lindemann Gottfried Leibniz Gustav Dirichlet Johann Bauhin Karl von Langsdorf Rudolf Lipschitz Georg Lichtenberg Julius Plucker Jean-Baptiste Fourier Peter Werenfels Martin Ohm Michel Chasles Christian Gerling David Hilbert Friedrich Leibniz Simon Hilscher Bernhard Thibaut Rudolf Krause Georg Metzger Emmanuel Stupanus Ernst Kummer Theodor Zwinger, Jr. Heinrich Scherk Ano de titulação 1713 1739 1800 0 1686 1726 1690 1786 1665 1676 1643 1868 0 1799 0 1726 1685 0 1661 1672 1663 0 1684 1752 1660 1683 1721 1873 1666 1827 1649 1781 1853 1765 1823 0 1649 1811 1814 1812 1885 1622 1704 1796 1671 1644 1613 1831 1630 1823 País de titulação Germany Germany France Italy Germany Switzerland Switzerland Germany Germany Switzerland Germany Germany unknow Germany unknow Germany Germany unknow Germany unknow Germany Germany Germany Germany Switzerland Germany Germany Germany Germany Germany Switzerland Germany Germany Germany Germany France Switzerland Germany France Germany Germany Germany Germany Germany Netherlands Switzerland-Germany Switzerland Germany Switzerland Germany Orientados diretos 3 10 3 3 2 6 4 5 2 3 3 63 1 10 1 4 1 1 2 2 2 1 1 1 1 1 2 48 2 6 1 3 1 4 1 2 1 11 2 1 75 1 1 3 2 2 4 55 1 2 78 APÊNDICE B Tabela B.5: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 20. Registro 137705 57670 66476 17865 17864 128986 143630 21235 7401 18230 127962 38586 53410 54440 125125 60985 76481 125148 143011 125434 127724 108295 18231 125450 60984 125408 60782 108266 101860 72669 130248 125886 146036 128938 124000 125488 125154 123974 127790 128046 7404 125006 129628 127710 129708 125561 143859 127956 128743 127923 Nome Jakob Thomasius Christian Hausen Abraham Kastner Simeon Poisson Joseph Lagrange Johann Planer Friedrich Leibniz Otto Mencke C. Felix Klein Johann Pfaff Michael Walther, Jr. Leonhard Euler Johann Bernoulli Jacob Bernoulli Emmanuel Stupanus Gottfried Leibniz Elias Camerarius, Sr. Theodor Zwinger Nicolas Malebranche Marin Mersenne Christoph Notnagel Pierre-Simon Laplace Carl Gauss Frans van Schooten, Jr. Erhard Weigel Jacobus Golius Johann Segner Jean d’Alembert Franciscus Sylvius Johann Wichmannshausen Petrus Ryff Georg Hamberger Giovanni Battista Beccaria Rudolf Camerarius Rudolf Krause Georg Wedel Werner Rolfinck Georg Metzger Moritz Steinmetz Johann Pasch C. L. Ferdinand Lindemann Adriaan van den Spieghel Nikolaus Eglinger Johann Bode Johann Bauhin Christiaan Huygens Bartholomaus Schwendendorffer Johann Quenstedt Johann Macasius Aegidius Strauch Ano de titulação 1643 1713 1739 1800 0 1686 1622 1665 1868 1786 1661 1726 1690 1676 1613 1666 1663 1553 1672 1611 1630 0 1799 1635 1650 1612 1726 0 1634 1685 1584 1721 0 1684 1671 1667 1625 1644 1550 1683 1873 1603 1660 0 1649 1647 1656 1643 1638 1651 País de titulação Germany Germany Germany France Italy Germany Germany Germany Germany Germany Germany Switzerland Switzerland Switzerland Switzerland Germany Germany France unknow France Germany unknow Germany Netherlands Germany Netherlands Germany unknow Netherlands-Switzerl Germany Switzerland Germany unknow Germany Netherlands Netherlands-Germany Germany-Italy Switzerland-Germany Germany Germany Germany Belgium-Italy Switzerland Germany Switzerland Netherlands-France Germany Germany Germany Germany Orientados diretos 3 3 10 3 3 2 1 2 63 5 2 6 4 3 4 2 2 3 2 3 2 1 10 5 10 3 4 1 11 1 1 2 1 1 2 2 3 2 2 1 48 3 1 1 1 1 1 1 1 1 CLASSIFICAÇÃO POR JANELAS 79 Tabela B.6: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 25. Registro 57670 137705 125148 17865 66476 125047 17864 7401 125665 128986 131517 125181 143630 18230 21235 127962 38586 125125 53410 54440 125109 131443 130248 125434 131546 119159 76481 152903 60985 125006 131606 18231 136726 152905 127790 108295 125408 143011 125232 127606 152906 127724 126827 125450 108266 60984 60782 114992 127848 101860 Nome Christian Hausen Jakob Thomasius Theodor Zwinger Simeon Poisson Abraham Kastner Petrus Ramus Joseph Lagrange C. Felix Klein Johannes Sturmius Johann Planer Guillaume Bude Rudolph Snellius Friedrich Leibniz Johann Pfaff Otto Mencke Michael Walther, Jr. Leonhard Euler Emmanuel Stupanus Johann Bernoulli Jacob Bernoulli Hieronymus Fabricius Georgius Hermonymus Petrus Ryff Marin Mersenne Jacques Toussain Johannes von Andernach Elias Camerarius, Sr. Pietro Pomponazzi Gottfried Leibniz Adriaan van den Spieghel Adrien Turnebe Carl Gauss Pietro Roccabonella Vittore Trincavelli Moritz Steinmetz Pierre-Simon Laplace Jacobus Golius Nicolas Malebranche Ludolph van Ceulen Ambrosius Rhodius Bassiano Landi Christoph Notnagel Georg Joachim Rheticus Frans van Schooten, Jr. Jean d’Alembert Erhard Weigel Johann Segner Gilbert Jacchaeus Jacobus Martini Franciscus Sylvius Ano de titulação 1713 1643 1553 1800 1739 1536 0 1868 1527 1686 1486 1572 1622 1786 1665 1661 1726 1613 1690 1676 1559 0 1584 1611 1521 1527 1663 1487 1666 1603 1532 1799 0 0 1550 0 1612 1672 0 1600 1542 1630 1535 1635 0 1650 1726 1601 1596 1634 País de titulação Germany Germany France France Germany France Italy Germany Belgium Germany France Germany Germany Germany Germany Germany Switzerland Switzerland Switzerland Switzerland Italy unknow Switzerland France France Belgium Germany Italy Germany Belgium-Italy France Germany Italy Italy Germany unknow Netherlands unknow unknow Germany Italy Germany Germany Netherlands unknow Germany Germany UnitedKingdom-German Germany Netherlands-Switzerl Orientados diretos 3 3 3 3 10 3 3 63 4 2 2 4 1 5 2 2 6 4 4 3 5 2 1 3 2 4 2 2 2 3 2 10 2 2 2 1 3 2 2 3 1 2 4 5 1 10 4 3 4 11 80 APÊNDICE B Tabela B.7: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 30. Registro 57670 137705 17865 66476 125148 7401 17864 131517 125047 131443 125888 127181 125422 119159 128986 125665 125938 126659 131444 126736 131535 125181 18230 143630 131575 21235 38586 127962 125125 53410 54440 125109 152904 131546 130248 125434 128012 76481 18231 60985 127092 108295 127011 125006 131606 127166 152905 119097 125760 126827 Nome Christian Hausen Jakob Thomasius Simeon Poisson Abraham Kastner Theodor Zwinger C. Felix Klein Joseph Lagrange Guillaume Bude Petrus Ramus Georgius Hermonymus Jan Standonck Girolamo Aleandro Jacobus Sylvius Johannes von Andernach Johann Planer Johannes Sturmius Desiderius Erasmus Ulrich Zasius Johannes Argyropoulos Erasmus Reinhold Angelo Poliziano Rudolph Snellius Johann Pfaff Friedrich Leibniz Georgios Gemistos Otto Mencke Leonhard Euler Michael Walther, Jr. Emmanuel Stupanus Johann Bernoulli Jacob Bernoulli Hieronymus Fabricius Giovanni Battista della Monte Jacques Toussain Petrus Ryff Marin Mersenne Rudolf Agricola Elias Camerarius, Sr. Carl Gauss Gottfried Leibniz Valentin Thau Pierre-Simon Laplace Johannes Hommel Adriaan van den Spieghel Adrien Turnebe Niccolo Leoniceno Vittore Trincavelli Gemma Frisius Johann Reuchlin Georg Joachim Rheticus Ano de titulação 1713 1643 1800 1739 1553 1868 0 1486 1536 0 1474 1499 1530 1527 1686 1527 1497 1501 1444 1535 1477 1572 1786 1622 1380 1665 1726 1661 1613 1690 1676 1559 0 1521 1584 1611 1478 1663 1799 1666 1555 0 1543 1603 1532 1446 0 1529 1477 1535 País de titulação Germany Germany France Germany France Germany Italy France France unknow France Italy France Belgium Germany Belgium France Germany Italy Germany Italy Germany Germany Germany unknow Germany Switzerland Germany Switzerland Switzerland Switzerland Italy Italy France Switzerland France Italy Germany Germany Germany Germany unknow Germany Belgium-Italy France Italy Italy Belgium France-Switzerland Germany Orientados diretos 3 3 3 10 3 63 3 2 3 2 4 2 3 4 2 4 2 2 4 7 2 4 5 1 2 2 6 2 4 4 3 5 2 2 1 3 2 2 10 2 2 1 2 3 2 2 2 4 2 4 CLASSIFICAÇÃO POR JANELAS 81 Tabela B.8: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes principais com janela de tamanho 41. Registro 57670 17865 137705 66476 125148 7401 17864 131517 131443 125047 131575 131535 125888 128012 127181 126659 125938 131444 125422 119159 128986 125665 126736 18230 125181 143630 21235 38586 127962 53410 125125 54440 125109 152904 131546 130248 125434 76481 18231 108295 60985 127107 127092 127011 125006 131606 126956 127166 152905 119097 Nome Christian Hausen Simeon Poisson Jakob Thomasius Abraham Kastner Theodor Zwinger C. Felix Klein Joseph Lagrange Guillaume Bude Georgius Hermonymus Petrus Ramus Georgios Gemistos Angelo Poliziano Jan Standonck Rudolf Agricola Girolamo Aleandro Ulrich Zasius Desiderius Erasmus Johannes Argyropoulos Jacobus Sylvius Johannes von Andernach Johann Planer Johannes Sturmius Erasmus Reinhold Johann Pfaff Rudolph Snellius Friedrich Leibniz Otto Mencke Leonhard Euler Michael Walther, Jr. Johann Bernoulli Emmanuel Stupanus Jacob Bernoulli Hieronymus Fabricius Giovanni Battista della Monte Jacques Toussain Petrus Ryff Marin Mersenne Elias Camerarius, Sr. Carl Gauss Pierre-Simon Laplace Gottfried Leibniz Johannes Stoffler Valentin Thau Johannes Hommel Adriaan van den Spieghel Adrien Turnebe Philipp Melanchthon Niccolo Leoniceno Vittore Trincavelli Gemma Frisius Ano de titulação 1713 1800 1643 1739 1553 1868 0 1486 0 1536 1380 1477 1474 1478 1499 1501 1497 1444 1530 1527 1686 1527 1535 1786 1572 1622 1665 1726 1661 1690 1613 1676 1559 0 1521 1584 1611 1663 1799 0 1666 1476 1555 1543 1603 1532 1511 1446 0 1529 País de titulação Germany France Germany Germany France Germany Italy France unknow France unknow Italy France Italy Italy Germany France Italy France Belgium Germany Belgium Germany Germany Germany Germany Germany Switzerland Germany Switzerland Switzerland Switzerland Italy Italy France Switzerland France Germany Germany unknow Germany Germany Germany Germany Belgium-Italy France Germany Italy Italy Belgium Orientados diretos 3 3 3 10 3 63 3 2 2 3 2 2 4 2 2 2 2 4 3 4 2 4 7 5 4 1 2 6 2 4 4 3 5 2 2 1 3 2 10 1 2 2 2 2 3 2 3 2 2 4 82 APÊNDICE B Apêndice C Publicações realizadas no período do mestrado C.1 BRASNAM – III Brazilian Workshop on Social Network Analysis and Mining (2014) 83 Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos Luciano Rossi1 , Jesús P. Mena-Chalco1 1 Centro de Matemática, Computação e Cognição – Universidade Federal do ABC {luciano.rossi,jesus.mena}@ufabc.edu.br Abstract. Documenting individuals and their relationships using the genealogy aims to obtain knowledge about the origin, evolution and characteristics of interrelated groups. This approach allows to understand the formation and future trends of groups. In this context, the characterization of the academic genealogy trees by topological metrics allows to categorize individuals screened by their academic lineage and enables to obtain important new knowledge for understanding the scientific scenario about an area. In this work, we present nine adapted and developed topological metrics to characterize academic genealogy trees. In order to show the feasibility of our characterization method by making use of topological metrics, we present an experiment focusing on the analysis of the genealogy of Johann Bernoulli (1667-1748), consisting of 81,768 mathematicians and 88,955 relationships of academic advising. Resumo. Documentar indivı́duos e seus relacionamentos utilizando a genealogia visa a obtenção de conhecimento sobre a origem, evolução e disseminação de grupos inter-relacionados. Essa tarefa de documentação auxilia o entendimento da formação e tendências futuras de grupos de pessoas. Nesse contexto, a caracterização de árvores de genealogia acadêmica, por meio de métricas topológicas, permite categorizar indivı́duos através de sua linhagem acadêmica e possibilita a obtenção de novos conhecimentos importantes para a compreensão do cenário cientı́fico de uma área. Neste trabalho apresentamos nove métricas adaptadas e desenvolvidas para caracterizar árvores de genealogia acadêmica. A fim de demonstrar a viabilidade do nosso método de caracterização por meio da utilização de métricas topológicas, apresentamos testes preliminares voltados para a análise da genealogia de Johann Bernoulli (1667-1748), composto de 81.768 matemáticos e 88.955 relações de orientação acadêmica. 1. Introdução A genealogia é uma ciência auxiliar da história que estuda a origem, evolução e disseminação de grupos familiares (Malmgren et al., 2010). O objeto de pesquisa da genealogia são os ascendentes e descendentes de um indivı́duo. O processo de pesquisa envolvido na genealogia abrange a identificação de parentesco entre indivı́duos através de registros históricos como certidões de nascimento, casamento, óbito, registro de propriedades e outros documentos que possam comprovar uma ligação entre indivı́duos. Uma árvore genealógica é um grafo conexo acı́clico que é comumente utilizado para documentar e facilitar o entendimento a respeitos de estudos de cunho genealógico (Hamberger et al., 2011). Neste tipo de grafo, cada vértice representa um indivı́duo na árvore e cada aresta indica a existência de algum tipo de relação entre os vértices. Neste contexto, uma árvore de genealogia acadêmica é uma estrutura em que cada vértice é um orientador acadêmico e as arestas (direcionadas) representam as relações de orientação. Um conjunto de árvores pode ser denominado floresta. A utilização da genealogia (Derrida et al., 1999) como ferramenta para documentar e obter novos conhecimentos sobre grupos inter-relacionados é cada vez mais frequente em contextos acadêmico-cientı́ficos (Malmgren et al., 2010; Chang, 2011; Hart & Cossuth, 2013; Mena-Chalco & Cesar-Jr., 2013). A estruturação de árvores de genealogia acadêmica, por meio de relações de orientação, pode ser de grande utilidade para o registro histórico de grupos atuantes em especı́ficas áreas do conhecimento, onde os indivı́duos de interesse (orientadores e orientados) são representados por vértices na árvore e os seus relacionamentos de orientação (e.g., orientações de doutorado ou supervisão de pós-doutorado) são representados por arestas. A obtenção da floresta de genealogia possibilita, também, a caracterização da área do conhecimento em questão por meio de métricas que permitem, através de análises estatı́sticas, data mining e técnicas de reconhecimento de padrões, extrair conhecimento relevante para a área que é objeto de estudo. A importância deste tipo de análise se revela por meio da possibilidade de avaliar o impacto das orientações acadêmicas no desenvolvimento cientı́fico de especı́ficas áreas do conhecimento e na identificação dos principais atores, ou grupos de maior relevância, que se destacaram por suas contribuições na proliferação do conhecimento através deste tipo de relação. A proposta deste trabalho é caracterizar árvores de genealogia por meio do desenvolvimento, adaptação e aplicação de métricas topológicas que permitam diferenciar os vértices das árvores, identificar grupos semelhantes e, de forma geral, promover um maior entendimento sobre este tipo de estrutura. Este estudo está estruturado em cinco seções, além desta introdução. Na seção 2, apresentamos estudos que possuem temas correlatos ao aqui descrito. Na seção 3, apresentamos as métricas consideradas para a caracterização das árvores de genealogia. A estratégia utilizada para a obtenção dos dados e os resultados obtidos neste estudo são descritos nas seções 4 e 5, respectivamente. Finalmente, na seção 6 apresentamos os pontos de relevância obtidos com este estudo bem como possı́veis trabalhos futuros. 2. Trabalhos correlatos A análise de redes sociais é uma abordagem que origina-se em outras áreas do conhecimento (sociologia, psicologia social e antropologia) (Matheus et al., 2006) e apresenta grande crescimento nos últimos anos devido ao (i) aumento da quantidade de dados disponı́veis para análise, (ii) desenvolvimento das áreas de informática e processamento de dados e (iii) a ampliação dos assuntos de interesse e áreas do conhecimento que utilizam este tipo de análise. A utilização destas análises pode ser de grande valor para a obtenção de conhecimento sobre diversos grupos sociais e envolve quatro componentes principais: gerenciamento e estruturação de dados, descoberta de conhecimento, aprendizagem de máquina e técnicas de visualização (Freitas et al., 2008). A representação de indivı́duos e seus relacionamentos na forma de redes apresenta-se como forma eficaz para extrair conhecimento em contextos, por vezes, de difı́cil interpretação. Caracterizar a ciência, como por exemplo a área da Ciência da Informação, e a contribuição que a análise de redes sociais proporciona para a sua correta interpretação é ainda um desafio. Nesse contexto, utilizar árvores de genealogia como ferramenta para o estudo e descoberta de conhecimento sobre um grupo de indivı́duos é uma estratégia eficiente de ampla aplicação. Um desafio importante, neste projeto, recai sobre a forma pela qual pode-se extrair conhecimento relevante a respeito de tais estruturas. Um estudo, não muito recente, a respeito das propriedades estatı́sticas das árvores de genealogia foi conduzido por Derrida et al. (1999) onde se busca, a partir da reconstrução da genealogia de um indivı́duo pertencente à um pequeno grupo, medir a distribuição de seus ancestrais que aparecem mais de uma vez na árvore construı́da. Diferentes estudos foram dedicados à documentação, análise e classificação de árvores de genealogia acadêmica através de relacionamentos de orientação. O trabalho ‘A Labor of Love: The Mathematics Genealogy Project’ (Jackson, 2007) descreve o projeto, idealizado e implementado por Harry Coonce, sobre os relacionamentos de orientação acadêmica entre os doutores em matemática, e tem como principal objetivo ‘compilar informações a respeito de todos os matemáticos do mundo’ (uma comunidade cientı́fica seleta e pequena). O projeto, que em Março de 2014 disponibiliza, via Web, consulta a mais de 178.000 matemáticos em diversos perı́odos, apresenta resultados históricos muito significantes no que tange à documentação da área da matemática, porém neste projeto não foi contemplada uma análise ampla do conjunto de dados. É importante destacar que o conjunto de dados gerado com o projeto de genealogia matemática (Mathematics Genealogy Project) é uma base ı́mpar que ainda não foi explorada completamente. No estudo sobre o papel das relações de orientação acadêmica no desempenho dos orientados, Malmgren et al. (2010) utilizaram a genealogia dos matemáticos como base, estruturando-os por meio de suas relações de orientação acadêmica. As análises apresentadas foram referentes à um subconjunto de 7.259 matemáticos, com graduação ocorrida entre 1900 e 1960, e suas respectivas contagens de descendentes (fecundidade). O referido estudo apresenta resultados interessantes, utilizando análises estatı́sticas, para a compreensão, em escala temporal, do desenvolvimento do grupo pesquisado e correlações existentes entre fecundidade e outras medidas de desempenho acadêmico. Por outro lado, a identificação do impacto que uma orientação acadêmica exerce sobre o orientado, a utilização dos registros do projeto de genealogia matemática e o entendimento de como a comunidade dos matemáticos se desenvolveu, são itens abordados por Narayan (2011). O conjunto de dados obtido (137.138 matemáticos e seus relacionamentos) foi modelado em diferentes tipos de grafos considerando os relacionamentos, primeiramente, como arestas direcionadas, posteriormente, como arestas não-direcionadas e os relacionamentos entre irmãos (quando dois ou mais indivı́duos tiveram o mesmo orientador), de modo à possibilitar a análise dos grafos sob diferentes perspectivas. A utilização de relacionamentos entre irmãos ou redes de parentesco (kinship networks) resulta em árvores de genealogia de composição mista. As arestas direcionadas (que indicam relacionamento top-down é utilizada comumente para interligar pais e filhos). As arestas não-direcionadas (que indicam relacionamento, como por exemplo casamento, onde não existe uma orientação de origem e destino) são menos frequentes neste tipo de abordagem. Essa forma de modelar às árvores é descrita no estudo de Hamberger et al. (2011) e demonstra as possibilidades de avaliação com diferentes estruturas. A importância deste tipo de estudo também pode ser verificada no projeto Neurotree (David & Hayden, 2012). Em concordância com o projeto dos matemáticos, a área da neurociência (outra comunidade cientı́fica seleta e pequena) também busca a compreensão da ciência através do estudo de sua genealogia. Uma dificuldade comum em ambos os projetos é a identificação dos orientadores e suas relações de orientação. O projeto Neurotree (http://neurotree.org/neurotree) foi pautado na obtenção das informações da área e, pela primeira vez em projetos deste tipo, na interpretação das árvores de genealogia acadêmica constituı́das. A utilização de métricas de avaliação de árvores apresentou resultados interessantes na caracterização da área da Neurociência. Este projeto conta com, aproximadamente, 40.000 pesquisadores e 60.000 relacionamentos cadastrados. Iniciativas similares são observadas para a comunidade cientı́fica dos Fı́sicos (http://academictree.org/physics) e, de forma mais ampla, para os acadêmicos titulados com doutorado (http://phdtree.org). Estes projetos são, inicialmente, pautados na obtenção e documentação de seus membros, não oferecendo análises destes conjuntos de dados. Documentar a história e compreender a expansão de grupos com interesses comuns, destacando principalmente as comunidades acadêmicas, passa obrigatoriamente pela utilização da genealogia e, consequentemente, pela construção de árvores genealógicas. A utilização da genealogia foi o caminho para o estudo de um seleto grupo de meteorologistas tropicais, apresentado por Hart & Cossuth (2013). Os resultados desse estudo motivaram, devido às caracterı́sticas de interdisciplinaridade dos indivı́duos pertencentes à árvore, a ampliação da busca por indivı́duos fora dos limites da área. O desenvolvimento de métodos para caracterizar árvores genealógicas é parte importante do trabalho de gerar conhecimento por meio destas estruturas. Estudos neste sentido, como o de Griffiths (1987), demonstram a viabilidade da caracterização de árvores de genealogia por meio de métricas especı́ficas. No nosso trabalho, exploramos nove métricas topológicas adaptadas e desenvolvidas para caracterizar árvores de genealogia acadêmica. 3. Métricas em grafos para a caracterização de árvores de genealogia As árvores de genealogia podem ser caracterizadas por meio de métricas de avaliação de grafos. Estas métricas têm como objetivo caracterizar o indivı́duo, ou seja, atribuir um valor numérico que possa ser utilizado para qualificar este indivı́duo pela topologia de sua árvore, de forma a descobrir informações ou padrões que possam auxiliar à uma compreensão a respeito de sua formação, capacidade de propagação e diferenciação entre as outras árvores da floresta. As métricas consideradas neste estudo são descritas a seguir. • Fecundidade1 . O objetivo desta métrica é dimensionar a árvore por meio do número de vértices que ela apresenta. É uma métrica importante para a classificação de um vértice raiz com base na quantidade de descendentes que ele influenciou. A fecundidade (f ) é estimada considerando a somatória do número P de vértices existentes em cada nı́vel, mi , da árvore f = m i=1 (ni ) onde ni é o número de vértices no nı́vel mi . • Fecundidade ponderada. Esta métrica tem objetivo similar ao da fecundidade, sua principal caracterı́stica é a atribuição de um peso maior para os vértices que estão mais próximos do vértice raiz. Os relacionamentos diretos têm maior peso 1 As métricas fecundidade e fecundidade ponderada foram adaptadas do trabalho de árvores de genealogia dos neurocientistas descrito por David & Hayden (2012). • • • • • • 2 no cálculo do valor da métrica. A fecundidade ponderada (f p) reflete o potencial de um vértice em se relacionar com outros vértices (orientação acadêmica) e sua influência na propagação de relacionamentos. Neste trabalho, a f p utiliza como fator de ponderação a distância existente entre o vértice raiz e seus descendentes, Pm n i f p = i=1 i2 , onde ni é o número de vértices no nı́vel i da árvore. Esta métrica reduz o impacto da quantidade de vértices pertencentes à linhagem de um vértice raiz a medida que estes se distanciam. Número de folhas. Definida como a quantidade de vértices não fecundos, ou seja, aqueles que não têm nenhum filho. O número de folhas (nf ) totaliza a quantidade de vértices, na árvore, que não orientaram alunos. Comumente, isso acontece quando um pesquisador não segue a vida acadêmica ou quando estiver no inı́cio da vida acadêmica. Por outro lado, a quantidade de folhas existente no último nı́vel da árvore, poderia nos indicar que esta estrutura tem potencial de crescimento, visto que estas folhas tendem a se propagar. Já a quantidade de folhas observadas nos nı́veis intermediários indicariam vértices com potencial esterilidade, pois não procriaram em tempo hábil. Profundidade2 . O objetivo da métrica profundidade (p) é fornecer o grau de maturidade da árvore genealógica formada a partir de um vértice raiz. Ela mede a quantidade de arestas existentes entre o vértice raiz e um vértice mais distante que possa ser alcançado. A métrica profundidade (p) pode ser definida por: p = max(d(i, j)), onde d(i, j) corresponde à distância geodésica entre os vértices i e j. Largura. A métrica largura tem como objetivo medir a quantidade de relacionamentos diretos que um vértice raiz possui. Representa a quantidade de orientados existente no nı́vel imediatamente posterior ao nı́vel do orientador (vértice raiz) e reflete a produtividade (em termos de orientação) direta deste. A largura (l) é uma medida simples usada para classificar um orientador. Trata-se de uma análise quantitativa importante, porém, pouco diz sobre a qualidade da orientação. Maior largura3 . A métrica maior largura (ml) tem como objetivo identificar o maior número de relacionamentos em um mesmo nı́vel da árvore genealógica. Este valor demonstra o quão ampla foi a influência de um vértice raiz na propagação dos relacionamentos em sua árvore. Distância média4 . A definição de proximidade entre um vértice raiz e todos os vértices pertencentes à sua ascendência é o objetivo da métrica distância média (dm). Neste contexto, quanto menor for o valor da dm, maior é a proximidade existente entre os vértices de uma árvore. A dm é a média dos comprimentos dos caminhos possı́veis entre um vértice raiz e os vértices pertencentes à sua linhagem, P e é definida por n1 i6=j d(i, j), onde d(i, j) é a distância (quantidade de arestas existentes) entre os vértices i e j, n é a quantidade de caminhos contabilizados. Média dos menores caminhos. Esta métrica apresenta um objetivo similar ao da distância média, sua principal diferença está nos caminhos utilizados para o cálculo. Objetiva-se com esta métrica ponderar o valor obtido. Assim, esta medida representa a distância média entre os indivı́duos pertencentes à árvore. A média P 1 dos menores caminhos (mmc) é definida por n(n−1) i6=j d(i, j), onde d(i, j) é a As métricas profundidade, largura e número de folhas foram adaptadas da Teoria dos Grafos. A métrica maior largura foi desenvolvida para este trabalho. 4 As métricas distância média e média dos menores caminhos foram adaptadas da Teoria dos Grafos. 3 distância, quantidade de arestas existentes, entre os vértices i e j, n é a quantidade de caminhos contabilizados. • Índice H. O ı́ndice H genealógico (h) de um vértice é definido como o maior número h de relações que este vértice possui com outros vértices que tenham, pelo menos, o mesmo número h de relacionamentos cada um5 . O objetivo desta métrica é considerar a quantidade e a qualidade genealógica (no sentido de perpetuidade) dos relacionamentos dos vértices da árvore. Para exemplificar as métricas, apresentamos na Figura 1 uma árvore de genealogia e os resultados dos cálculos das respectivas métricas para os vértices mais representativos da árvore. Vértice A B C D E f 28 27 6 3 15 fp 3,51 6,53 3,61 3,00 5,03 nf 15 15 3 3 9 p 5 4 3 1 3 l 1 3 3 3 3 ml 9 9 3 3 7 dm 3,52 2,64 1,43 0,75 2,13 mmc 0,13 0,10 0,24 0,25 0,14 h 1 3 1 0 2 Figura 1. Exemplo de árvore de genealogia com os respectivos resultados das métricas calculadas para seus principais vértices. 4. Conjunto de dados utilizados Utilizamos em nosso estudo o conjunto de indivı́duos pertencentes à linhagem de Johann Bernoulli, importante matemático de Basel (Basiléia) que, juntamente com Newton e Leibniz, é considerado um dos fundadores do cálculo. Os dados foram obtidos por meio de consultas recursivas ao website do projeto de genealogia de Matemáticos (Mathematics Genealogy Project, http://genealogy.math.ndsu.nodak.edu), onde, através do fornecimento de um identificador numérico exclusivo (ID), temos acesso a uma página html com informações sobre o matemático em questão. Em cada consulta foram obtidos: (i) os ID’s referentes aos matemáticos orientados pelo indivı́duo em questão e (ii) seu nome completo. As consultas recursivas foram realizadas em fevereiro de 2014 e totalizaram 81.768 matemáticos e 88.955 relacionamentos. É importante ressaltar que os resultados apresentados pelo projeto dos matemáticos é de grande relevância, a motivação deste trabalho é baseada na assertividade destes resultados e na possibilidade de, por meio 5 O ı́ndice H, proposta por Hirsch (2005), é uma métrica que combina quantidade (número de publicações) e qualidade (número de citações) da produção acadêmica. das métricas topológicas, aprofundar as análises e, consequentemente, o conhecimento a respeito dos indivı́duos envolvidos e da estrutura resultante de seus relacionamentos. O conjunto de dados foi utilizado para povoar um banco de dados em estrutura de grafo, por meio da plataforma Neo4j (banco de dados orientado à grafos). A escolha deste tipo de estrutura se justifica pelo ganho de desempenho que pode ser obtido quando comparado à outras estruturas relacionais. Cada matemático obtido é representado, no banco de dados, como um vértice da árvore e para cada relação de orientação acadêmica existente é adicionado uma aresta (direcionada) ligando o orientador ao orientado. 5. Resultados A árvore resultante da estruturação dos descendentes de Johann Bernoulli e seus relacionamentos apresenta a profundidade de 20 e a maior largura de 20.242. A fecundidade e fecundidade ponderada do vértice raiz são 81.767 e 623,63, respectivamente. Apesar dos valores expressivos apresentados, Bernoulli orientou somente quatro matemáticos (l = 4), destes apenas dois tiveram alunos (h = 2) e 80,69% dos indivı́duos pesquisados não orientaram alunos (nf = 65.977). A Figura 2 ilustra a árvore composta pela linhagem de Johann Bernoulli a tı́tulo de visualizar sua magnitude e estrutura. O vértice existente na parte superior da figura representa a raiz da árvore (Johann Bernoulli) e sua descendência é apresentada nos 20 nı́veis inferiores. Vértices e arestas com maior contraste indicam uma sobreposição destes elementos. Figura 2. Árvore genealógica de Johann Bernoulli. A proposta de caracterização de árvores de genealogia, por meio das relações de orientação acadêmica, foi implementada utilizando-se a árvore acima descrita, os resultados observados foram divididos em três tópicos principais: (i) classificar os matemáticos (ranking) por meio de seus resultados, (ii) identificar grupos (clusters) que compartilhem caracterı́sticas ou atributos semelhantes, e (iii) análise da distribuição das frequências observadas para intervalos pré-estabelecidos. 5.1. Classificação dos matemáticos As medidas utilizadas neste estudo representam diferentes aspectos das árvores analisadas. Métricas que utilizam apenas contagens, sem ponderação, para o cálculo de seus valores são de representatividade exclusivamente quantitativa e importantes para dimensionar a árvore derivada da linhagem de um vértice raiz. Dimensionar uma árvore utilizando apenas medidas baseadas em contagens, pode produzir classificações inconsistentes, visto que estamos atribuindo um valor numérico individual para um determinado vértice e, este valor, não é resultado apenas dos relacionamentos diretos do vértice em questão, mas também dos relacionamentos de seus descendentes. Para minimizar este tipo de inconsistência na classificação de vértices, medidas como f p e h, que no cálculo de seus resultados apresentam alguma ponderação, atribuem um maior grau de classificação para os relacionamentos diretos do vértice analisado, refletindo com maior assertividade o desempenho do próprio indivı́duo em questão e, consequentemente, sua qualidade em termos de orientação acadêmica. Para avaliar a densidade de uma árvore, ou seja, a proximidade existente entre os vértices que a compõem, utilizamos as medidas dm e mmc. A Tabela 1 apresenta os dez matemáticos melhores colocados em cada uma da métricas avaliadas. Em concordância com o objetivo das métricas utilizadas, observamos uma tendência de um indivı́duo que figura nas primeiras posições de um ranking de medida com base quantitativa (e.g., ranking f - Johann Bernoulli) figurar, também, no topo de outras medidas de mesma base (e.g., ranking f o - Johann Bernoulli). Por outro lado, as medidas ponderadas ou normalizadas (e.g., f p) apresentam matemáticos diferentes nas primeiras posições, sugerindo que o desempenho destes indivı́duos foi mais relevante em termos de contribuição direta com orientação acadêmica. Como exemplo da importância do trabalho realizado pelo matemático, consideremos o primeiro colocado no ranking h igual a 12, Heinz Hopf. Isso indica que este matemático orientou, no mı́nimo, 12 alunos que, por sua vez, orientaram, no mı́nimo, outros 12 alunos cada um. Um desempenho impressionante, não sendo possı́vel encontrar outro igual na linhagem de Bernoulli. Os resultados ligados à densidade das árvores (e.g., dm), para este conjunto de dados, apresentou uma alta correlação com a magnitude de sua árvore, ou seja, a densidade é diretamente proporcional ao tamanho da árvore em questão. A correta classificação dos matemáticos, identificando os indivı́duos mais relevantes quanto à realização e proliferação da atividade de orientação acadêmica, pode ser feita analisando as medidas calculadas de maneira individual. Conforme discutido anteriormente, cada grupo de métricas de avaliação reflete uma caracterı́stica importante a respeito da árvore de genealogia (i.e., quantidade e qualidade das relações e densidade da árvore), porém, considerando o conjunto das métricas pode-se identificar os indivı́duos mais prolı́ficos em forma de grupos (clusters) com caracterı́sticas similares. Tabela 1. Ranking dos matemáticos pertencentes à árvore genealógica de Bernoulli para cada métrica calculada. Fecundidade J. Bernoulli 81767 L. Euler 81578 J. Lagrange 78218 S. Poisson 78215 J. B. Fourier 45929 G. Dirichlet 45927 R. Lipschitz 43954 C. F. Klein 43953 C. L. F. Lindemann 32069 M. Chasles 31734 Profundidade J. Bernoulli 20 L. Euler 19 J. Lagrange 18 S. Poisson 17 J. B. Fourier 17 G. Dirichlet 16 R. Lipschitz 15 M. Chasles 15 J. Hennert 15 C. F. Klein 14 Distância média J. Bernoulli 11,90 L. Euler 10,91 J. Lagrange 9,95 S. Konig 9,57 J. Hennert 9,54 J. B. Fourier 9,43 S. Poisson 8,95 P. Nieuwland 8,70 C. Damen 8,61 A. Brugmans 8,59 Fecundidade ponderada C. F. Klein 1326,63 S. Poisson 1099,42 D. Hilbert 1093,95 C. L. F. Lindemann 1082,23 R.Lipschitz 901,72 J. Lagrange 868,36 G. Dirichlet 754,42 L. Euler 751,92 E. H. Moore 710,70 M.Chasles 633,01 Largura C. C. J. Kuo 120 R. Temam 111 L. Ornstein 95 W. Jager 91 L. Prandtl 88 A. Kolmogorov 82 R. Eden 80 C. Ehresmann 78 B. De Moor 77 E. Krause 76 Média menores caminhos A. V. Perez 0,5 R. Mazet 0,5 R. Oldenburger 0,5 G. Glaeser 0,5 W. Krolikowski 0,5 A. Chaudoir 0,5 F. Pfeiffer 0,5 U. N. de Alba 0,5 J. L. Chaboche 0,5 A. Vacroux 0,5 Número de folhas J. Bernoulli 65977 L. Euler 65843 J. Lagrange 63216 S. Poisson 63215 J. B. Fourier 37713 G. Dirichlet 37712 C. F. Klein 36135 R. Lipschitz 36135 C. L. F. Lindemann 26415 M. Chasles 25302 Maior largura J. Bernoulli 20242 L. Euler 20226 J. Lagrange 19361 S. Poisson 19361 C. F. Klein 11878 R. Lipschitz 11878 G. Dirichlet 11515 J. B. Fourier 11515 C. L. F. Lindemann 9911 M. Chasles 8401 Índice h H. Hopf 12 E. Schmidt 11 H. Behnke 11 R. Baer 11 C. F. Klein 10 R. L. Moore 10 S. Bochner 10 H. Kneser 10 A. Kolmogorov 10 J. L. Lions 10 5.2. Identificação de grupos similares A identificação dos matemáticos mais relevantes em cada medida apresentada não permite uma avaliação global, com a utilização das medidas em conjunto. Para realizar essa classificação as dimensões obtidas, ou seja, as nove métricas, foram reduzidas para apenas duas dimensões por meio da análise de componentes principais (PCA). O método PCA consiste da utilização de combinações lineares dos dados originais com o objetivo de reduzir suas dimensões para obter formas representativas destes dados. A PCA é considerada uma ‘transformação linear ótima’ e apresenta-se como uma ferramenta muito útil para os processos ligados a reconhecimento de padrões. A Figura 3a apresenta o gráfico com os matemáticos diagramados nas duas dimensões ou componentes principais obtidas. Ambas componentes concentram cerca de 82% da variância total. Podemos identificar três grupos distintos (A, B e C). O grupo A reúne somente 4 indivı́duos com destaque evidente, Simeon Poisson, Leonhard Euler, Johann Bernoulli e Joseph Lagrange nesta ordem. Trata-se de um grupo de elite, matemáticos com relevância histórica, que apresentam, em suas biografias, diversas contribuições na evolução da matemática (Chang, 2011). Figura 3. Análise de componentes principais: (a) conjunto de dados representados nas duas primeiras componentes principais. (b) orientação das variáveis (métricas) consideradas. No grupo B, podemos observar a presença de 7 matemáticos importantes (C. Felix Klein, Rudolf Lipschitz, Gustav Dirichlet, Jean-Baptiste Fourier, C. L. Ferdinand Lindemann, David Hilbert e Michel Chasles) porém com relevância inferior aos anteriores. O último grupo reúne o restante dos indivı́duos analisados, podendo ainda serem diferenciados entre si. A Figura 3b apresenta a orientação obtida para as métricas analisadas. As métricas f , nf e ml são, praticamente, de mesma orientação. Já a métrica f p apresenta uma orientação diferenciada das anteriores. Medidas com orientações muito semelhantes indicam que a informação fornecida por elas também é semelhante ou até redundante. Há uma forte correlação, também, nas métricas p e dm que apresentam uma tendência próxima às métricas l e h, que também se correlacionam bem. Por fim, a mmc mostra-se com uma orientação oposta às últimas citadas, isso se deve pelas próprias caracterı́sticas da medida. Aqui é importante notar que, com a utilização do método PCA, é possı́vel diferenciar a maioria dos vértices da árvore genealógica. 5.3. Distribuição das frequências Os resultados das métricas calculadas, para a árvore genealógica de Bernoulli, foram divididos em dez intervalos, onde cada um deles representa 10% do intervalo completo, e realizado uma contagem para identificar a frequência de valores obtidos para cada um deles. A Figura 4 apresenta os gráficos dos intervalos e suas respectivas frequências para as métricas utilizadas. Para todos os casos, observamos que os valores de métricas que estão entre os 10% menores resultados, concentram a grande maioria das ocorrências, confirmando, para o conjunto de dados analisados, o princı́pio de Pareto ou Lei da Potência (Malmgren et al., 2010). Na Figura 4a, observamos que existem poucos matemáticos com valores de f compreendidos na faixa de 90% do intervalo considerado. Este tipo de representação é devido à estrutura que as árvores apresentam (a propagação dos vértices) à medida que descemos &ĞĐƵŶĚŝĚĂĚĞƉŽŶĚĞƌĂĚĂ ϲϮ͕ϳ ϰϵ͕ϱ ϰϮ͕ϵ ϯϲ͕ϯ Ϯϵ͕ϳ ϱϲ͕ϭ ϭϳ͕Ϯ ϭϵ͕Ϯ ϭϬ͕Ϯ ϭϭ͕ϰ ϭϱ͕Ϯ ϭϯ͕Ϯ ϭϭ͕ϭ ϵ͕ϭ 1ŶĚŝĐĞŚ ϵ͕Ϭ ϳ͕ϴ ϲ͕ϲ ϱ͕ϰ ϰ͕Ϯ ϯ͕Ϭ ϭ͕ϴ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ Ϭ͕ϲ Ϭ͕ϰϴ Ϭ͕ϰϯ &ƌĞƋƵġŶĐŝĂ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ Ϭ͕ϯϴ Ϭ͕ϯϯ Ϭ͕Ϯϴ Ϭ͕Ϯϯ Ϭ͕ϭϴ Ϭ͕ϭϯ Ϭ͕Ϭϴ Ϭ͕Ϭϯ &ƌĞƋƵġŶĐŝĂ ϭϭ͕ϯ ϭϬ͕ϭ ϴ͕ϵ ϳ͕ϳ ϲ͕ϱ ϱ͕ϰ ;ĨͿ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ ;ŚͿ ϳ͕ϭ ϱ͕ϭ ϯ͕Ϭ ϭ͕Ϭ ϭϭϰ͕Ϭ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵŵŝůŚĂƌĞƐͿ DĠĚŝĂŵĞŶŽƌĞƐĐĂŵŝŶŚŽƐ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ Ϯϯ͕ϭ ϵ͕ϵ ϯ͕ϯ ϭϲ͕ϱ &ƌĞƋƵġŶĐŝĂ ϭϮ͕ϲ ϵ͕ϵ ϴ͕ϲ ϳ͕ϯ ϲ͕Ϭ ϭϭ͕ϯ ϭϬϮ͕Ϭ ϵϬ͕Ϭ ϳϴ͕Ϭ ϲϲ͕Ϭ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ ŝƐƚąŶĐŝĂŵĠĚŝĂ ϰ͕Ϯ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ ;ĞͿ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ ϯ͕Ϭ ϱϰ͕Ϭ &ƌĞƋƵġŶĐŝĂ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ ϰϮ͕Ϭ ϯϬ͕Ϭ ϲ͕Ϭ ϭϴ͕Ϭ &ƌĞƋƵġŶĐŝĂ ϭϵ͕Ϭ ϭϳ͕Ϭ ϭϱ͕Ϭ ϭϯ͕Ϭ ϭϭ͕Ϭ ϵ͕Ϭ ϳ͕Ϭ ϱ͕Ϭ ϯ͕Ϭ ϭ͕Ϭ DĂŝŽƌůĂƌŐƵƌĂ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ ;ĚͿ ϭ͕ϴ ;ĐͿ >ĂƌŐƵƌĂ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ Ϭ͕ϲ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵŵŝůŚĂƌĞƐͿ ;ďͿ WƌŽĨƵŶĚŝĚĂĚĞ &ƌĞƋƵġŶĐŝĂ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵĐĞŶƚĞŶĂƐͿ ;ĂͿ &ƌĞƋƵġŶĐŝĂ ϰ͕ϲ ϯ͕ϯ Ϭ͕ϳ Ϯ͕Ϭ &ƌĞƋƵġŶĐŝĂ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵŵŝůŚĂƌĞƐͿ ;ŐͿ YƵĂŶƚŝĚĂĚĞĚĞĨŽůŚĂƐ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ ϳϳ͕ϳ ϲϵ͕ϱ ϲϭ͕ϯ ϱϯ͕ϭ ϰϱ͕Ϭ ϯϲ͕ϴ Ϯϴ͕ϲ ϮϬ͕ϰ ϰ͕ϭ ϭϮ͕ϯ &ƌĞƋƵġŶĐŝĂ &ĞĐƵŶĚŝĚĂĚĞ ϭϬϬ͘ϬϬϬ ϭϬ͘ϬϬϬ ϭ͘ϬϬϬ ϭϬϬ ϭϬ ϭ DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ ;ŝͿ Figura 4. Distribuição das frequências observadas para cada intervalo de valores das métricas. O eixo das frequências é apresentado em escala logarı́tmica. aos nı́veis inferiores da árvore, identificamos um crescimento geométrico, resultando em uma quantidade de vértices maior nos nı́veis inferiores e pequenas quantidades no topo da árvore. Podemos verificar que esta mesma configuração é repetida nos gráficos apresentados nas Figuras 4c e 4f, estas métricas são, predominantemente, resultado de contagens sem a aplicação de nenhum método de normalização ou ponderação. Quando utilizamos métricas que são ponderadas, as distribuições mantém as caracterı́sticas das estruturas das árvores, porém, com uma maior uniformidade na distribuição das frequências dos intervalos. As métricas que apresentam essa uniformidade são representadas nos gráficos das Figuras 4b, 4d, 4e, 4g e 4i. Finalmente, a métrica mmc, Figura 4h, apresenta um padrão mais linear, quando comparado às métricas anteriores, com exceção feita aos 10% menores valores que apresentam conformidade com as demais métricas. 6. Conclusões A caracterização de redes sociais, especificamente redes estruturadas em forma de árvores genealógicas, é uma importante forma de se obter conhecimento a respeito destas estruturas. Neste contexto, neste trabalho foi apresentada uma proposta de caracterização de árvores de genealogia considerando métricas de avaliação de grafos. A classificação dos indivı́duos e a identificação de grupos com caracterı́sticas comuns foram consideradas e podem contribuir para a compreensão de grupos inter-relacionados, sejam estas relações de orientação acadêmica ou outro tipo de relacionamento. Foi considerada a árvore de genealogia de J. Bernoulli como estudo de caso. Embora a linhagem de Bernoulli seja um conjunto de dados médio e não considerarmos atributos dos indivı́duos (e.g., paı́s de origem) nem de seus relacionamentos (e.g., ano da formação), os resultados aqui apresentados são relevantes e difı́ceis de serem obtidos apenas com a utilização de abordagens convencionais. Estes resultados correspondem a informações que até agora não foram tratadas por outras pesquisas. O projeto e aplicação de novas métricas, a consideração de atributos para os vértices e as arestas e o aprofundamento das análises sobre as estruturas obtidas podem enriquecer as análises e a descoberta de conhecimento. Nosso trabalho considera como direcionamentos futuros (i) aplicação do método em conjuntos de dados heterogéneos e de grande magnitude (e.g., CVs extraı́dos da Plataforma Lattes), (ii) utilização de diferentes atributos associados aos vértices e arestas, e (iii) identificação de subgrafos mais representativos nas árvores de genealogia (e.g., motifs (Milo et al., 2002)). Agradecimentos Os autores agradecem à Fundação UFABC e à CAPES pelo apoio financeiro concedido para a realização deste trabalho. Os autores agradecem também aos pareceristas anônimos pelas sugestões e comentários que contribuı́ram com o trabalho. Referências Bibliográficas S. C HANG (2011). Academic Genealogy of Mathematicians. World Scientific. S. V. DAVID & B. Y. H AYDEN (2012). Neurotree: A Collaborative, Graphical Database of the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608. B. D ERRIDA, S. C. M ANRUBIA & D. H. Z ANETTE (1999). Statistical Properties of Genealogical Trees. Physicca Review Letters. 82, 1987–1990. C. M. D. S. F REITAS, L. P. N EDEL, R. G ALANTE, L. C. L AMB, A. S. S PRITZER, S. F UJII, J. P. M. DE O LIVEIRA, R. M. A RAUJO & M. M. M ORO (2008). Extração de conhecimento e análise visual de redes sociais. SEMISH-SBC 106–120. R. C. G RIFFITHS (1987). Counting genealogical trees. Journal of mathematical biology 25(4), 423–431. K. H AMBERGER, M. H OUSEMAN & R.W. D OUGLAS (2011). Kinship network analysis. The Sage Handbook of Social Network Analysis 533–549. R.E. H ART & J.H. C OSSUTH (2013). A Family Tree of Tropical Meteorology’s Academic Community and its Proposed Expansion. Bulletin of the American Meteorological Society 94(12). J. H IRSCH (2005). An index to quantify an individual’s scientific research output. Proceedings of the National academy of Sciences of the United States of America 102(46), 16 569–16 572. A. JACKSON (2007). A labor of love: the mathematics genealogy project. Notices of the AMS 54(8), 1002–1003. R.D. M ALMGREN, J.M. OTTINO & L.A.N. A MARAL (2010). The role of mentorship in protégé performance. Nature 465(7298), 622–626. R. F. M ATHEUS, F. S. PARREIRAS & T. A. S. PARREIRAS (2006). Análise de redes sociais como metodologia de apoio para a discussão da interdisciplinaridade na ciência da informação. Ciência da Informação 35(1), 72–93. J.P. M ENA -C HALCO & R.M. C ESAR -J R . (2013). Bibliometria e Cientometria: reflexões teóricas e interfaces, chapter Prospecção de dados acadêmicos de currı́culos Lattes através de scriptLattes, 109–128. São Carlos: Pedro & João Editores. R. M ILO, S. S HEN -O RR, S. I TZKOVITZ, N. K ASHTAN, D. C HKLOVSKII & U. A LON (2002). Network motifs: simple building blocks of complex networks. Science 298(5594), 824–827. P. NARAYAN (2011). Mathematics Genealogy Networks. Master’s thesis, University of Oxford, United Kingdom. 96 C.2 APÊNDICE C SPGABC – Simpósio de Pesquisa do Grande ABC (2014) Aos ombros de gigantes: um estudo de genealogia acadêmica dos matemáticos no Brasil L. Rossi & J. P. Mena-Chalco UFABC, Centro de Matemática, Computação e Cognição e-mail: {luciano.rossi, jesus.mena}@ufabc.edu.br Palavras-chave: árvores de genealogia, orientação acadêmica, genealogia dos matemáticos, teoria dos grafos. 1. Introdução A busca da humanidade por suas origens é tema recorrente nos estudos contemporâneos de cunho genealógico. A genealogia é uma ciência auxiliar da história que estuda a origem, evolução e disseminação de grupos interconectados por algum tipo de relacionamento. Neste contexto, a genealogia acadêmica busca, por meio do estudo de acadêmicos e seus relacionamentos de orientação, a documentação e a caracterização de comunidades acadêmico-científicas [2]. A comunidade acadêmica dos doutores em matemática, titulados no Brasil, é objeto de estudo neste trabalho. Por meio da estruturação deste seleto grupo em árvores de genealogia foram analisadas questões referentes ao seu processo de formação, relevância e influência. 2. Objetivos O objetivo deste estudo de caso é caracterizar a comunidade acadêmica dos doutores em matemática titulados no Brasil, em particular: • Identificação das escolas/países mais influentes na formação da comunidade de matemáticos no Brasil; • Verificação da representatividade deste grupo em relação à comunidade internacional; • Classificação, através de métricas em grafos, dos matemáticos com base em seus relacionamentos de orientação; • Identificação das instituições acadêmicas brasileiras mais representativas. É importante destacar que este trabalho possibilita a documentação (registro histórico perene atualmente desconhecido) e um maior entendimento sobre a formação da comunidade dos matemáticos. 3. Material e método A base de dados utilizada neste estudo consiste dos registros disponíveis no “Mathematics Genealogy Project – (MGP)”. O MGP tem por objetivo manter registros de todos os doutores em matemática do mundo através de uma plataforma WEB. Por meio de processos computacionais, foram obtidos, em Abril de 2014, mais de 178.000 matemáticos e 187.000 relacionamentos de orientação acadêmica entre eles. Para este trabalho foi utilizado um subconjunto composto de todos os matemáticos com titulação em instituições brasileiras (1.615 matemáticos). A estruturação deste subgrupo de interesse foi realizada por meio de seus relacionamentos de orientação acadêmica, resultando em uma floresta (conjunto de árvores) de genealogia. Parte das análises estatísticas foram conduzidas considerando atributos disponíveis no MGP (i.e. país e ano de titulação) com o objetivo de descrever os dados obtidos. Para a classificação dos matemáticos foi utilizado seu respectivo número de descendentes (fecundidade), ou seja, todos os vértices possíveis de serem alcançados a partir do vértice analisado (raiz). 4. Resultados O grupo dos doutores em matemática, titulados no Brasil, corresponde a 0,90% da comunidade internacional (registrada na plataforma MGP) e, em valores absolutos, ocupa a 12ª posição em número de matemáticos titulados. A Tabela I apresenta as dez instituições com maior número de doutores formados . Pos Instituição Cont % 1º Univ. de São Paulo 428 26,50 2º Inst. Matemática Pura e Aplicada 303 18,76 3º Univ. Estadual de Campinas 292 18,08 4º Univ. Fed. do Rio de Janeiro 140 8,67 5º Pont. Univ. Católica do Rio Janeiro 95 5,88 6º Univ. Fed. de Pernambuco 67 4,15 7º Univ. de Brasília 65 4,02 8º Univ. Fed. do Rio Grande do Sul 45 2,79 9º Univ. Fed. de São Carlos 26 1,61 10º Univ. Fed. do Ceará 23 1,42 Tabela I. Instituições com maior formação de matemáticos no Brasil. O percentual refere-se ao total de 1.615 matemáticos. A floresta de genealogia matemática brasileira representa uma comunidade jovem, quando comparada às escolas tradicionais como a francesa e a alemã, que influenciaram a formação de toda a comunidade internacional e suas origens datam do século XIV. Além destas escolas, o Brasil apresenta, também, influência em sua formação das escolas britânica, belga e polonesa, conforme ilustrado na Fig. 1. A escola brasileira, ainda que jovem e com aparente não influência no cenário internacional, apresenta uma importante evolução em número de matemáticos titulados. Outro caso interessante é o de Paulo Ribenboim, formado na USP, representado na Fig. 3 pelo ponto colorido no canto inferior esquerdo da floresta. Trata-se de um matemático que não recebeu nem exerceu orientação acadêmica com indivíduos titulados no Brasil. Sua linhagem é formada por 48 descendentes canadenses. Fig. 1. Influência das principais escolas matemáticas na composição da comunidade internacional. Os anos 2000 apresentaram um taxa de crescimentos de 118% comparando com a década anterior, cujo crescimento foi por volta de 159%, em referência aos anos 1980. Os dados obtidos para os anos 2010 mostram que foram titulados 286 matemáticos até o presente momento, considerando que trata-se de um período ainda incompleto (falta de registro), há uma tendência de manutenção do crescimento observado. A Fig. 2 apresenta as curvas de evolução (anual e acumulada) do número de matemáticos titulados no Brasil. Pos Matemático Form. Atual 1º Marcelo Viana IMPA IMPA 2º Paulo Ribenboim USP Queen's Univ. 3º Gilberto Loibel USP USP 4º Luis Medeiros IMPA UFRJ 5º Edison Farah USP USP 6º Manuel M. Miranda UFRJ UFRJ 7º José Martinez UFRJ UNICAMP 8º Luiz Favaro USP USP 9º Newton Da Costa UFP USP 10º Maria Ruas USP USP Tabela II. Matemáticos mais relevantes e suas respectivas instituições, segundo a topologia de suas árvores de genealogia. Fig. 2. Número de registros observados entre 1950 até 2014. Fig. 3. Floresta de genealogia dos matemáticos do Brasil. A diferenciação dos matemáticos analisados, neste estudo de caso, foi realizada por meio da obtenção do número total de alunos, em todos os níveis, que o indivíduo possui (linhagem). As orientações consideradas não são limitadas somente ao grupo em questão, mas representam os relacionamentos dos matemáticos brasileiros com toda a comunidade internacional, consequentemente a classificação (ranking baseado apenas na fecundidade [1]), apresentada na Tabela II, considera o desempenho dos matemáticos de forma global, i.e., considerando a comunidade mundial dos matemáticos. A Universidade de São Paulo (USP) e o Instituto de Matemática Pura e Aplicada (IMPA) são as instituições com maior destaque, tanto em números absolutos de titulados quanto em matemáticos com importante desempenho em orientação acadêmica. Um destaque brasileiro em orientação acadêmica é o matemático Marcelo Viana do IMPA, que orientou 30 alunos no período de 1995 a 2014, e sua linhagem total (descendência) é de 49 matemáticos (dados de Abril de 2014). 5. Conclusões A importância da orientação acadêmica para a ampliação de comunidades científicas é inegável e contribui diretamente no crescimento dos indivíduos e seus respectivos grupos. Neste trabalho descrevemos a comunidade de matemáticos que se formaram em instituições brasileiras. Esta informação é um insumo muito importante para a documentação da história e a análise da trajetória da formação, relevância e influência de uma seleta área acadêmica do Brasil constituída aos ombros de gigantes. Referências [1] L. Rossi & J. P. Mena-Chalco (2014). Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos. BraSNAM, 1–12. Brasília, DF. [2] R.D.Malmgren, J.M.Ottino & L.A.N.Amaral (2010). The role of mentorship in protégé performance. Nature 465(7298), 622–626. BRASNAM – IV BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (2015) C.3 99 BRASNAM – IV Brazilian Workshop on Social Network Analysis and Mining (2015) Índice-h genealógico expandido: Uma medida de impacto em grafos de orientação acadêmica Luciano Rossi1 , Jesús P. Mena-Chalco1 1 Centro de Matemática, Computação e Cognição – Universidade Federal do ABC {luciano.rossi,jesus.mena}@ufabc.edu.br Abstract. Academic Genealogy is defined as the study of intellectual legacy perpetrated through the relationship between advisor and advisee. The set of these relationships over several generations is commonly represented by a social structure as a graph. In this paper, we present the definition of a new topological metric, called “extended genealogical h-index”, which can be used to evaluate the impact of an academic through their genealogical relationships. This metric is based on the h-index and expand its concept to measure the impact of an academic over different genealogical generations. For exemplification of our proposed concept, we present a case study considering a genealogy graph composed by more than 178,000 mathematicians registered in the Mathematics Genealogy Project. Resumo. A genealogia acadêmica é definida como o estudo da herança intelectual perpetrada por meio do relacionamento entre orientador e orientado. O conjunto deste tipo de relacionamentos, ao longo de várias gerações, é comumente abstraı́da por uma estrutura social que é representada por um grafo. Neste trabalho, apresentamos a definição de uma nova métrica, denominada “ı́ndice-h genealógico expandido”, que pode ser usada para avaliar o impacto de um acadêmico por meio de seus relacionamentos de orientação e tendo sua abrangência limitada somente pela topologia do grafo. Esta métrica baseia-se no ı́ndice-h bibliométrico e expande seu conceito para mensurar o impacto de um acadêmico ao longo de diferentes gerações. Para exemplificação da nova métrica, apresentamos um estudo de caso considerando um grafo de genealogia composto por mais de 178 mil doutores em matemática registrados no Mathematics Genealogy Project. 1. Introdução A genealogia acadêmica é definida como um estudo quantitativo da herança intelectual perpetrada por meio de relacionamentos de orientação entre estudantes e seus orientadores ao longo de diferentes gerações (Sugimoto, 2014). Os relacionamentos de orientação acadêmica promovem a propagação de conhecimento cientı́fico por meio da interação entre orientador, com diferentes desempenhos em orientação, e seus orientados, que são influenciados pelas caracterı́sticas de seus orientadores (Malmgren et al., 2010). Neste contexto, a genealogia acadêmica fornece meios para mensurar e analisar estas interações de forma quantitativa. Diferentes estudos foram publicados sobre genealogia acadêmica com o objetivo de caracterizar áreas do conhecimento especı́ficas, como a Neurociência (David & Hayden, 2012), a Quı́mica Orgânica (Andraos, 2005), a Matemática (Chang, 2011; Malmgren et al., 2010), a Fisiologia (Bennett & Lowe, 2005; Jackson, 2011), a Metereologia (Hart & Cossuth, 2013), entre outros. Há ainda, iniciativas para a captação e estruturação de dados genealógicos utilizando plataformas Web. O Mathematics Genealogy Project (http://genealogy.math.ndsu.nodak.edu) e o projeto Neurotree (http: //neurotree.org/neurotree) são pautados na obtenção de dados genealógicos das respectivas áreas e na interpretação das estruturas genealógicas obtidas, a comunidade cientı́fica dos Fı́sicos (http://academictree.org/physics) e, de forma mais especı́fica, para os acadêmicos titulados com doutorado (http://phdtree.org). Estes projetos são, inicialmente, orientados para a obtenção e documentação de seus membros, não oferecendo análises dos conjuntos de dados. Porém, estes registros contribuem para a documentação histórica das comunidades acadêmicas e resulta em campo fértil para estudos futuros relacionados à influência ou impacto que tiveram acadêmicos desde o ponto de vista da formação de recursos humanos. Segundo Sugimoto (2014), os estudos de genealogia acadêmica são principalmente utilizados no ambiente acadêmico por pesquisadores interessados em traçarem suas próprias raı́zes. Entretanto, estes estudos são pouco explorados por aqueles que estudam a ciência a partir de perspectivas históricas, filosóficas, sociológicas e cientı́ficas. A real importância da genealogia acadêmica deve-se ao fato de oferecer insumos quantitativos e qualitativos para mensurar as interações, em diferentes dimensões, dos orientadores e seus orientados/supervisados. Adicionalmente, este tipo de estudos permite analisar a ciência desde um ponto de vista de transferência de conhecimento cientı́fico entre diferentes gerações, assim como, seu impacto ou influência desta transferência. Como apresentado no trabalho de Rossi & Mena-Chalco (2014), as estruturas de genealogia acadêmica podem ser analisadas por meio de métricas topológicas, que representam diferentes atributos destas estruturas e fornecem informações relevantes a respeito da formação da comunidade acadêmica bem como a identificação dos principais indivı́duos que contribuı́ram para o desenvolvimento da área por meio dos relacionamentos de orientação. Dentre as diversas métricas utilizadas para a caracterização de estruturas de genealogia, o ı́ndice-h genealógico é uma medida com forte intuição semântica que fornece informações sobre a abrangência dos relacionamentos de orientação. Este trabalho apresenta uma nova métrica topológica denominada ı́ndice-h genealógico expandido, que pode ser considerado para identificar o impacto ou influência de acadêmicos em suas respectivas comunidades, considerando a amplitude de seus relacionamentos de orientação (número de orientados diretos) e expandindo a abrangência (ordem) da métrica a todas as gerações possı́veis de serem identificadas (i.e., produtividade dos descendentes em termos de orientação). No nosso entendimento, esta abordagem é original e formaliza a adaptação do ı́ndice-h, originalmente concebida na área de Bibliometria para avaliação de citações bibliográficas, para analisar relações de orientação acadêmica. Esta medida abre uma nova perspectiva para estudar, de forma quantitativa, o grau de impacto ou influência de acadêmicos priorizando a formação de recursos humanos ao invés de considerar somente sua relevância na produção de ciência em termos de artigos acadêmicos ou participação em grandes projetos de pesquisa. 2. Grafos de genealogia acadêmica A utilização de representações gráficas para estruturar os indivı́duos que têm algum tipo de conexão facilita o estudo genealógico. A estrutura geralmente utilizada é denominada árvore de genealogia1 . Neste trabalho é utilizado o termo grafo de genealogia acadêmica para nomear as estruturas de genealogia, sendo categorizado como grafo dirigido acı́clico conexo. ~ é um par (V, E), onde V é um conjunto finito Formalmente, um grafo dirigido G de vértices e E, as arestas, é uma relação binária ordenada em V . Para este trabalho, os acadêmicos e seus relacionamentos de orientação são estruturados na forma de grafo de genealogia acadêmica. Os vértices (V ) representam os indivı́duos (acadêmicos) e as arestas direcionadas (E) representam seus relacionamentos de supervisão ou orientação. Neste trabalho, dado um acadêmico deseja-se analisar toda sua descendência. Assim, um conceito que naturalmente aparece é o do caminho existente entre o acadêmico e toda sua descendência. Formalmente, um caminho de comprimento k (C (k) ) de um ~ é uma sequência vértice origem u a um vértice destino u0 em um grafo dirigido G 0 (v0 , v1 , v2 , . . . , vk ) de vértices tais que u = v0 , u = vk e (vi−1 , vi ) para i = 1, 2, 3, . . . , k. Em um grafo dirigido, um caminho (v0 , v1 , v2 , . . . , vk ) forma um ciclo se v0 = vk e o caminho contém no mı́nimo uma aresta. Um grafo que não possui ciclos é acı́clico. Adi~ é conexo se existe, no mı́nimo, um caminho ligando cionalmente, um grafo dirigido G todos os vértices deste grafo. 3. Índice-h genealógico expandido Na área de Bibliometria/Cientometria, o ı́ndice-h é uma medida de desempenho proposta por Hirsch (2005) que classifica pesquisadores em função do número de suas publicações e citações correspondentes. Apesar de existirem diferentes questionamentos quanto a eficiência do ı́ndice-h (Yong, 2014), esta medida é amplamente utilizada no meio acadêmico devido à sua caracterı́stica de combinar quantidade (número de publicações) e qualidade relativa (número de citações) da produção acadêmica. Intuitivamente, o ı́ndiceh é definido como o maior número h de publicações que possuem, no mı́nimo, o mesmo número h de citações cada uma. A adaptação do ı́ndice-h, com o objetivo de caracterizar grafos de genealogia acadêmica foi inicialmente desenvolvido por Rossi & Mena-Chalco (2014), entretanto não foi formalizada sua definição. Este ı́ndice-h genealógioco permite o estudo de acadêmicos orientadores em função do seu desempenho em formação de recursos humanos. No contexto dos grafos de genealogia acadêmica, a descendência de um vértice é comumente chamada de território do vértice e é definida por: T (v) = {u ∈ V : ∃(v, u) − caminho em G}. (1) ~ e um vértice de interesse v ∈ V , a Por outro lado, dado um grafo de genealogia G ~ pode ser definida por: descendência direta do vértice v em G D(v) = {u ∈ V : (v, u) ∈ E}, (2) l(v) = |D(v)|. (3) e a largura, l(v), é dada por: 1 A rigor, as estruturas construı́das a partir de dados de genealogia acadêmica não podem ser categorizadas como árvores, pois pode existir mais de um caminho entre dois vértices no grafo. Figura 1. Grafos de genealogia que representam suas diferentes topologias em função do ı́ndice-h genealógico. Esta medida representa o número de vértices adjacentes (vizinhos) a um vértice de interesse2 . O ı́ndice-h genealógico, de ordem 1, de um vértice é definido como o maior número h de conexões existentes entre ele e seus vértices adjacentes (orientados diretos) que possuem, pelo menos, o mesmo número h de conexões cada um, ou seja, dado ~ um vértice de interesse v ∈ V é k-fértil se l(v) ≥ k. Assim, a um grafo de genealogia G, descendência direta k-fértil de um vértice u ∈ V é o conjunto: D(k) (u) = {v ∈ D(u) : l(v) ≥ k}, (4) l(k) (u) = |D(k) (u)|. (5) e a largura k-fértil de u é: Neste contexto, o ı́ndice-h genealógico, de ordem 1, de um vértice u é definido por: h(u) = max{k ∈ N : l(u), l(k) (u) ≥ k}. (6) Contextualizando o valor do ı́ndice-h genealógico para a caracterização de grafos ~ para o qual de genealogia acadêmica, pode-se dizer que um vértice de interesse v ∈ G observa-se h(v) = x, com x = (1, 2, 3, . . . , n), os grafos de genealogia, obtidos a partir do vértice v, possuem, no mı́nimo, um sub-grafo unário completo (para x = 1), um subgrafo binário completo (para x = 2), um sub-grafo ternário completo (para x = 3) e assim sucessivamente, todos com 2 nı́veis de profundidade, conforme representado nas Figuras 1(a), 1(b) e 1(c), respectivamente. Intuitivamente, o ı́ndice-h genealógico define uma progressão geométrica de razão q = h(v) com 3 termos, onde o primeiro termo representa o vértice de interesse, os demais indicam o número de vértices encontrados em cada nı́vel. O ı́ndice-h genealógico ~ captura o impacto que um vértice de interesse v exerce sobre o grafo de genealogia G com abrangência de até dois P2 nı́veis. iDessa forma, o total de vértices pertencentes ao subgrafo n-ário completo é i=0 [h(v)] , onde d é um fator de expansão da métrica e indica o número de nı́veis (d + 1) considerados. Claramente, o valor obtido para h(v) representa uma cota inferior, visto que existe, no mı́nimo, um sub-grafo n-ário completo e não existe um sub-grafo (n+1)-ário completo para abrangência até o segundo nı́vel do grafo, considerando o território de v. 2 A largura é uma medida usada para classificar um vértice com base em sua capacidade de conexão. É importante notar que, a co-orientação é uma atividade comum no contexto acadêmico (um aluno pode ser orientado por mais do que um acadêmico). Assim, para os casos onde se observa um vértice com grau de entrada3 maior que 1, segundo a métrica apresentada, este vértice será considerado (contabilizado) para todos os adjacentes no nı́vel anterior. O ı́ndice-h genealógico apresenta-se como uma medida interessante para a identificação do impacto de um orientador sobre a comunidade acadêmica, em termos de relacionamentos de orientação, porém há uma limitação na ordem desta métrica, ficando a análise restrita aos dois primeiros nı́veis do seu território no grafo de genealogia acadêmica. Para aumentar a abrangência na análise, se faz necessário recalcular a medida substituindo o parâmetro de entrada largura pelos valores de ı́ndice-h obtidos. Trata-se de um processamento recursivo. Para um vértice v suponha h(v) = 2, conforme discutido anteriormente, o grafo proveniente de v possui, no mı́nimo, um sub-grafo binário completo de dois nı́veis. Caso pelo menos dois dos vértices adjacentes a v apresentem o mesmo valor (i.e., h = 2) podemos concluir que existe, no mı́nimo, um sub-grafo binário completo com três nı́veis de profundidade a partir do vértice v. ~ Dado um grafo de genealogia G(V, E) e um vértice de interesse v ∈ V , o conjunto A dos ı́ndices-h dos vértices u adjacentes a v com h(u) ≥ k é: A(k) (v) = {h(u) : (v, u) ∈ E, h(u) ≥ k}. (7) Com essa definição, o número de vértices adjacentes a v com ı́ndice-h maior ou igual a k é |A(k) (v)|. O ı́ndice-h genealógico pode ser definido de forma recursiva para considerar mais do que dois nı́veis, i.e., para analisar o impacto de um acadêmico, considerando diferentes ordens: h(d) (v) = max{k ∈ N : h(d−1) (v), |A(k) (v)| ≥ k}. (8) onde d é a ordem a ser considerada na análise, para d ≥ 1. No caso d = 0, considerase h(0) = l, i.e. o número de descendentes diretos. Note que a definição do ı́ndice-h genealógico apresentada na Equação 6 corresponde a ordem 1 (i.e., h(1) ). O ı́ndice-h genealógico expandido pode ser utilizado para análises de impacto com ordem limitada somente pela topologia do grafo de genealogia, ou seja, é possı́vel se aprofundar no cálculo da métrica até o último nı́vel do grafo. Para ilustrar a proposta, na Figura 2 apresentamos três resultados do cálculo do ı́ndice-h expandido para um mesmo grafo de genealogia de profundidade igual a quatro. O cálculo da métrica foi realizado considerando o limite topológico do grafo. No primeiro grafo, os vértices estão rotulados com os respectivos ı́ndices-h de ordem 1. O vértice da raiz do grafo (vértice de interesse) apresenta h(1) = 4, conforme discutido anteriormente o território deste vértice contém no mı́nimo um sub-grafo quaternário completo com 2 nı́veis de abrangência a partir do vértice de interesse (destacado na figura). No contexto deste trabalho, um grafo quaternário completo é aquele em que 3 O grau de entrada é o número de arestas que incidem no vértice de interesse. Índice h(1) Índice h(2) Índice h(3) Figura 2. Exemplos de grafos de genealogia com seus vértices rotulados com os ı́ndices-h: h(1) , h(2) e h(3) . Os sub-grafos n-ários completos, identificados as ordens 1, 2 e 3, são destacadas na cor vermelha. seus vértices possuem grau de saı́da4 igual a 4, exceto os vértices pertencentes ao último nı́vel considerado. O segundo grafo tem seus vértices rotulados com o ı́ndice-h de ordem 2 e, para o vértice de interesse, seu valor é h(2) = 2. Isto significa que no território a partir do vértice de interesse, existe, pelo menos, um sub-grafo binário completo com 3 nı́veis de abrangência. É importante notar que pode-se encontrar outro exemplo de subgrafo binário completo válido no grafo em questão, porém não existe um outro sub-grafo ternário para este caso. Isto se deve ao fato de que h(d) é uma cota de limite inferior. Para o terceiro grafo disponı́vel na Figura 2, os ı́ndices-h apresentados nos vértices referem-se a ordem 3, que para o vértice de interesse tem valor h(3) = 2, o que sugere, no mı́nimo, um sub-grafo binário completo com 4 nı́veis de abrangência contido no grafo em questão. É importante frisar que, a recursão pode ser aplicada até que o último nı́vel do grafo seja igual a d + 1. Algoritmo para o cálculo do ı́ndice-h genealógico expandido Como apresentado na Equação 8, o ı́ndice-h de ordem d pode ser implementado com uma abordagem recursiva. O pseudocódigo apresentado a seguir foi projetado para calcular do ı́ndice-h genealógico expandido (IHE). O procedimento IHE recebe como entrada três ~ parâmetros: o grafo de genealogia G(V, E), um vértice de interesse (v) e a ordem (d). 4 O grau de saı́da é o número de arestas que incidem do (saem) vértice de interesse. ~ v, d) IHE(G, 1 2 3 4 5 for i ← 0 to d ~ v, i) IH(G, ~ for each u ∈ G.adj[v] ~ u, i) IHE(G, return v.hd ~ v, i) IH(G, 1 2 3 4 5 6 7 8 9 10 11 if i = 0 ~ v.hi ← |G.adj[v]| ~ for each u ∈ G.adj[v] ~ u.hi ← |G.adj[u]| c←0 while v.hi > 0 and v.hi > c ~ for each u ∈ G.adj[v] if v.hi 6 u.hi c←c+1 v.hi ← v.hi − 1 v.hi+1 ← v.hi No procedimento IHE, o laço da linha 1 é executado d vezes. Para cada execução o vértice de interesse v é considerado como parâmetro de entrada para o procedimento ~ e a ordem i que será calculada (linha 2). O procedimento IH, juntamente com o grafo G é repetido recursivamente para cada vértice adjacente de v. No procedimento IH verifica-se se o cálculo é referente a h(0) (linha 1) e, caso verdadeiro, é utilizado como elemento de comparação a largura do vértice de interesse e de seus adjacentes (linhas 2 – 4). Um laço (linha 6), em IH, será executado enquanto o valor do atributo em questão do vértice de interesse for maior que zero e maior que a contagem dos seus vértices adjacentes O laço aninhado (linha 7) é utilizado para comparar os atributos do vértice de interesse com todos os seus adjacentes, contabilizando o número de adjacentes que possuem seus atributos maior ou igual ao valor do atributo dos adjacentes (linhas 8 – 9). Caso o atributo do vértice de interesse seja menor ou igual ao total da contagem, o valor deste atributo é assumido para h(i+1) (linha 11). Caso contrário, o atributo é decrementado em uma unidade. 4. Conjunto de dados utilizado A aplicabilidade do ı́ndice-h genealógico expandido foi testada utilizando-se o conjunto dos doutores em matemática e seus relacionamentos de orientação acadêmica. Estes dados são livremente disponibilizados pelo projeto de genealogia dos matemáticos (Mathematic Genealogy Project – MGP, disponı́vel em: http://genealogy.math. ndsu.nodak.edu/). O MGP foi idealizado por Harry Coonce, um professor na North Dakota State University, no inı́cio da década de 1990 (Jackson, 2007). O projeto tem como objetivo compilar informações sobre todos os matemáticos do mundo, por meio do registro histórico, via Web, dos indı́viduos que obtiveram o tı́tulo de doutor em matemática (ou tı́tulo semelhante) e seus respectivos alunos/doutores com formação concluı́da. O site do MGP é apresentado como ferramenta para a captação e documentação de novos registros genealógicos deste seleto grupo de acadêmicos. As informações que são possı́veis de se obter, através do site do projeto, são listadas a seguir: O nome completo do matemático; A instituição e o paı́s onde foi obtida a titulação; O ano no qual o grau foi obtido; O tı́tulo da tese; O número de classificação da área de atuação (Mathematics Subject Classification5 ); • Seu(s) orientador(es) e orientado(s); • A quantidade total de descendentes. • • • • • Os registros do MGP são identificados por meio de um número exclusivo (id) para cada matemático. Os dados, que são objeto de estudo neste trabalho, foram obtidos por meio de consultas recursivas ao site do MGP (web crawling). Em Abril de 2014 foram obtidos 178.698 registros de matemáticos e identificados 187.199 relacionamentos de orientação acadêmica. Estes indivı́duos estão distribuı́dos em 185 paı́ses ou combinação destes (isso ocorre devido à declaração de dois paı́ses como local de titulação) e 2.671 instituições ou combinações destas. O grafo de genealogia, resultante da representação dos matemáticos como vértices e seus relacionamentos de orientação acadêmica como arestas direcionadas, possui 10.048 componentes conexas. A maior componente conexa contém aproximadamente 88,72% dos vértices totais (158.548 vértices), por outro lado, a segunda componente conexa, em relação ao número de vértices, apresenta apenas 0,08% dos vértices totais (141 vértices). As últimas 7.542 componentes conexas referem-se a vértices isolados, ou seja, não possuem ascendentes ou descendentes. Ao todo, em média cada vértice do grafo possue 2,094 vizinhos. 5. Estudo de caso O ı́ndice-h genealógico expandido foi aplicado ao conjunto de dados extraı́do do MGP. A classificação dos vértices do conjunto de dados foi realizada considerando as duas dimensões do h(d) . A primeira dimensão é o resultado da métrica que apresenta h(d) = n, para n = (0, 1, 2, 3, . . . ). Esta dimensão representa a amplitude do grafo n-ário completo, ou seja, o número de descendentes diretos para cada vértice do grafo, exceto os vértices do último nı́vel. A segunda dimensão considerada representa a ordem d, indicando os d + 1 nı́veis ou gerações a partir do vértice de interesse. O calculo do ı́ndice-h foi realizado até a ordem 10 (11 nı́veis), este limite foi escolhido pois, a partir da ordem 6 (d = 6) observase apenas grafos unários completos (caminhos), ou seja, o máximo resultado obtido para d > 6 é h(d) = 1. Vale ressaltar que, o maior caminho existente neste conjunto de dados é de 41. 5 Classificador alfanumérico formulado pela American Mathematical Society utilizado para categorizar temas da matemática, disponı́vel em: http://www.ams.org/msc/msc2010.html x 0 1 2 3 4 5 6 7 8 9 10 11 12 Tabela 1. Índices-h obtidos para o conjunto de dados dos matemáticos do MGP. Cada célula contém os resultados considerando h(d) = x, para x = 0, . . . , 12, e ordens d = 1, . . . , 10. As células em cinza correspondem à existência de acadêmicos com estas caracterı́sticas no conjunto de dados. h(1) h(2) h(3) h(4) h(5) h(6) h(7) h(8) h(9) h(10) 162.647 171.072 174.519 176.157 176.991 177.454 177.727 177.896 178.023 178.111 1 1 1 1 1 1 1 1 1 1 11.371 6.676 3.987 2.506 1.700 1.244 971 802 675 587 3 4 5 6 7 8 9 10 11 12 2.753 767 176 35 7 7 15 31 63 127 255 511 1.023 2.047 4.095 1.013 149 16 13 40 121 364 1.093 3.280 9.841 29.524 88.573 265.720 463 28 21 85 341 1.365 5.461 21.845 87.381 349.525 1, 4×106 5, 6×106 238 5 31 156 781 3.906 19.531 97.656 488.281 2, 4×106 1, 2×107 6, 1×107 94 1 43 259 1.555 9.331 55.987 335.923 2, 0×106 1, 2×107 7, 3×107 4, 4×108 45 57 400 2.801 19.608 137.257 960.800 6, 7×106 4, 7×107 3, 3×108 2, 3×109 31 73 585 4.681 37.449 299.593 2, 4×106 1, 9×107 1, 5×108 1, 2×109 9, 8×109 26 91 820 7.381 66.430 597.871 5, 4×106 4, 8×107 4, 4×108 3, 9×109 3, 5×1010 11 111 1.111 11.111 111.111 1, 1×106 1, 1×107 1, 1×108 1, 1×109 1, 1×1010 1, 1×1011 5 133 1.464 16.105 177.156 1, 9×106 2, 1×107 2, 4×108 2, 6×109 2, 9×1010 3, 1×1011 1 157 1.885 22.621 271.453 3, 2×106 3, 9×107 4, 7×108 5, 6×109 6, 8×1010 8, 1×1011 Na Tabela 1 é apresentada a classificação dos grafos de genealogia dos matemáticos em função de h(d) . As linhas estão associadas aos valores do h(d) . Já as colunas estão associadas à ordem d. Para cada célula, linha x, coluna d, é apresentado, na parte superior, o número total de acadêmicos com h(d) = x. Já na parte inferior da célula é apresentado, o número total de descendentes que um acadêmico teria se h(d) = x. Por exemplo, h(5) = 2 indica um grafo binário completo com 6 nı́veis de profundidade, este tipo de sub-árvore contém 127 vértices e existem, no conjunto de dados do MGP, 7 acadêmicos com estas caracterı́sticas. A identificação dos acadêmicos mais representativos em função de sua capacidade de propagação pode ser feita buscando-se os maiores ordens d e, simultâneamente, os maiores valores de x. Para este conjunto de dados, um sub-grafo de genealogia representativo é originado a partir do vértice que representa o matemático alemão Heinz Hopf (seus valores são destacados em negrito na tabela), que tem h(2) = 6 e é o único sub-grafo com estas dimensões, sendo que há 259 vértices neste sub-grafo hexanário completo. Na Figura 3 ilustra-se o sub-grafo de genealogia, originado a partir de Heinz Hopf, identificado pelo maior ı́ndice-h genealógico expandido para a ordem 2. Pode-se verificar que existem seis descendentes diretos de Hopf onde cada um deles possuem, também, seis Figura 3. Grafo de genealogia de Heinz Hopf, identificado pelo ı́ndice-h genealógico expandido com 3 gerações de abrangência (ordem 2) e h(2) = 6. Para cada matemático destacado é apresentado seu nome, o ano de titulação, o paı́s de origem e seu respectivo vetor de ı́ndices-h para as 10 primeiras gerações. descendentes com o mesmo grau de produtividade em termos de orientação acadêmica. Trata-se de indivı́duos com desempenho similar em orientação acadêmica, considerando a descendência direta de cada um. A relevância da atividade de orientação acadêmica de Heinz Hopf pode ser verificada por meio do seu vetor de ı́ndices-h para outras ordens h(d) = [12, 6, 3, 2, 1, 1, 1], para d variando de 1 a 7. É importante notar que a comparação entre diferentes indivı́duos é efetiva somente quando se utiliza a mesma ordem d para comparação ou o vetor completo aplicando algum método de classificação estatı́stica. Apesar de Hopf ser o único matemático com h(1) = 12 e h(2) = 6 existem 16 indivı́duos com h(3) = 3. Para h(4) = 2 são 35 no total. A fim de estudarmos o grupo dos matemáticos sob a perspectiva do ı́ndice-h e do número de gerações posteriores ao matemático em questão (profundidade – maior caminho existente entre o vértice de interesse e outro sem descendente), na Figura 4(a), apresentamos as distribuições correspondentes ı́ndice-h de ordem 1. Para os resultados de h(1) variando de 1 a 12, observa-se que as medianas tendem a ser uniformes, indicando que o número de gerações posteriores para a maior parte dos matemáticos que apresentam valores de h(1) no intervalo especificado é em torno de 29. A dispersão nas distribuições diminui à medida que os resultados de h(1) aumentam. Um grupo de matemáticos com especial desempenho pode ser encontrado por meio da identificação dos outlier’s. Considerando que o número de gerações posteriores indica o quão remoto é o matemático, pode-se utilizar este parâmetro como complemento para identificação de desempenho. Analisando, por exemplo, a distribuição do número de gerações posteriores dos matemáticos com h(1) = 10 identifica-se um único indivı́duo 40 100 ● 80 ● ● 40 ● ● 1 2 ● ● ● ● ● ● ● ● ● ● ● ● 3 4 5 ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 3 4 ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0 10 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 60 grau de saída ● 20 profundidade 30 ● ● ● ● ● 6 7 8 9 10 11 12 5 6 7 h−index(1) h−index(1) (a) (b) 8 9 10 11 12 Figura 4. Distribuição dos ı́ndices-h sob a perspectiva: (a) da profundidade dos vértices (número de gerações posteriores), (b) do grau de saı́da dos vértices (número de orientados diretos). (outlier) com este resultado apresentando somente 7 gerações posteriores, enquanto seus pares apresentam de 24 a 31 gerações, sendo potencialmente indivı́duos mais antigos. Por outro lado, na Figura 4(b) apresentamos as distribuições dos valores de grau de entrada para os matemáticos com o mesmo resultado de h(1) . Existe um comportamento crescente, do grau de entrada, para os valores de 1 a 7. Este comportamento não é observado para valores maiores a 8. É importante destacar que, um comportamento semelhante é obtido para os ı́ndices-h com maiores ordens, i.e., para d = 2, 3, 4, 5, 6. 6. Conclusões e direcionamentos futuros A genealogia acadêmica apresenta-se como uma importante opção à análise de publicações e citações, que atualmente é responsável por tudo que se sabe sobre o surgimento e desenvolvimento das disciplinas, a difusão do conhecimento e a evolução da ciência. O ı́ndice-h genealógico expandido, apresentado neste trabalho, utiliza o número de orientações para classificar um indivı́duo e possibilita uma expansão do número de nı́veis (gerações) considerados. O desenvolvimento de métricas topológicas, como o ı́ndice-h genealógico expandido, e sua aplicação em grafos de genealogia acadêmica pode ser considerado como um meio efetivo de se mensurar e analisar a influência de orientadores acadêmicos em suas respectivas comunidades ao longo de diferentes gerações. A estruturação de conjuntos de dados genealógicos mais heterogêneos, como os currı́culos disponı́veis na Plataforma Lattes (Mena-Chalco et al., 2014), em grafos de genealogia e a utilização de métricas topológicas para sua caracterização, pode resultar em importantes informações a respeito da formação, expansão e abrangência da comunidade acadêmico-cientı́fica do Brasil. Além de possibilitar analises sobre a interdisciplinaridade entre acadêmicos em grafos de genealogia. Neste contexto, como trabalhos futuros pretendemos analisar os registros curriculares do banco de dados da plataforma Lattes e fazer seu mapeamento com o intuito de estudar a interdisciplinaridade na formação de recursos humanos (Rafols & Meyer, 2010). Finalmente, é importante frisar que, este trabalho está alinhado com a epistemologia da análise de grande volume de dados (Big Data), sob a forma de ciência orientada a dados, e a questões referentes a possibilidade de descoberta, ou avaliação, de teorias cientı́ficas universais, ferramentas instrumentistas, ou inferências indutivas como relatado por Frické (2014). Agradecimentos Os autores agradecem ao CNPq e à CAPES pelo apoio financeiro concedido para a realização deste trabalho. Referências Bibliográficas J. A NDRAOS (2005). Scientific genealogies of physical and mechanistic organic chemists. Canadian journal of chemistry 83(9), 1400–1414. A. F. B ENNETT & C. L OWE (2005). The academic genealogy of George A. Bartholomew. Integrative and comparative biology 45(2), 231–233. S. C HANG (2011). Academic Genealogy of Mathematicians. World Scientific. S. V. DAVID & B. Y. H AYDEN (2012). Neurotree: A Collaborative, Graphical Database of the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608. M. F RICK É (2014). Big data and its epistemology. Journal of the Association for Information Science and Technology . R. E. H ART & J. H. C OSSUTH (2013). A Family Tree of Tropical Meteorology’s Academic Community and its Proposed Expansion. Bulletin of the American Meteorological Society 94(12), 1837–1848. J. H IRSCH (2005). An index to quantify an individual’s scientific research output. Proceedings of the National academy of Sciences of the United States of America 102(46), 16 569–16 572. A. JACKSON (2007). A labor of love: the mathematics genealogy project. Notices of the AMS 54(8), 1002–1003. D. C. JACKSON (2011). Academic genealogy and direct calorimetry: a personal account. Advances in physiology education 35(2), 120–127. R.D. M ALMGREN, J.M. OTTINO & L.A.N. A MARAL (2010). The role of mentorship in protégé performance. Nature 465(7298), 622–626. J. P. M ENA -C HALCO, L. A. D IGIAMPIETRI, F. M. L OPES & R. M. C ESAR -J R . (2014). Brazilian bibliometric coauthorship networks. Journal of the Association for Information Science and Technology 65(7), 1424–1445. I. R AFOLS & M. M EYER (2010). Diversity and network coherence as indicators of interdisciplinarity: case studies in bionanoscience. Scientometrics 82(2), 263–287. L. ROSSI & J. P. M ENA -C HALCO (2014). Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), 1–12. Brası́lia, DF, Brazil. C. R. S UGIMOTO (2014). Academic Genealogy. In Beyond bibliometrics: Harnessing multidimensional indicators of scholarly impact, B. C RONIN & C. R. S UGIMOTO, editors, 365–382. MIT Press, 1st edition. A. YONG (2014). Critique of Hirsch’s Citation Index: A Combinatorial Fermi Problem. Notices of the American Mathematical Society 61(9), 1040–1050. 112 APÊNDICE C C.4 CMAC – Congresso de Matemática Aplicada e Computacional (2015) Proceeding Series of the Brazilian Society of Computational and Applied Mathematics O grafo de genealogia dos matemáticos: coleta de dados e principais caracterı́sticas Luciano Rossi, Jesús Pascual Mena-Chalco1 Centro de Matemática, Computação e Cognição, UFABC, Santo André, SP Resumo. O estudo da genealogia acadêmica dos matemáticos apresenta-se como uma importante ferramenta para a obtenção de informações sobre a origem, o desenvolvimento e a identificação dos principais atores nesta seleta comunidade cientı́fico-acadêmica. Este trabalho apresenta as principais caracterı́sticas do conjunto de dados obtidos no Mathematics Genealogy Project estruturados em forma de grafo de genealogia. Palavras-chave. Genealogia acadêmica, grafo de genealogia, genealogia dos matemáticos. 1 Introdução Este resumo apresenta uma descrição dos dados disponı́veis no Mathematic Genealogy Project – MGP 2 , o objetivo do projeto é obter informações sobre todos os matemáticos do mundo, por meio do registro histórico, via Web, dos indı́viduos que obtiveram o tı́tulo de doutor em matemática e seus respectivos alunos/doutores com formação concluı́da [1]. Em Abril de 2014 foram obtidos 178.698 matemáticos e 187.199 relacionamentos de orientação acadêmica, estes indivı́duos estão distribuı́dos em 185 paı́ses e 2.671 instituições3 . O primeiro registro data de 1363, na França, e segue até os dias atuais, conforme ilustrado na Figura 1, onde é apresentada a evolução do número de Doutores em Matemática nos respectivos anos de obtenção do tı́tulo e em função de seus respectivos paı́ses de titulação. Figura 1: Distribuição dos matemáticos ao longo dos anos e nos principais paı́ses. 2 Formação da comunidade cientı́fica dos matemáticos Os dados do MGP foram estruturados em forma de grafo de genealogia acadêmica, onde os vértices e arestas direcionadas representam os matemáticos e seus relacionamentos de orientação, respectivamente, de forma a possibilitar o estudo da formação desta 1 {luciano.rossi, jesus.mena}@ufabc.edu.br Disponı́vel em: http://genealogy.math.ndsu.nodak.edu/ 3 Veja os dados completos em: https://sites.google.com/site/lucianorossihomepage/ 2 2 comunidade [2]. A identificação dos vértices origem (matemáticos primordiais) e seus respectivos paı́ses de titulação, permite a análise da influência que estes paı́ses exerceram na formação desta comunidade. Na Figura 2 apresenta-se os 5 paı́ses com maior número de matemáticos titulados em suas instituições. As linhas vermelha e azul representam a influência do paı́s na formação da comunidade cientı́fica e a influência da comunidade cientı́fica na formação deste mesmo paı́s, respectivamente. A representação considera somente os 20 paı́ses ordenados em função do número de matemáticos que possuem. Os EUA são o maior paı́s em número de matemáticos, concentrando 45,53% do total e a França é o mais influente, onde 69,02% dos matemáticos possuem, no mı́nimo, um ancestral deste paı́s. O Brasil apresenta uma situação semelhante à dos EUA. Em número de titulações ocorridas em instituições brasileiras o Brasil é o 12o colocado não apresentando influência representativa em nenhum outro paı́s [3]. Figura 2: Análise de influência para os 5 paı́ses mais representativos. 3 Topologia do grafo O grafo de genealogia dos matemáticos possue 10.048 componentes conexas. A maior componente conexa interliga 88,72% dos vértices totais, sendo que a segunda componente conexa reúne somente 0,08%. Há 7.542 componentes que possuem um único vértice isolado e a vizinhança média dos vértices do grafo é de 2,094, onde a moda dos graus de entrada e saı́da são 1 e 0, respectivamente. O tamanho do maior caminho no grafo de genealogia é 41 com moda igual 20. Agradecimentos Os autores agradecem ao CNPq e à CAPES pelo apoio financeiro concedido para a realização deste trabalho. Referências [1] R.D. Malmgren, J.M. Ottino & L.A.N. Amaral (2010). The role of mentorship in protégé performance. Nature 465(7298), 622–626. [2] L. Rossi & J. P. Mena-Chalco (2014a). Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), 1–12. Brası́lia, DF, Brazil. [3] L Rossi & JP Mena-Chalco (2014b). Aos ombros de gigantes: um estudo de genealogia acadêmica dos matemáticos no Brasil. In Simpósio de Pesquisa do Grande ABC (SPGABC), 1–2. São Bernardo do Campo, SP, Brazil. Referências Bibliográficas J. Andraos (2005). Scientific genealogies of physical and mechanistic organic chemists. Canadian journal of chemistry 83(9), 1400–1414. 2, 59 Ziv Bar-Yossef & Li-Tal Mashiach (2008). Local approximation of pagerank and reverse pagerank. In Proceedings of the 17th ACM conference on Information and knowledge management, 279–288. ACM. 16, 27 A. F. Bennett & C. Lowe (2005). The academic genealogy of George A. Bartholomew. Integrative and comparative biology 45(2), 231–233. 2, 59 J. A. Bondy & U. S. R. Murty (1976). Graph theory with applications, volume 290. Macmillan London. 27 S. Chang (2011). Academic Genealogy of Mathematicians. World Scientific. 2, 34, 59 J. Cohen (1992). Statistical power analysis. Current directions in psychological science 1(3), 98–101. 44 S. V. David & B. Y. Hayden (2012). Neurotree: A Collaborative, Graphical Database of the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608. 2, 27, 43, 59 L. A. Digiampietri, J. P. Mena-Chalco, P. O. S. Vaz de Melo, A. P. R. Malheiro, D. N. O. Meira, L. F. Franco & L. B. Oliveira (2014). BraX-Ray: An X-Ray of the Brazilian Computer Science Graduate Programs. PLoS ONE 9(4), e94 541. 60 Chris HQ Ding, Xiaofeng He, Hongyuan Zha, Ming Gu & Horst D Simon (2001). A min-max cut algorithm for graph partitioning and data clustering. In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on, 107–114. IEEE. 17 C. M. D. S. Freitas, L. P. Nedel, R. Galante, L. C. Lamb, A. S. Spritzer, S. Fujii, J. P. M. de Oliveira, R. M. Araujo & M. M. Moro (2008). Extração de conhecimento e análise visual de redes sociais. SEMISH-SBC 106–120. 57 R. C. Griffiths (1987). Counting genealogical trees. Journal of mathematical biology 25(4), 423–431. 60 115 116 REFERÊNCIAS BIBLIOGRÁFICAS K. Hamberger, M. Houseman & R.W. Douglas (2011). Kinship network analysis. The Sage Handbook of Social Network Analysis 533–549. 60 R. E. Hart & J. H. Cossuth (2013). A Family Tree of Tropical Meteorology’s Academic Community and its Proposed Expansion. Bulletin of the American Meteorological Society 94(12), 1837–1848. 2, 59, 60 A. J. G. Hey, S. Tansley, K. M. Tolle et al. (2009). The fourth paradigm: data-intensive scientific discovery . 1, 6 J. Hirsch (2005). An index to quantify an individual’s scientific research output. Proceedings of the National academy of Sciences of the United States of America 102(46), 16 569–16 572. 14, 27 R. Hoffmann (1999). Componentes principais e análise fatorial. Série didática (90). 49 A. Jackson (2007). A labor of love: the mathematics genealogy project. Notices of the AMS 54(8), 1002–1003. 29, 58 D. C. Jackson (2011). Academic genealogy and direct calorimetry: a personal account. Advances in physiology education 35(2), 120–127. 2, 59 J. E. Jackson (2005). A user’s guide to principal components, volume 587. John Wiley & Sons. 49 R.D. Malmgren, J.M. Ottino & L.A.N. Amaral (2010). The role of mentorship in protégé performance. Nature 465(7298), 622–626. 2, 18, 58 K. Marton, K. Nagy & A. Suciu (2013). Collaborative genealogy tree in the cloud. In Roedunet International Conference (RoEduNet), 2013 11th, 1–5. IEEE. 6 R. F. Matheus, F. S. Parreiras & T. A. S. Parreiras (2006). Análise de redes sociais como metodologia de apoio para a discussão da interdisciplinaridade na ciência da informação. Ciência da Informação 35(1), 72–93. 57 J. P. Mena-Chalco, L. A. Digiampietri, F. M. Lopes & R. M. Cesar-Jr. (2014). Brazilian bibliometric co-authorship networks. Journal of the Association for Information Science and Technology 65(7), 1424–1445. 60 F. Fava de Moraes (2000). Universidade, inovação e impacto socioeconômico. São Paulo em Perspectiva 14(3), 8–11. 1 S. A. Myers, P. J. Mucha & M. A. Porter (2011). Mathematical genealogy and department prestige. Chaos-Woodbury 21(4), 041 104. 59 REFERÊNCIAS BIBLIOGRÁFICAS 117 P. Narayan (2011). Mathematics Genealogy Networks. Master’s thesis, University of Oxford, United Kingdom. 32, 58 J. M. M. Neto & G. C. Moita (1998). Uma introdução à análise exploratória de dados multivariados. Química Nova 21(4), 467–469. 18, 49 M. E. J. Newman (2002). Assortative mixing in networks. Physical review letters 89(20), 208 701. 32 L Page, S Brin, R Motwani & T Winograd (1999). The PageRank Citation Ranking: Bringing Order to the Web. Technical Report 1999-66, Stanford InfoLab. URL http://ilpubs. stanford.edu:8090/422/. 21, 27 E. Perez-Cervantes, J. P. Mena-Chalco, M. C. F. de Oliveira & R. M. Cesar-Jr. (2013). Using Link Prediction to Estimate the Collaborative Influence of Researchers. In IEEE 9th International Conference on e-Science 2013, 1–8. Beijing, China. 61 L. V. R. Pinheiro & J. M. M. Loureiro (1995). Traçados e limites da ciência da informação. Ciência da informação 24(1). 1 I. Robinson, J. Webber & E. Eifrem (2013). Graph Databases. O’Reilly Media. ISBN 9781449356248. 8 L. Rossi & J. P. Mena-Chalco (2014a). Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), 1–12. Brasília, DF, Brazil. 18, 46, 59 L Rossi & JP Mena-Chalco (2014b). Aos ombros de gigantes: um estudo de genealogia acadêmica dos matemáticos no Brasil. In Simpósio de Pesquisa do Grande ABC (SPGABC), 1–2. São Bernardo do Campo, SP, Brazil. 8 C. R. Sugimoto (2014). Academic Genealogy. In Beyond bibliometrics: Harnessing multidimensional indicators of scholarly impact, B. Cronin & C. R. Sugimoto, editors, 365–382. MIT Press, 1st edition. 2, 57 J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang & Z. Su (2008). Arnetminer: extraction and mining of academic social networks. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, 990–998. ACM. 1