ESELAW 2009 - Departamento de Computação
Transcrição
ESELAW 2009 - Departamento de Computação
Proceedings of 6th Experimental Software Engineering Latin American Workshop (ESELAW 2009) November 11-13, 2009 São Carlos, SP - Brazil Organization Departamento de Computação, Universidade Federal de São Carlos Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo Sponsor Brazilian Computer Society – SBC Experimental Software Engineering Latin American Workshop (ESELAW 2009) (6. : 2009 : São Carlos, SP) E96p Proceedings / 6th Experimental Software Engineering Latin American Workshop (ESELAW 2009) : November 11-13, 2009 – São Carlos, São Paulo, Brazil ; organizers UFSCar, UFG, ICMC/USP -- São Carlos, SP : UFSCar, 2009. ISBN: 978-85-99673-03-4 1. Ciência da Computação. 2. Engenharia de Software. 3. Experimentação em Engenharia de Software. I.UFSCar, II. ICMC/USP, III. UFG, IIII. Título. AMS 68NXX 6th Experimental Software Engineering Latin American Workshop (ESELAW 2009) November 11-13, 2009 São Carlos, SP - Brazil Organization Departamento de Computação, Universidade Federal de São Carlos Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo Sponsor Brazilian Computer Society – SBC Edited By Sandra C. Pinto Ferraz Fabbri, DC-UFSCar Auri Marcelo Rizzo Vincenzi, UFG Elisa Yumi Nakagawa, ICMC – USP Presentation No science can evolve without measurement and experimentation. The progress of any discipline involves building theories and testing them through experimental studies. For this reason, there is a growing awareness in the software engineering community that experimental studies are necessary to develop and improve software engineering processes, methods and tools. The Software Engineering Discipline should have a strong foundation in experimentation; however software engineering experimentation is not an easy task. It is complex, time consuming, and multi-faceted. Therefore, a forum for researchers and practitioners to report on and discuss new research results in Experimental Software Engineering is an essential initiative for the growing of this area, being the main target of ESELAW – Experimental Software Engineering Latin American Workshop. As in the previous editions, ESELAW 2009 aims to bring together Latin America´s academic, industrial and commercial communities for the exchange of ideas to understand the strengths and weaknesses of software engineering technologies, focusing on the process, design and structure of empirical studies, as well as on the results from specific studies. ESELAW 2009 – the sixth edition of the event – includes two talks, four short courses and three technical sections. Prof. Carolyn Seaman discusses in the opening talk the problem of delayed maintenance tasks and in the short course the use of qualitative methods in empirical studies of software engineering. The second invited talk by Prof. Alfredo Goldman explores the free, libre, open source centers as an opportunity for experimentation. Prof. Manoel Mendonça presents an introduction to experimental software engineering, Prof. Guilherme Travassos discusses the use of statistical methods for planning and analyzing experimental studies in software engineering area and Katia Felizardo talks about scientific research in software engineering through systematic review. These three themes correspond to the other three short courses. Besides, there are three technical sections that present researches on experimentation, systematic review and verification, validation and testing activities. The event received forty five paper submissions that were reviewed by three referees each one, and twelve of them were selected for presentation in the technical sessions. These papers are printed in these proceedings as well as a summary of the talks and the short courses. We thank the dedicated work of the student Lucas Bueno Ruas de Oliveira for the organization of this document. The Department of Computing at Federal University of São Carlos, SP, Brazil is hosting this edition of ESELAW. Sandra C. Pinto Ferraz Fabbri Auri Marcelo Rizzo Vincenzi Committees Steering Committee Sandra C. Pinto Ferraz Fabbri Guilherme Horta Travassos José Carlos Maldonado Márcio Eduardo Delamaro Manoel G. de Mendonça Neto (DC-UFSCar, Brazil) -- General Chair (COPPE/UFRJ, Brazil) (ICMC-USP, Brazil) (ICMC-USP, Brazil) (UFBA, Brazil) Program Committee Auri M. R. Vincenzi Ana M. Moreno Andreas Jedlitschka Cleidson Ronald Botelho de Souza Ellen Francine Barbosa Emilia Mendes Fabio Kon Giovanni Cantone Guilherme Horta Travassos Jeffrey Carver José Carlos Maldonado Manoel G. de Mendonça Neto Marcello Visconti Marcos L. Chaim Marcio Eduardo Delamaro Natalia Juristo Sandro Morasca (UFG, Brazil) -- Program Chair (Universidad Politecnica de Madrid, Spain) (IESE-Fraunhofer, Germany) (UFPA, Brazil) (ICMC-USP, Brazil) (Auckland University, New Zeland) (IME-USP, Brazil) (Tor Vergata, Italy) (COPPE-UFRJ, Brazil) (University of Alabama, Tuscaloosa, EUA) (ICMC-USP, Brazil) (UFBA, Brazil) (UTFSM, Chile) (EACH-USP, Brazil) (ICMC-USP, Brazil) (Politecnica de Madrid, Spain) (Università dell´Insubria, Italy) Support Committee Daniel de Paula Porto Deysiane Matos Sande Elis Cristina Montoro Hernandes Erika Höhn Fernanda Aparecida R. da Silva Guilherme Freire Lucas Bueno Ruas de Oliveira (DC-UFSCar, Brazil) (DC-UFSCar, Brazil) (DC-UFSCar, Brazil) (ICMC-USP, Brazil) (DC-UFSCar, Brazil) (DC-UFSCar, Brazil) (ICMC- USP, Brazil) Organizing Committee Tutorial and Short Course Coordinator Márcio Eduardo Delamaro, ICMC-USP, Brazil Local arrangments Chair Valter Vieira de Camargo, DC-UFSCAR, Brazil Publication Chair Elisa Yumi Nakagawa, ICMC-USP, Brazil External Reviewers Adenilso Simao Alfredo Goldman André Domingues Anna Grimán Arilo Dias Neto Arlindo da Conceição Claudia de O. Melo Debora Paiva Delano Medeiros Beder Edmundo Spoto Edson Moreira Elisa Yumi Nakagawa Erika Hohn Esteban Fernandez Tuesta Fabiano Cutigi Ferrari Fabio Lucena Felipe Besson Juliano Oliveira Katia Felizardo Marcelo Morandini Marco Silva Marco Antônio P. Araújo Maria Istela Cagnin Martin Solari Otávio Lemos Paulo Bernardo Paulo Sérgio Santos Pedro Treccani Plínio Leitão-Júnior Rafael Prikladnicki Rogério Eduardo Garcia Rosana Braga Rudinei Goularte Tayana Conte Valter Camargo Vinícius Humberto Durelli Vitor Lopes Viviane Malheiros (ICMC - USP, Brazil) (IME - USP, Brazil) (ICMC - USP, Brazil) (Simón Bolívar University, Venezuela) (COPPE - UFRJ, Brazil) (DCT - UNIFESP, Brazil) (IME - USP, Brazil) (UFMS, Brazil) (EACH - USP, Brazil) (UNIVASF, Brazil) (ICMC - USP, Brazil) (ICMC - USP, Brazil) (ICMC - USP, Brazil) (ICMC - USP, Brazil) (ICMC - USP, Brazil) (UFG, Brazil) (EACH - USP, Brazil) (UFG, Brazil) (ICMC - USP, Brazil) (EACH - USP, Brazil) (USP, Brazil) (COPPE– UFRJ, Brazil) (UFMS, Brazil) (ORT University, Uruguay) (ICMC-USP, Brazil) (USP, Brazil) (UFRJ, Brazil) (UFPA, Brazil) (UFG, Brazil) (PUCRS, Brazil) (UNESP, Brazil) (ICMC – USP, Brazil) (ICMC – USP, Brazil) (DCC – UFAM, Brazil) (UFSCar, Brazil) (ICMC – USP, Brazil) (COPPE – UFRJ, Brazil) (SERPRO/USP, Brazil) Contents Invited Talk Measuring and Monitoring Technical Debt (Carolyn Seaman) . . . . . . . . . . . Free, Libre, Open Source Competence Centers - an opportunity for experimentation (Alfredo Goldman) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 5 Short Courses 6 Systematic Review - Scientific Research in Software Engineering (Katia Romero Felizardo, Rafael Messias Martins and Erika Nina Höhn) . . . . . . . . . . . . 7 Using Qualitative Methods in Empirical Studies of Software Engineering (Carolyn Seaman) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Introduction to Experimental Software Engineering (Manoel G. Mendonça) . . . . 9 The Use of Statistical Methods for Planning and Analyzing Experimental Studies in Software Engineering Area (Guilherme Horta Travassos and Marco Antônio Pereira Araújo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Technical Session 1 - Experimentation in Software Engeneering A Quantitative Assessment on Team Building Criteria for Software Project Teams (A. César C. França, Évisson Fernandes Lucena, Fabio Q. B. da Silva) . Apoio na Concepção de Workflow Cientı́fico Abstrato para Estudos in virtuo e in silico em Engenharia de Software (Wallace M. Pereira, Marco Antônio P. Araújo, Guilherme H. Travassos) . . . . . . . . . . . . . . . . . . . . . . . . Estudo da Alocação de Pessoas em Projetos de Software através da Teoria Fundamentada em Dados (Cinthya S. Oliveira, Cleidson R. B. de Souza, Carla A. L. Reis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Experimentação em Engenharia de Software: Glossário de Termos (Vitor Pires Lopes, Guilherme Horta Travassos) . . . . . . . . . . . . . . . . . . . . . . . Rastreabilidade Indutiva Aplicada a Artefatos de Software (Raquel Nitsche dos Santos, Raul Sidnei Wazlawick) . . . . . . . . . . . . . . . . . . . . . . . . . 11 Technical Session 2 - Systematic reviews A Systematic Review on Software Product Lines Scoping (Marcela Balbino S. de Moraes, Eduardo Santana de Almeida, Silvio Romero de Lemos Meira) . . . . Implementação de Variabilidades de Linhas de Produto de Software utilizando Aspectos: Uma Revisão Sistemática (Antonio Carlos C. Júnior, Thelma Elita Colanzi, Paulo César Masiero) . . . . . . . . . . . . . . . . . . . . . . . . . . Uma Abordagem Visual para Auxiliar a Revisão da Seleção de Estudos Primários na Revisão Sistemática (Katia R. Felizardo, Gabriel F. Andery, José C. Maldonado, Rosane Minghim) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 12 22 32 42 52 63 73 83 Technical Session 3 - Verification, validation and test 93 Granularity on Persistent Data Flow Testing of Active Database Applications (Plinio S. Leitao Junior, Plinio R. S. Vilela, Mario Jino, Joao C. Silva) . . . . . 94 1 Redução de Potenciais Defeitos através da Detecção de Anomalias em Diagramas de Classes (Isela Macı́a, Arndt von Staa) . . . . . . . . . . . . . . . . . 104 Reutilização de Conjuntos de Teste: Um Estudo no domı́nio de Algoritmos de Ordenação (Diogo Nascimento Campanha, Simone do Rocio S. Souza, Otávio Augusto L. Lemos, Ellen Francine Barbosa e José C. Maldonado) . . . . . . . 114 WDP-RT: Uma técnica de leitura para inspeção de usabilidade de aplicações Web (Marcos Gomes, Davi Viana, Lennon Chaves, Andreza Castro, Verônica T. Vaz, Altigran Soares, Guilherme H. Travassos, Tayana Conte) . . . . . . . . 124 2 INVITED TALK 3 Carolyn Seaman: Measuring and Monitoring Technical Debt The “technical debt” metaphor characterizes the relationship between the short-term benefits of delaying certain maintenance tasks and the long-term cost of those delays. This metaphor frames the problem of delayed maintenance tasks as a type of “debt,” which brings a short-term benefit (usually in terms of higher productivity or shorter release time) but which might have to be paid back, with “interest,” later. The “principal” on the debt is the amount of effort required to “pay off” the debt (i.e. complete the task), while the “interest” is the potential penalty (in terms of increased effort and decreased productivity) that will have to be paid in the future as a result of not completing these tasks in the present. Many practitioners find this metaphor intuitively appealing and helpful in thinking about the issues. What is missing, however, is an underlying theoretical basis upon which management mechanisms can be built to support decision-making. This talk will propose a simple technical debt management model, and present recent results from our ongoing study of this issue. Dr. Seaman is an Associate Professor at UMBC in Baltimore and a Scientist at the Fraunhofer Center, Maryland. Her research emphasizes software measurement, maintenance, communication, and qualitative research methods. She holds degrees in Computer Science and Mathematics from the University of Maryland, Georgia Tech, and the College of Wooster (Ohio). She has worked in the software industry as a software engineer and consultant, and has conducted most of her research in industrial and governmental settings. 4 Alfredo Goldman: Free, Libre, Open Source Competence Centers - an opportunity for experimentation Free, Libre, Open Source Software (FLOSS) Competence Centers are being established in several countries around the world. One of the first Brazilian initiatives in this direction is the USP Qualipso FLOSS Competence Center with branches at IME and ICMC. Its goal is to be a meeting point for students, professors, researchers, and professionals from public and private companies for exchanging information and conducting scientific and technological research and development projects around FLOSS. In this talk, we will tell the history and describe the goals of the USP FLOSS Competence Center and of the Qualipso Project and will describe a series of recentlyinitiated research projects in the area of Experimental Software Engineering that have the USP competence center as its testbed. Alfredo Goldman received his B.Sc. in applied mathematics from University of São Paulo, Brazil, his M.Sc. in computer science also from University of São Paulo, and his doctorate in computer science from the Institut National Polytechnique de Grenoble, France. He currently is an associated professor in the Department of Computer Science at University of São Paulo. His research interests include parallel and distributed computing, mobile computing and grid computing. 5 INVITED SHORT COURSES 6 Systematic Review - Scientific Research in Software Engineering Katia Romero Felizardo, Rafael Messias Martins and Erika Nina Höhn The results produced by traditional literature reviews can be limited and of questionable scientific value if not guided by a sound process. The systematic review approach provides a comprehensive and systematic evaluation of research using a predefined strategy of search aiming at minimizing bias. The term systematic review is used to refer to thorough and fair methodology of literature review and it is used to summarizing, assessing and interpreting the relevance of all research related to a specific question, topic area, or phenomenon of interest. This is an introductory course on systematic review. Its first goal is to motivate and illustrate the application of systematic reviews in the software engineering area. A complete example is provided in order to give the attendees a notion on the advantages, limitations and constraints of systematic reviews in practice. Katia Romero Felizardo has a MSc. degree in Computer Sciences from the Universidade Federal de São Carlos (UFSCar). She has been assistant professor at Universidade do Oeste Paulista (UNOESTE), Universidade Estadual de Londrina (UEL) and Universidade Estadual do Norte do Paraná (UENP). Currently she is PhD student in Computer Sciences at Universidade de São Paulo (USP), campus of São Carlos, and has experience in software engineering, focused mainly in the subjects: Software Quality, Systematic Review of Literature, Ontologies and Information Visualization. Rafael Messias Martins is B.Sc. in Computer Science from the Universidade Estadual Paulista Julio de Mesquita Filho (UNESP), and currently is M.Sc. student at the Instituto de Ciências Matemáticas e de Computação at the Universidade de São Paulo(ICMC/USP). His research interests include mainly Software Engineering and Information Visualization, with emphasison Systematic Reviews (and Ontologies), Software Architecture and Reengineering. Erika Nina Höhn is Graduated in Computer Science at Universidade Federal do Maranhão (UFMA, 1996), posgraduate in System Analysis and Design at Universidade Federal do Maranhão (UFMA, 2000) and Masters in Computer Science and Computational Mathematics at Universidade de São Paulo (USP, 2003). Currently is PhD student at Universidade de São Paulo. Experience in Computer Science, with emphasis on Software Engineering, acting on the following subjects: experimentation, lab packages. 7 Using Qualitative Methods in Empirical Studies of Software Engineering Carolyn Seaman This course covers the basics of applying qualitative research methods to research projects in software engineering. The course will enable participants to: Appreciate the fundamental philosophical underpinnings of qualitative research. Be able to critically evaluate qualitative research. Gain mastery of core qualitative data collection and analysis techniques. Synthesize this material through several interactive examples. Dr. Seaman is an Associate Professor at UMBC in Baltimore and a Scientist at the Fraunhofer Center, Maryland. Her research emphasizes software measurement, maintenance, communication, and qualitative research methods. She holds degrees in Computer Science and Mathematics from the University of Maryland, Georgia Tech, and the College of Wooster (Ohio). She has worked in the software industry as a software engineer and consultant, and has conducted most of her research in industrial and governmental settings. 8 Introduction to Experimental Software Engineering Manoel G. Mendonça This course will present students with the fundamentals of experimentation in software engineering. It will start by introducing the basic concepts of experimentation, presenting the particularities of experimentation in software engineering experimentation and drawing comparisons with other subject areas. The course will then discuss how to run controlled experiments, surveys and case studies in software engineering, presenting examples to illustrate the discussions. The course will close by discussing aspects of knowledge management and sharing experimental findings in software engineering. Manoel G. Mendonça received his Ph.D. in computer science from the University of Maryland at College Park in 1997. He also holds a M.Sc. in computer engineering from the State University of Campinas (UNICAMP-1990), and a Bachelors in electrical engineering from the Federal University of Bahia, (UFBa - 1986), both in Brazil. Dr. Mendonça was a visiting scientist and was awarded a doctoral fellowship from the IBM Toronto Laboratory's Centre for Advanced Studies. Between 1997 and 2000, he worked as a Faculty Research Associate at the University of Maryland and as a scientist at the Fraunhofer Center for Experimental Software Engineering in Maryland. He joined the Salvador University (UNIFACS) as a Professor in 2000. There he headed heads the Networking and Computing Research Center (NUPERC) from 2004 to 2008. He also served as a member of the Computer Science Technical Chamber at the Bahia State Research Agency (FAPESB) from 2005 to 2008. He joined the Computer Science Depatment of the Federal University of Bahia in 2009. He holds a research productivity scholarship from the Brazilian Research Council (CNPq) since 2001. Prof. Mendonça is a member of the Brazilian Computer Society (SBC) and the Association for Computing Machinery (ACM), and a senior member of IEEE. His main research interest are on software engineering, information visualization, mobile computing and knowledge management supporting systems. 9 The Use of Statistical Methods for Planning and Analyzing Experimental Studies in Software Engineering Area Guilherme Horta Travassos and Marco Antônio Pereira Araújo The objective of this course is to present the main statistical techniques used for planning and analyzing experimental studies in software engineering. The course will apply a practical approach using, as much as possible, examples in the context of the real word. Aiming at supporting the discussion on the techniques, data from experimental studies already run by the authors or from the literature will be used . Besides the concepts of experimentation and statistics, the course will indicate possible applications of such techniques. Guilherme Horta Travassos is Associate Professor in the Program of Computing and Systems Engineering at COPPE/UFRJ. He has a MsC and a DSc degree in the Program of Computing and Systems Engineering from COPPE/UFRJ and a Pos-Doc in Experimental Software Engineering from University of Maryland – College Park. He has experience in Experimental Software Engineering and his interests subjects are scientific methodology applied to software engineering,software development environments and web engineering. Marco Antônio Pereira Araújo has a MsC and a DSc degree in the Program of Computing and Systems Engineering from COPPE/UFRJ and a title of Specialist in Statistical Methods for Computing from Universidade Federal de Juiz de Fora. He is a Lecturer in the Bachelor of Information Systems course at Centro de Ensino Superior de Juiz de Fora and Faculdade Metodista Granbery. His interest areas are experimental software engineering, software evolution, system dynamics and statistical methods. 10 TECHNICAL SESSION 1 Experimentation in Software Engeneering (ESE) 11 ESELAW’09 VI Experimental Software Engineering Latin American Workshop A Quantitative Assessment on Team Building Criteria for Software Project Teams A. César C. França1, Évisson Fernandes Lucena1,2, Fabio Q. B. da Silva1 1 Centro de Informática – Universidade Federal de Pernambuco (CIn – UFPE) CEP 50732 - 970 – Recife – PE – Brasil 2 Coordenadoria Ministerial de Tecnologia da Informação – Ministério Público de Pernambuco (MPPE) Recife – PE – Brasil [email protected], {efl, fabio}@cin.ufpe.br Abstract. The study of software projects teams has acquired space in both industry and academy. However, the criteria identified as relevant to build teams are still the subject of researches. This article describes a qualitative research performed with 48 software projects with aim to verify the relation between eight team building criteria and the success or failure of these projects. According to the results, the formal use of seven of the team building criteria can favor project performance, while one of the criteria was refuted. 1. Introduction It is possible to notice that any project that focuses on solving problems, whatever its subject is, for example, software development, innovation, product management, and others, has a fundamental element: the development team. Team is formally defined as a set of people working in an interdependent way and sharing common objectives, for which everybody all together feels responsible (BATITUCCI, 2002). Team management has been looked recently as a definitive factor for success or failure of any people intensive project, such as software development. Personnel factors have been a concern since the early days of software engineering. In the NATO 68 Software Engineering Conference report (NATO, 1968), the section dealing with such factor opens with the statement that “Many of the problems of producing large software systems involve personnel factors”. One of the first attempts on how to structure a team in software development has been proposed by Brooks (1975). Lettice and McCracken (2007) reported that the amount of researches related to software projects team management has doubled in the last 10 years. These researches are mainly focused on: (1) how the software team can increase projects’ chances of success; (2) how the team building process can be related to the team performance; and (3) how to manage human factors to maintain and improve the team effectiveness. Becker et. Al (2000), discussed the issue, related to (2), of how to identify suitable criteria for selecting individuals to build a software team. However, the inherent complexity of dealing with personality and behavior, and the different managerial levels (strategic, tactic, and operational) influenced by each criterion, make the application of such criteria in day-to-day decisions a difficult task. 12 ESELAW’09 VI Experimental Software Engineering Latin American Workshop França et. al. (2008) has indentified a set of criteria for software projects team building from a field research made with six software companies. This exploratory and qualitative study provided important insights on how software project managers apply criteria for team building and how such criteria might influence final project performance. Two important questions have been raised from that research: (I) Can the use of these criteria be related to software projects success? (II) What is the order of importance among these criteria, according to the project managers’ opinions? This article describes a field research designed to assess the criteria identified by França et. al. (2008) using quantitative methods. The goal is twofold. First, to look for relationships between the criteria and project success in order to create evidence that the criteria are relevant in practice. Second, to establish an order relation for applying these criteria. The results, in a form of an ordered set of criteria for selecting individuals, is expected to assist project managers in the difficult and relevant task of building software teams This article is organized as follows. In Section 2, the conceptual underpinnings of this research are briefly discussed . In Section 3, the methodology used in this research is described. In Section 4, the main findings of the research are presented and analyzed. In Section 5, some conclusions and future directions for this research are presented. 2. Conceptual Underpinnings This research aims to relate two variables: (1) criterion for the selection of individuals to build software teams and (2) software project success. This section provides a brief (due to space constraints) but necessary characterization of these variables. 2.1. Team Building Criteria Lettice and McCracken (2007) show that previous studies related to team management in software engineering have focused in two important complementary aspects: The identification of factors which are capable to improve team effectiveness, team performance, and project success (BRADLEY and HERBER, 1997; BECKER, BURNS-HOWELL and KYRIAKIDE, 2000; TARRICONE and LUCA, 2002) How to blend different types of people together to build effective teams, by evaluating their psychological profiles (GORLA and LAM, 2004; HIGGS, PLEWNIA and PLOCH, 2005). More recently, França and da Silva (2007) contributed with results about the relationships between individual behavior and the development of technical tasks in software engineering. França and da Silva (2009a, 2009b, 2009c) studied motivation as a factor that influences individual and team performance. These researches have provided significant insights on how to build and manage software teams from a conceptual point of view. However, França et. al. (2008) found out that these models are not popular in the software engineering industry. In this study, França et. al. (2008) made a qualitative and explorative research aiming to figure out how project managers build their teams, in practice. Six experienced project managers, from six different software companies with different organizational maturity 13 ESELAW’09 VI Experimental Software Engineering Latin American Workshop levels, were interviewed. The interview data was analyzed using qualitative methods and the following set of team building criteria (Cx) has emerged: C1 Technical profile: refers to the individual technical knowledge in a specific technology or tool. This criterion also includes the knowledge related to some of the modules or business process areas of software. However, the technical profile evaluation indicates just if a professional is able or not to work in some project, without consider his/her experience and productivity. C2 Individual costs: refers to the costs of each professional hired by the organization, and consequently to the impacts of each one in the project budget. This is usually cited by the project managers as an important restriction rule in the team building process. However, previous research on software team building did not have considered this aspect so far. C3 Experience and Productivity: refers to the professional experience of each individual and his/her historical productivity rates. This also can be described as the project manager perception of how each person can individually contribute to improve the team performance at all. It differs from C1 because technical knowledge can be learned relatively quickly, while experience and productivity takes more time to develop. C4 Availability of human resources: refers to the availability of the needed people inside an organization. It shows up that, on practice, different projects can be either sharing resources or concurring for them. Also, the availability of human resources could be extended to evaluate not only the internal availability, but also the capacity of finding and hiring people with the required characteristics in due time. C5 Personality: refers to the motivation generated on an individual, when his/her personal profile fits with his/her functional role in the development process or role inside a team. This is the most complex criterion, because its evaluation should be based on formal psychological analysis on individuals, but it is not usual the project managers use it, so they may make some misleading. C6 Behavioral skills: refers to specific behavior individuals are expected to present in different situations or roles in the development processes. Besides these six criteria, França et. al. (2008) also identified another factor that influences the decision to allocate an individual to a software team in a given project, which received a distinct notation (Sx) because it was considered strategic criteria: S1 Project importance: refers to the business strategic importance of the project or the customer. This factor influences all other criteria at the same time, so it can determine how strongly another criterion will be considered, since more than one project can share the same resources. Also, usually the most important project has the most valuable professionals in the organization. 2.2. A Definition of Software Project Success Current literature on software project management has several different definitions of project success; some are overlapping while others are disjoint. For instance, the nature of the definition of success is very different between traditional approaches (e.g. the PMBOK® Guide) and agile methods like SCRUM (see Mariz (2009) for an in depth discussion on this issue). 14 ESELAW’09 VI Experimental Software Engineering Latin American Workshop This research uses the work of Hackman (1990) and Hallows (1998), where project success is measured by the following set of criteria: M1 - Costs, M2 Implementation date, M3 - Functionality/Scope, M4 - Effective project team work, M5 User satisfaction, and M6 - Professional satisfaction on the part of the project manager. One project is considered successful if it satisfactorily achieves these six criteria. Haggerty (2000) presented a questionnaire to evaluate project success according to the above set of criteria. This instrument is used in this research and is further explained in Section 3.4. 3. Methodology This research is empirical, nomothetic, descriptive and relational. It uses statistical methods to find relationships among team building criteria and software projects success in a limited set of software projects. The nature of the variables is, therefore, quantitative. Data acquisition was done by a survey carried out with software companies in several Brazilian cities. 3.1. Experimental Unit and Subjects Using the concepts as defined in Juristo and Moreno (2001), the experimental unit is the software project and the experimental subjects are the project manager and project team members. 3.2. Variables and Scales The independent variables were defined from the set of team building criteria found by França et. al. (2008). As a starting point, the seven team building criteria were used. However, during the pre-test phase of the data collection it was found that the criterion S1 - Project Importance could be interpreted as either the project strategic importance or the customer importance for the organization. Therefore, it was divided in two separate criteria: S1 - Project Importance and S2 - Customer Importance. This second strategic criterion can be described as the importance of some customer for the business, even when its project does not have substantial importance. Even though S1 and S2 have strategic impact, they seem to be independent factors from the management perspective. From the set of criteria two sets of independent variables have been defined: (I) the level of formal use of each team building criterion in the project; (II) the importance of each team building criterion in practice. The scale used is ordinal with three values (Low, Medium, High). The dependent variables were defined from the set of project success criteria (project goals) defined by Hackman (1990) and Hallows (1998), presented in Section 2.2. The scale is ordinal with three values ([Goal] Not Satisfied, Satisfied, Strongly Satisfied). Table 1 and Table 2: Dependent Variables present independent and dependent variables and possible values. Table 1: Independent Variables Variable Scale Values Importance level of Ci (i = 1 … 6) Low – Medium – High Level of formal use of Ci (i = 1 … 6) Low – Medium – High Importance level of Si (i = 1 … 2) Low – Medium – High Level of formal use of Si (i = 1 … 2) Low – Medium – High 15 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Table 2: Dependent Variables Variable Scale Values Satisfaction of Goal Mi (i = 1 … 6) Not Satisfied – Satisfied – Strongly Satisfied 3.3. Data Collection Procedure The field research was performed in nine distinct Brazilian states: Bahia, Ceará, Minas Gerais, Paraíba, Pernambuco, Paraná, Santa Catarina, São Paulo e Tocantins. The data collection occurred from 11-01-2008 to 12-01-2008. An electronic questionnaire was sent by internet to 46 software organizations. It was possible to achieve a 52% response rate, which correspond to 24 software organizations. Each surveyed organization supplied the questionnaire with data from two projects: one that they consider as being successful and another considered as not successful. Therefore, data form 48 projects were collected. The surveyed managers had 2 to 18 years of experience in project management. Every project team had at least three members, including the project manager. The profile of the software companies is as follows: 16 are micro-business, 16 are smallbusiness, 4 are medium-business and 12 are large organizations1. 3.4. Data Collection Instruments A questionnaire was designed to collect data regarding the independent variables. This questionnaire uses a likert scale structure, with forced choices between values in the scale. Each variable was evaluated by a single question, totaling 16 questions for the 16 dependent variables. Table 3 shows an example of the questions. Table 3: Team building criteria assessment instrument variable: level of formal use of C1 1. How formal was the “Technical Profile” considered in the team building for this project? variable: importance level of C1 2. How important is the “Technical Profile” to help achieving the project success? Low Medium High ( ) ( ) ( ) ( ) ( ) ( ) To evaluate project success or failure, the questionnaire defined by Haggerty (2000) was used. The structure is similar to the team building criteria assessment instrument discussed above. Table 4 shows examples of the questions in the second instrument. Table 4: Project success measurement instrument How were the goals listed below satisfied by the project A (successful)? M1. Costs M2. Implementation date … How were the goals listed below satisfied by the project B (failed)? M1. Costs M2. Implementation date … Not Satisfied ( ) ( ) Not Satisfied ( ) ( ) Satisfied ( ) ( ) Satisfied ( ) ( ) Strongly satisfied ( ) ( ) Strongly satisfied ( ) ( ) Both questionnaires have passed through a pre-test evaluation, performed with 5 project managers. They are described above already with the improvements resulted 1 According to the standards from IBGE – Instituto Brasileiro de Geografia e Estatística. 16 ESELAW’09 VI Experimental Software Engineering Latin American Workshop from the pre-test. For ethical reasons, two more sessions were added to the research instrument: a presentation session and another describing the confidentiality policy. 3.5. Data analysis procedure Based on the taken, it is not possible determine if the behavior of these variable are part of a normal distribution or not. Also, the variables as described above cannot be measured accurately, because they are based on the opinion of the project manager. Therefore, the non-parametric MANN-WHITNEY U test was chosen to calculate correlation among variables. The software PASW version 16.0 for Windows® (formerly called SPSS – Statistical Package for the Social Sciences) was used in the statistic calculation. The first step was the sample testing. This step consisted on two tests, which aimed to verify the match between the classification of successful and failed projects provided by the project managers with the success project goals as established by the values of the dependent variables This step was carried out to verify consistency between the manager’s impression about project success and the objective value of de success criteria. If this test was successful, it would be valid to consider the projects’ success and failure to assess the effectiveness of the used of the team building criteria. Then, the relationships between the use and importance of team building criteria and project success was verified by applying the MANN-WHITNEY U test between the evaluation of the team building criteria in successful projects and in failed projects. In this case, the test might show if the evaluation of the formal level of each criterion in successful and failure are significantly different. If so, it is possible to infer that they are related to the project performance. The last step consisted on a simple calculation of the arithmetic means of the evaluation given by the project managers to the importance of each team building criterion. The ordering was based on greater percentage of “High” scores, then on smaller percentage of “Low” scores. 4. Results and Data Analysis 4.1. Sample Testing The Cronbach’s alpha test showed 91.6% of reliability for the analyzed data. Table 5 and Table 6 describe the scores given by the project managers to the satisfaction level of each project success goal for both the successful and failed projects, respectively. M1 M2 M3 M4 M5 M6 Achievement Level Not Satisfied Satisfied 4.2% 8.3% 16.7% 4.2% 8.3% 0.0% 4.2% 8.3% 0.0% 12.5% 8.3% 0.0% Table 6: Evaluation of the success goals on the failed projects Strongly Satisfied 87.5% 79.2% 91.7% 87.5% 87.5% 91.7% Success Goals Success Goals Table 5: Evaluation of the success goals on the successful projects M1 M2 M3 M4 M5 M6 Achievement Level Not Satisfied Satisfied 75.0% 4.2% 91.7% 0.0% 50.0% 16.7% 87.5% 8.3% 66.7% 8.3% 58.3% 12.5% Strongly Satisfied 20.8% 8.3% 33.3% 4.2% 25.0% 29.2% For the successful projects, on Table 5, it’s possible to notice that all success goals have a high level of strong satisfaction (above 79%) while only a minority of the 17 ESELAW’09 VI Experimental Software Engineering Latin American Workshop projects has not satisfied them (under 17%). For the failed projects on Table 6, however, most of the projects have not satisfied the success goals (above 50%) while only the minority of the projects have strongly satisfied some of the success goals (under 34%). However, it was necessary to apply the MANN-WHITNNEY U test on these two sets of projects for assure that the samples really match with the necessary specifications of success and failure. As showed in Table 7, the differences between the successful and failed projects were significant for all success goals. In the U Test, the differences between two samples are meaningful when the result of p (confidence level) is equal or less 0.05, which represents 95% of certainty. Table 7: MAN-WHITNEY U Test applied to the success goals among successful and failed projects Not satisfied (n = 24) Success Goals Achievement level M1 M2 M3 M4 M5 M6 p=0.000 p=0.000 p=0.000 p=0.000 p=0.000 p=0.000 Costs Implementation date Functionality/scope Effective project team work User satisfaction Professional satisfaction on the part of the project manager Satisfied (n = 24) p=0.555 p=0.317 p=0.388 p=1.000 p=0.640 p=0.077 Strongly Satisfied (n = 24) p=0.000 p=0.000 p=0.000 p=0.000 p=0.000 p=0.000 () - Significant differences only for p ≤ 0.05 4.2. Relations existing among Team Building and Project Success Since the validity of the sample has been verified, the next step was the analysis of the formalization level of the team building criteria. Table 8 and Table 9 show the evaluation, with data from the field research. These tables show the percentage of projects which have been evaluated as Low/Medium/High for all team building criteria. C1 C2 C3 C4 C5 C6 S1 S2 Formalization level Low Medium 0.0% 4.2% 16.7% 16.7% 12.5% 16.7% 25.0% 20.8% 12.5% 16.7% 8.3% 20.8% 12.5% 8.3% 16.7% 8.3% Table 9: Formalization level of the team building criteria on failed projects Team Building Criteria Team Building Criteria Table 8: Formalization level of the team building criteria on successful projects High 95.8% 66.7% 70.8% 54.2% 70.8% 70.8% 79.2% 75.0% C1 C2 C3 C4 C5 C6 S1 S2 Formalization level Low Medium 29.2% 29.2% 45.8% 16.7% 54.8% 20.8% 45.8% 25.0% 54.2% 20.8% 54.2% 20.8% 41.7% 8.3% 50.0% 0.0% High 41.7% 37.5% 20.8% 29.2% 25.0% 25.0% 50.0% 50.0% Therefore, Table 10 shows the result of the MANN-WHITNNEY U test applied between these two distributions. Table 10: MANN-WHITNEY U test applied to the formalization level of the team building criteria on successful and failed projects Low (n=24) p=0,005 p=0,031 p=0,001 p=0,135 p=0,002 p=0,001 p=0,024 p=0,015 Team building criteria Formalization level C1 C2 C3 C4 C5 C6 S1 S2 Technical profile Individual costs Experience and Productivity Availability of human resources Personality Behavioral skills Project importance Customer importance () - Significant differences only for p ≤ 0.05 18 Medium (n=24) p=0,021 p=1,000 p=0,714 p=0,734 p=0,714 p=1,000 p=1,000 p=0,153 High (n=24) p=0,000 p=0,045 p=0,001 p=0,082 p=0,002 p=0,002 p=0,037 p=0,077 ESELAW’09 VI Experimental Software Engineering Latin American Workshop From this analysis, it is possible to make some conclusions: • • The formalization level of almost all the team building criteria on successful projects is significantly different from their formalization level on failed projects, which means that the criteria have a positive relation with the project performance. All criteria whose evaluation is “Medium” are not enough to favor project success because the “Medium” scores tend to have the same behavior in both successful and failed project, which makes it impossible to draw some conclusion about them. The criterion C4 - Availability of Human Resources deserves special attention in the Table 10, because it tends to appear in failed as often as in successful projects, unlike all other criteria. Due to this fact, it is possible to infer that C4 does not have any direct influence in the project performance. This means that if all criteria but C4 are used in the team building process, the project is more likely to be successful. Also, this means that if no or only few criteria are used, the project is more likely to be unsuccessful. 4.3. Relation of Priority Order among the Team Building Criteria The second relevant result achieved by this research was the relation of priority order among the team building criteria. This result shows the opinion of the project managers interviewed about the importance of considering each criterion in a team building process, looking for increasing the chances of success of a project. The average evaluation given by the project managers are described in the Table 11 while the Table 12 presents the criteria ordered from the most to the least important. Team Building Criteria Table 11: Evaluation of the team building criteria, according to the Project managers’ opinions C1 C2 C3 C4 C5 C6 S1 S2 Importance Level Low Medium 4,2% 8,3% 16,7% 8,3% 4,2% 4,2% 25% 16,7% 8,3% 16,7% 4,2% 8,3% 4,2% 4,2% 4,2% 12,5% Table 12: Importance order of the team building criteria, according to the Project managers’ opinions 1. High 87,5% 75,0% 91,7% 58,3% 75,0% 87,5% 91,7% 83,3% S1 Project Importance C3 Experience and Productivity 3. C1 Technical profile C6 Behavioral skills 5. S2 Customer Importance 6. C5 Personalidade 7. C2 Personality 8. C4 Availability of human resources In the same sense of what was discussed before, in the end of the Session 4.2, C4 - Availability of Human Resources was evaluated as the least important criteria, which means that the project managers also would not suggest this criterion as essential to favor project success. This is, therefore, consistent with the findings in Section 4.2. 5. Conclusions Even though there are already some theoretical models for team building for software engineering projects, it is possible to notice that they are not widely used by practioners, as found by França et. al (2008). While these researches are concerned to develop methodologies for effective teams building, it was found that project managers on 19 ESELAW’09 VI Experimental Software Engineering Latin American Workshop software engineering field still are building their teams based heavily on their own pastexperiences. However, França et. al. (2008) made an exploratory research with the goal to empirically identify some of the criteria used by project managers to build successful teams. The main objective of the research described in this article was to assess the effectiveness of the use of those criteria by calculating the statistical correlation of them with project success goals. From a carefully planned field research, it was possible to conclude that the analysis of technical profile, experience and productivity, personality, and behavioral skills are positively related to the project success among the studied sample. Complement other researches in the area, the results presented here also emphasize individual costs, customer importance and project importance as relevant factors to be considered in team building. Individual costs, specially, are not described explicitly in the team building literature, even though it is consistent with the project management literature (PMI, 2004). On the other hand, there is no significant correlation between availability of human resources and neither project success nor project failure. This paper’s main weakness is the reduced sample. Although the sample is not big enough to draw general conclusions (a threat to external validity), it is important to notice that not only 48 software projects is a reasonable sample comparing with the average in software engineering research field, but also the experimental research process designed can serve as a reference for other related researches that could repeat the same experiment with an expanded sample. Another problem is the use of a nonparametric test that makes the results weaker than using parametric tests, which was impracticable in this research. Beyond the effectiveness of the team building criteria, verified through a practical experience, there are two other noteworthy results. The first one would be the tools designed to assess and correlate team building criteria and project goals, including the data packet resulting from the research. The second would be the methodology prepared for this field research, which could be used for future work to verify factors with similar data behavior. Finally, it is important to emphasize that this article is a part of a wider research, which aims to study the whole of team lifecycle management on software engineering organizations. Also, both industry and academy have shown an increasing interest for this theme. References BATITUCCI, M. D. (2002) Equipes 100% - O novo modelo do trabalho cooperativo no 3º milênio. São Paulo: Makron Books. BECKER, M.; BURNS-HOWELL, J.; KYRIAKIDES, J.(2000) IS Team effectiveness factors and performance, 2000. BROOKS, F. P. (1975) The Mythical Man-Month: Essays on Software Engineering. Addison-Wesley Professional, 1975, ISBN 0201835959, 336p. DeMARCO, T.; LISTER, T. (1987) Peopleware: Productive Projects and Teams. New York: Dorset House Publishing Co, ed. 2, 1999. 20 ESELAW’09 VI Experimental Software Engineering Latin American Workshop FRANÇA, A. C. C. et. al, (2008). A Qualitative Research on Software Projects Team Building. In: CONTECSI – 5ª International Conference on Technology and Information Systems, 2008, São Paulo. FRANÇA, A. C. C.; da SILVA, F. Q. B. (2007) “Um estudo sobre Relações entre Papéis Funcionais do RUP e o Comportamento Pessoal no Trabalho em Equipe em Fábricas de Software”. III Workshop Um Olhar Sociotécnico sobre a Engenharia de Software – WOSES pp25-36. ______. (2009a). Motivational Strategies for Software Project Team Management: an exploratory study. V Workshop Um Olhar Sociotécnico sobre a Engenharia de Software – WOSES. Ouro Preto, MG. ______. (2009b). Desenvolvendo um Programa de Motivação para Engenheiros de Software através de um Método Experimental. XXIII Simpósio Brasileiro de Engenharia Software – SBES. Fortaleza, CE. ______. (2009c). An Empirical Study on Software Engineers Motivational Factors. 3rd International Symposium on Empirical Software Engineering and Measurement – ESEM’2009, Short Paper Session. Lake Buena Vista, FL. GORLA, N.; LAM, Y. W. (2004) Who should work with whom? building effective software project teams. Communications Of The Acm, v. 47, n. 6, 2004. HAGGERTY, N. (2000) Understanding the link between IT project manager skills and project success research in progress. IN: Proceedings of the 2000 ACM SIGCPR conference on Computer personnel research, p.192-195, April 2000, Chicago, Illinois, United States. HIGGS, M.; PLEWNIA, U.; PLOCH, J. (2005) Influence of team composition and task complexity on team performance. Team Performance Management, Emerald Group Publishing Limited, v. 11, n. 7/8, p.227 – 250, 2005, ISSN1352-7592. JURISTO, N.; MORENO, A. (2001). Basics of software engineering experimentation, Kluwer Academic Publishers, ISBN: 978-0-7923-7990-4, 420 p. LETTICE, F.; McCRACKEN, M. (2007) Team performance management: a review and look forward. Team Performance Management Vol. 13 No. 5/6, 2007 pp. 148-159. Emerald Group Publishing Limited 1352-7592. MARIZ, L. (2009). Um Estudo Experimental sobre a Influência da Composição da Equipe no Sucesso de Projetos que Utilizam SCRUM (in Portuguese). Master Dissertation, Center of Informatics, Federal University of Pernambuco. PMI (2004). Um guia do conjunto de conhecimentos em gerenciamento de projetos (Guia PMBOK), Project Management Institute, 2004, ISBN 1930699743, 388p. SOMMERVILLE, Ian. Engenharia de Software (2007). ed 8. Translation: Selma Shin Shimizu Melkinoff, Reginaldo Arakaki, Edilson de Andrade Barbosa. São Paulo: Pearson Addison-Wesley, 2007. TARRICONE, P. and LUCA, J. (2002) “Successful teamwork: A case study”. Higher Education Research and Development Society of Australasia – HERDSA conference 2002 proceedings pp640-646. 21 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Apoio na Concepção de Workflow Científico Abstrato para Estudos in virtuo e in silico em Engenharia de Software Wallace M. Pereira1, Marco Antônio P. Araújo2, Guilherme H. Travassos1 1 Programa de Engenharia de Sistemas e Computação (PESC), COPPE/UFRJ Universidade Federal do Rio de Janeiro, Brasil, Caixa Postal 68511 – CEP 21945-970 2 Centro de Ensino Superior de Juiz de Fora / Faculdade Metodista Granbery {wpereira,ght}@cos.ufrj.br, [email protected] Abstract. Science evolution has been supported by complex computerized infrastructures with growing interests in simulation based studies based on scientific workflows. However, the conception of such workflows is not easy and the current ad-hoc approaches make it a risky process. Therefore, this paper describes the application of an approach for the conception of scientific workflows for Software Engineering simulation based large scale studies in software decay. Resumo. A evolução da ciência tem sido apoiada por infra-estrutura computacional complexa para realizar as pesquisas, com crescente interesse em estudos baseados em simulação utilizando tecnologias de workflow científico. Entretanto, a concepção de workflows não é trivial e as práticas correntes ad-hoc podem trazer riscos ao estudo. Por isto, este trabalho apresenta a aplicação de uma abordagem de apoio à concepção de workflow científicos para estudos larga escala baseados em simulação em Engenharia de Software no domínio da Evolução de Software. 1. Introdução A Engenharia de Software (ES) vem utilizando a Experimentação como meio para a criação de um corpo de conhecimento. Para que apresente validade científica, cada um de seus itens de conhecimento deve ser verificado perante a realidade [Juristo & Moreno, 2001]. Essa verificação pode ser realizada através de estudos experimentais, que permitam ao pesquisador um maior controle da situação e a manipulação do comportamento do ambiente de forma direta, precisa e sistemática [Wohlin et al., 2000]. Diferentes tipos de estudos experimentais podem ser utilizados, contando com a participação de profissionais. Esses estudos visam observar a validade desses itens de conhecimento quando relacionada a seus possíveis comportamentos em processos de software e como podem afetar o produto gerado. Contudo, em situações onde o tempo necessário para observação do comportamento é longo, a utilização de profissionais pode não ser inicialmente viável, tornando a observação mais difícil, trazendo riscos de continuidade da pesquisa. Essas condições têm motivado o uso cada vez mais freqüente de estudos baseados em simulação na Engenharia de Software Experimental [Zhang et. al., 2008]. Dentre as vantagens que podem ser obtidas, destacam-se: maior controle do ambiente, menor custo de pessoal e antecipação a possíveis riscos. Também, existe a possibilidade de observar, de forma restrita, a viabilidade das tecnologias de software sob investigação. Os estudos que fazem uso de ambientes simulados são denominados: in virtuo e in silico. Esses estudos permitem observar o mundo real através de simulação 22 ESELAW’09 VI Experimental Software Engineering Latin American Workshop em ambientes virtuais, compostos por modelos computacionais. Nos estudos in silico tanto os participantes quanto o ambiente são simulados, ao contrário dos estudos in virtuo, onde o ambiente sofre interação dos participantes [Travassos & Barros, 2003]. A utilização de simulação, embora com ênfase recente em Engenharia de Software, representa prática corrente em outras áreas da ciência como meio de realização de suas pesquisas (e.g., Biologia, Engenharia, Física, dentre outras) [Mattos et al., 2008]. Estas áreas fazem uso de tecnologias como workflow científico e Sistemas Gerenciadores de Workflow Científico (SGWfC) para apoiar este tipo de estudo. Basicamente, o workflow científico é um modelo ou template que representa uma seqüência de atividades, implementadas por ferramentas (programas ou serviços), a fim de realizar um determinado objetivo [Deelman et. al., 2009]. Esses workflows são interpretados e executados pelos SGWfCs. Em geral, os SGWfCs permitem a especificação, modelagem e execução do workflow científico, representado em uma linguagem própria, referente a cada um destes sistemas. Os workflows científicos e SGWfCs trazem benefícios para experimentação como: a possibilidade de registro da proveniência dos dados utilizados; automação da execução do fluxo de atividades; controle e invocação das ferramentas que implementam as atividades; manipulação dos dados passados entre as atividades [Mattos et al., 2008]. Um workflow científico, que representa um estudo baseado em simulação, segue um conjunto de fases (Composição, Execução, Análise e Proveniência [Oinn et. al., 2007]) semelhante ao processo de experimentação (Definição, Planejamento, Execução, Análise e Interpretação, Empacotamento [Wohlin et al., 2000]) para sua instanciação. A Composição é similar às etapas de Definição e Planejamento no processo de experimentação, sendo uma importante fase, onde o pesquisador estrutura e define o estudo, em termos da seqüência de atividades necessárias, os tipos de dados de entrada e os produtos esperados. Essa fase, na verdade, é decomposta em duas subfases, a Concepção, no qual o pesquisador define um novo workflow, e o Reuso, no qual o pesquisador recupera um workflow e o adapta para atender a um novo estudo ou objetivo. Contudo, muitos autores sugerem que a Composição deve seguir um conceito de criação através de níveis de abstração [Medeiros et. al., 2005; Gil et. al., 2007], pois, assim, o pesquisador poderia, em momentos diferentes, definir o comportamento (objetivo, atividades e escopo) do workflow e depois, gradualmente, ir identificando questões de tecnologia (e.g., local de execução, tipo de chamada de uma ferramenta, dentre outras). Pode-se, de forma simplificada, definir em dois níveis a abstração do worklfow: concreto e abstrato. Neste caso, o nível mais abstrato é ligado à definição do comportamento do workflow, sendo denominado workflow abstrato. Já o nível concreto é ligado aos recursos computacionais necessários à execução do workflow científico, já pronto para execução em um SGWfC, sendo denominado workflow concreto [Mattos et al., 2008]. Com o crescente uso de estudos experimentais baseados em simulação na Engenharia de Software [Zhang et. al., 2008], faz se necessário buscar formas de auxiliar os pesquisadores em sua realização. Uma possível maneira, como em outras áreas científicas, é através do uso de tecnologias de workflow científico e SGWfCs, visto que trazem as vantagens já enumeradas anteriormente, como controle, proveniência e automação. Porém, apesar desses benefícios, o uso dessas tecnologias gera novas questões associadas à especificação, modelagem e reutilização deste tipo de estudo experimental [Mattoso et al., 2008]. Soma-se a isso o fato de estudos do tipo in 23 ESELAW’09 VI Experimental Software Engineering Latin American Workshop virtuo e in silico, naturalmente, já adicionarem complexidade a realização do estudo, pois requerem maior apoio computacional e infra-estrutura complexa, bem como maior conhecimento do domínio onde a pesquisa será realizada [Travassos & Barros, 2003]. Isso tudo torna a Concepção não trivial para o pesquisador. Assim, a concepção pode se tornar uma barreira para a modelagem computacional de estudos baseados em simulação. De fato, Modelagem Computacional já foi identificado como um dos desafios para computação [Kavanagh & Hall, 2008; SBC, 2009]. No momento da concepção do workflow científico, o pesquisador enfrenta uma série de dificuldades para sua realização. De forma geral, essa tarefa é realizada diretamente no nível concreto e de maneira ad hoc, o que pode acarretar em riscos para a pesquisa [Gil et. al., 2007; Verdi et al., 2007]. Soma-se a isso a falta de apoio dos SGWfC’s para documentação mais detalhada do estudo. Estes sistemas, por exemplo, não permitem a especificação de atividades manuais ou semi-automatizadas, e também não apóiam a representação de diferentes fluxos de execução ligados ao estudo definido no mesmo workflow, característica existente nos estudos em Engenharia de Software. Isso pode acarretar perda do conhecimento, que fica somente disponível com o pesquisador responsável pelo workflow, tornando-o tácito. Ainda, como não existe um processo bem definido, a concepção pode não ser realizada organizadamente e, assim, o conhecimento não ser explorado e documentado de forma sistemática, acarretando dificuldades para seu posterior reuso por outro pesquisador [Mattoso et. al., 2008]. Em uma revisão tradicional da literatura técnica, não foi possível identificar uma abordagem de concepção de workflow abstrato para estudos do tipo in virtuo e in silico, que utilizasse tarefas bem definidas e definisse meios de garantir a qualidade dos produtos gerados (especificação do workflow abstrato). Por isso, Pereira & Travassos (2009) propuseram uma abordagem para concepção de workflows científicos abstratos e conseqüente especificação destes estudos experimentais. Esta abordagem visa oferecer meios para garantir o aumento da qualidade do produto final e da padronização das tarefas e produtos gerados. Este trabalho descreve a aplicação da abordagem de concepção de workflows abstratos para estudos in virtuo e in silico [Pereira & Travassos, 2009] em Engenharia de Software através de sua aplicação no domínio da Evolução de Software [Araujo, 2009]. O artigo é organizado da seguinte forma: a Seção 2 apresenta, resumidamente, a Abordagem de Concepção; a Seção 3 apresenta um exemplo de aplicação no domínio de Simulação da Evolução; a Seção 4 apresenta as lições aprendidas com a aplicação da abordagem; a Seção 5 apresenta alguns trabalhos relacionados; a Seção 6 apresenta o andamento da pesquisa, os trabalhos futuros e a conclusão. 2. Abordagem para Concepção de Workflows Abstratos A Abordagem para Concepção de Workflows Abstratos, proposta por Pereira & Travassos (2009), inspira-se nos processos de desenvolvimento de software e explora as técnicas usualmente utilizadas na Engenharia de Software [Pfleeger, 2004]. Essa abordagem intenciona auxiliar o pesquisador na concepção de estudos experimentais in virtuo e in silico, que utilizem a tecnologia de workflow científico, oferecendo facilidades para garantir a qualidade da especificação. São utilizados modelos e formulários para representar a especificação do workflow abstrato. Os modelos são 24 ESELAW’09 VI Experimental Software Engineering Latin American Workshop baseados no diagrama de atividades da UML 2.2 [OMG, 2009], enquanto os formulários (Atividades, Artefatos e Ferramentas) são compostos por campos que representam os requisitos do estudo experimental. O responsável pela especificação e modelagem é denominado modelador, sendo ele um pesquisador ou engenheiro de software. A Figura 1 apresenta a Abordagem de Concepção, maiores detalhes em [Pereira & Travassos, 2009]. De maneira resumida, a seguir é apresentada a Abordagem de Concepção. Definir modelo inicial do workflow científico Identificar e modelar requisitos do workflow científico Inspecionar a especificação do workflow científico Nova rodada de inspeção Avançar na concepção Validar a especificação do workflow científico Não validado Validado Figura 1. Tarefas da Abordagem para Concepção de Workflows Abstratos [Pereira & Travassos, 2009]. Inicialmente, realiza-se a tarefa Definir o modelo inicial do workflow científico, onde o modelador concebe o modelo inicial, construindo uma visão global do estudo através da discussão com outros pesquisadores. Após esta tarefa, Identificar e modelar requisitos do workflow científico é executado. Nela, o modelador cria a especificação do workflow abstrato através de reuniões semi-estruturadas com os pesquisadores. Os formulários são utilizados como guias nas perguntas da entrevista e o modelo inicial como base para o modelo de workflow abstrato. Conforme citado anteriormente, a abordagem também foca na garantia da qualidade da especificação gerada. Para alcançar esse objetivo, primeiramente é realizada uma verificação da especificação (Inspecionar a especificação do workflow científico), através de uma inspeção ad hoc, no qual os inspetores, pesquisadores do domínio não envolvidos na especificação, verificam todo o documento em busca de discrepâncias. Os defeitos são categorizados e corrigidos. Já a tarefa de validação, Validar a especificação do workflow científico, é realizada através de reuniões com todos os participantes, no qual todo o conteúdo do documento é avaliado, assim confirmando se os requisitos do estudo experimental foram capturados de maneira a atender o seu propósito. Essa abordagem vem sendo utilizada no contexto de um projeto real, Gexp (http://gexp.nacad.ufrj.br), para a especificação de workflows abstratos no domínio de exploração de petróleo em sistemas alto mar (offshore). 3. Domínio da Simulação de Evolução de Software A pesquisa sobre Evolução de Software tem como objetivo entender como sistemas evoluem e modificam-se ao longo do seu ciclo de vida e como isto pode influenciar no decaimento de sua qualidade. Para isto, podem-se construir modelos de simulação para ajudar a observar a evolução do software ao longo de sucessivos ciclos de manutenção. Araújo (2009) apresenta um modelo, baseado nas Leis de Evolução de Software (LSE – Laws of Software Evolution) [LEHMAN et al. 1998], que permite a observação do processo de decaimento do software ao longo do tempo, através da simulação do comportamento de determinadas características do software. O modelo de Araújo baseia-se em premissas descritas através de formulações lógicas das LSE. Essas formulações representam as tendências do comportamento de determinadas características de software ao longo do tempo (e.g., características da fase de codificação: esforço, tamanho, periodici25 ESELAW’09 VI Experimental Software Engineering Latin American Workshop dade, complexidade, confiabilidade, manutenibilidade,). Entretanto, as premissas não permitem a observação direta do processo de decaimento da qualidade do software, pois não representam as influências que uma Lei exerce em outra. Assim, utiliza-se ferramentas para simular as características do software, através das equações definidas, que representam as influências entre as LSE e como essas afetam as características. A Figura 2 apresenta o processo para observação de Evolução de Software [Araújo, 2009]. Engenheiro de Software Coleta de Métricas Geração das Equações Construção Planilha Ferramenta para Dinâmica de Sistemas Simulação Evolução de Software Figura 2. Processo para Observação de Evolução de Software [Araújo, 2009]. Essa Figura 2 e uma descrição textual do processo são a especificação do estudo experimental apresentado em Araújo (2009). Contudo, a especificação apresentada não é padronizada, o que pode apresentar problemas. Por exemplo, na representação do modelo (Figura 2), estão misturados informações como: o perfil do pesquisador (Engenheiro de Software), a ferramenta utilizada (Ferramenta para Dinâmica de Sistemas) e as atividades do estudo. Estas informações distintas, sem um padrão de representação, que explicite qual é o significado de cada um desses no modelo, pode gerar confusão para um pesquisador que pretende repetir o estudo. Além disso, informações (e.g., descrição das atividades, insumos e produtos, dentre outras) estão descritas em formato textual sem um template, provocando o risco do pesquisador ao documentar esquecer alguma informação, pois, não há um conjunto característico de informações pré-definidas para cada elemento (Atividade, Ferramenta e Artefato) que deva sempre ser identificado. Estes exemplos de problemas, possíveis, no uso de uma especificação não padronizada, ilustram a necessidade do uso de uma abordagem que permita a identificação e documentação do conhecimento e dos requisitos (funcionalidades, restrições e objetivos) do estudo experimental a ser realizado. Com isso, foi aplicada a abordagem descrita na Seção 2, a fim de conceber uma especificação do estudo, incluindo atividades opcionais e/ou manuais e alternativas de ferramentas que suportam a execução do processo. Com essa especificação do workflow abstrato, esperase que, posteriormente, seja possível definir e repetir este estudo em um SGWfC. 3.1. Aplicação do processo de concepção Para representar o estudo in virtuo apresentado, foi criado, primeiramente, o modelo inicial do estudo (Figura 3), sendo ele um diagrama de atividades em alto nível de abstração. Foram identificadas, inicialmente, três atividades, retiradas do modelo (Figura 2) e, durante a modelagem inicial, foi identificada uma nova atividade: 1) Preparar dados para simulação, na qual as métricas extraídas do processo real de desenvolvimento são padronizadas, avaliadas e excluídas caso apresentem comportamento incomum; 2) Gerar as equações para simulação, na qual são criadas as equações baseadas nas formulações da LSE e que servirão como modelo para simulação das características do software; 3) Simular a evolução do software, na qual ocorre a simulação da evolução das características do software para um determinado tempo definido; 4) Análise do resultado da simulação, na qual o objetivo é gerar uma análise do resultado da simulação executada. Nesta etapa, também se identificou o papel do 26 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Engenheiro de Software, cuja responsabilidade é garantir a qualidade dos dados escolhidos, das equações geradas e análise do resultado da simulação. O modelo inicial (Figura 3) serviu como insumo para a tarefa de Identificar e modelar do processo de concepção. Início Experimento Preparar dados para simulação Simular a evolução do software Gerar as equações para simulação Análise do resultado da simulação Fim Experimento Figura 3. Modelo Inicial para Simulação da Evolução de Software. Este modelo inicial foi refinado e, assim, foram identificados alguns pontos de decisão no estudo (vide Figura 4). No modelo foram representados os fluxos de controle e dados do modelo, o que possibilita ao pesquisador visualizar as dependências entre as atividades do estudo, trazendo a ele uma visão dessas duas perspectivas. Também foi percebido que três atividades eram compostas de sub-atividades. Na Figura 4, as atividades compostas estão estereotipadas com <<structured>>, que representam o conceito de sub-workflows. Inicio_Simulacao_Decaimento Dados reais do processo de desenvolvimento «decisão» {Base de medidas das versões é válida e suficiente para gerar as equações?} «datastore» Base de medidas da organização Tabela com versões do software «structured» Preparar dados para simulação [SIM] [NÃO] «decisão» {Qual é origem do problema? Ação a ser tomada?} [MODIFICAR MEDIDAS DO SOFTWARE] Análise do resultado da simulação Final_Simulacao_Decaimento Tabela com versões do software Dados da simulação da evolução Equações para simulação [MODIFICAR EQUAÇÕES PARA SIMULAÇÃO] [NÃO] «Semi-automatizada» Análise do resultado da simulação «structured» Gerar as equações para simulação Dados da simulação da evolução [SIM] «structured» Simular a evolução do software «decisão» {Equações representam o modelo dinâmico?} Equações para simulação Figura 4. Workflow abstrato para Simulação da Evolução de Software. O modelo que representa os fluxos (controle e dados) da atividade Gerar as equações para simulação pode ser visto na Figura 5. Essa representação por subworkflows permitiu uma melhor organização, pois deixa os modelos mais legíveis para o pesquisador. Tabela com versões do software «structured» Gerar as equações para simulação Tabela com versões do software «Semi-automatizada» Final_Gerar_Equações Criar equações da simulação Versão base Equações para Equações para Versão base simulação simulação Tabela com versões do software Inicio_Gerar_Equações «Manual» Definir versão base da simulação Figura 5. Sub-workflow para Gerar equações para simulação. A especificação é composta pelos diagramas de atividades, mas também por um conjunto de formulários. Estes documentam cada atividade, artefato e ferramenta utilizada no estudo. Os formulários foram preenchidos conforme ocorreram as reuniões, em conjunto com a concepção dos modelos do workflow abstrato. A Tabela 1 apresenta alguns campos do formulário da atividade Criar equações da simulação. A Tabela 2 27 ESELAW’09 VI Experimental Software Engineering Latin American Workshop apresenta o formulário associado ao artefato Equações para simulação, que contém as equações geradas em Criar equações da simulação. A Tabela 3 apresenta o formulário da ferramenta Tabela_Excel. O documento de especificação é composto por uma seção de introdução, descrição dos papéis envolvidos, apresentação dos modelos (diagramas de atividades) e formulários preenchidos. Tabela 1. Formulário atividade Criar equações da simulação. Atividade Descrição Criar equações da simulação As equações combinadas (referentes à formulação lógica pra cada Lei de Evolução de Software) e os valores base das características são definidos nas equações para simulação, estas serão efetivamente utilizadas na simulação da evolução do software. Para tal utilizam-se duas técnicas: regressão linear; e, método de mínimos quadrados. A aplicação da técnica de regressão linear, apesar da possibilidade de aumento do erro, é condizente com a análise semi-quantitativo dos dados, pois neste estudo é a tendência do comportamento de uma variável que deve ser considerado, mais do que seus valores individuais. A aplicação do método de mínimos quadrados, que é uma técnica de otimização matemática, procura encontrar o melhor ajustamento para um conjunto de dados, tentando minimizar a soma dos quadrados das diferenças entre a curva ajustada e os dados, onde essas diferenças são chamadas de resíduos. Engenheiro de Software Tipo de Atividade Semi-Automatizada Papéis Obrigatoriedade Obrigatória Pré-condições Nenhuma Tabela_Excel Ferramentas Pós-condições Nenhuma versão base da Equações para simulação Produtos Pré-atividades Definir simulação Tabela com versões do software; Versão base Insumos Tabela 2. Formulário artefato Dados da simulação da evolução. Artefato Dados da simulação da evolução Descrição Este artefato é construído a partir das influências identificadas entre as características de software, considerando que a periodicidade é uma variável em função do tempo decorrido, e as demais características são calculadas a partir das funções das outras características que nela influenciam que, por sua vez, são calculadas a partir da regressão linear dos dados coletados do sistema em observação. Também estão considerados aqui os valores da versão base e o incremento de tempo (em dias) a ser utilizado no processo de simulação. Digital. Utilização Atividade Entrada/ Obrigatoriedade Formato Saída Interna Origem Criar equações da simulação Saída Obrigatória Tabela_Excel Ferramenta Simular evolução Entrada Obrigatória Nenhum Sinônimos Tabela 3 – Formulário ferramenta Tabela_Excel. Ferramenta Descrição Tipo de aplicação Versão Sistema Operacional Tabela_Excel Tabela no formato “.xls” onde já estão pré-definidos campos para o cálculo da regressão linear e do método dos mínimos quadrados. São geradas as equações para simulação a partir dos dados das versões do software e permite a definição dos valores das características do software versão base. Interface Formatos Suportados Formato “.xls”. Não há. Local Local de Execução Windows XP SP3 com Office Excel Forma de disparo Chamada por interface gráfica. Figura 6. Planilha para relato de discrepâncias encontradas na inspeção. Após a tarefa de Identificar e modelar, foi solicitado a um pesquisador, que não participou da especificação, que inspecionasse e relatasse as discrepâncias em uma 28 ESELAW’09 VI Experimental Software Engineering Latin American Workshop planilha, como apresentado na Figura 6. Foram encontradas 20 discrepâncias no documento. Após isso, as discrepâncias foram analisadas para descartar as que não fossem defeitos reais (falso positivos – 2 no total). Após a correção dos defeitos, o documento foi validado em conjunto, modelador e dois pesquisadores do domínio (incluindo o inspetor), sendo realizada a distância por um dos participantes. 4. Lições aprendidas A abordagem foi desenvolvida para ser aplicada por pesquisadores, porém foi observado ser ainda necessário conhecimento sobre modelagem UML, em especial sobre o diagrama de atividades. A aprendizagem sobre este modelo demanda tempo pelos participantes, em especial os pesquisadores. Por isso, a tarefa de Definir o modelo inicial do workflow científico é importante, pois abre a possibilidade do pesquisador ir assimilando os conceitos sobre modelagem e da própria técnica. Um ponto importante é a participação do pesquisador responsável e a necessidade de comprometimento por parte dos participantes, pois como em processos de software, o cliente é fundamental na captura e identificação dos requisitos. Relacionado à especificação e aos formulários, foi percebido que o crescimento do número de atividades, artefatos e ferramentas que fazem parte do estudo, pode dificultar o seu preenchimento, a sua manipulação e a consistência. Como os formulários foram criados para serem inter-relacionados, algumas informações ao sofrerem alteração demandam esforço para modificações em outros formulários. Ainda, destaca-se a possibilidade, apontada por um dos pesquisadores, de utilizar a especificação como forma de disseminação de conhecimento entre outros pesquisadores (novos no domínio). O modelo em diagrama de atividades permite uma visualização do encadeamento das atividades e os dados passados entre elas, enquanto os formulários sintetizam as informações e permitem um rápido acesso a um conteúdo organizado. 5. Trabalhos relacionados Em uma revisão da literatura técnica, apenas Verdi et al. (2007) apresentou um processo definido para concepção de workflows científicos abstratos. Este é composto por 3 fases de modelagem, com etapas de projeto e de validação. Contudo, não definem nenhuma atividade de verificação dos artefatos gerados, realizando somente a validação pelos próprios autores. Este tipo de abordagem pode acarretar risco da não percepção de defeitos no documento. Ainda, a captura das informações é realizada através de três modelos, um para capturar o fluxo de dados, outro para controle e um para hierarquia entre as atividades. Quanto ao modelo de hierarquia, o diagrama de atividades permite a representação de atividades compostas e, em geral, as ferramentas já mantém a consistência entre a atividade e seu modelo interno. Já sobre os fluxos de controle e dados, quando separados, pode haver inconsistência entre as informações nos diversos modelos. Além disso, muitos modelos diferentes podem gerar inconsistência na documentação e somente usar modelos, como em Verdi et. al. (2007), pode acabar por não capturar algumas informações consideradas importantes (e.g. pré e pós-condições, papéis ou riscos). Alguns sistemas utilizam o conceito de template para representar o estudo experimental abstratamente. Contudo, os templates são dependentes do SGWfC e à sua infra-estrutura de execução, onde foram concebidos. Gil et al. (2007) e Kaster et al. 29 ESELAW’09 VI Experimental Software Engineering Latin American Workshop (2005) apresentam abordagens desse tipo. Esses sistemas permitem que um pesquisador com bom conhecimento do estudo defina o template que, posteriormente, é instanciado para uma infra-estrutura computacional provida pelos sistemas. Porém, isto acarreta uma forte dependência entre o estudo, o template e a plataforma na qual foram concebidos, afinal ele só é utilizado no próprio SGWfC. O estudo acaba ficando restrito, pois a especificação que deveria ser independente de linguagem, ou máquina de workflow, já é concebida pensando em questões relacionadas ao SGWfC. Afinal, os requisitos são os mesmos para o estudo, não importando o SGWfC a ser utilizado. 6. Conclusão A experimentação baseada em simulação vem sendo cada vez mais utilizada em Engenharia de Software [Travassos & Barros, 2003]. Outras áreas da ciência também fazem uso da simulação e, para concretizá-la, utilizam tecnologias como workflows científicos. A Engenharia de Software, em especial a experimental, pode também utilizar tais tecnologias para obter vantagens, como controle, automação da execução e proveniência dos dados gerados em estudos experimentais baseados em simulação. Por isso, foi proposta uma abordagem para apoiar o pesquisador a especificar e gerar workflows científicos abstratos para estudos in virtuo e in silico [Pereira & Travassos, 2009]. Entendemos que a concepção de workflow científicos, em nível abstrato, deve ser independente de SGWfC, pois o estudo em si é independente de tecnologias e a sua execução deveria ser possível, a princípio, em qualquer infra-estrutura. Este artigo apresentou a aplicação da Abordagem de Concepção no domínio da observação da Evolução de Software. Através do uso da abordagem, foi possível capturar o processo para Simular a Evolução de Software de maneira incremental. O modelador e pesquisador responsável identificaram, inicialmente, as atividades e o seus objetivos, artefatos gerados e consumidos e ferramentas, gerando ao final uma especificação do workflow abstrato. Os formulários, quando utilizados, induzem a identificação das informações necessárias para o estudo e sua representação em workflow abstrato, levando à percepção de detalhes ou conhecimento não explicitado se feito de forma ad hoc. A formalização do estudo permite a posterior exploração dessa especificação como insumo para uma implementação em algum SGWfC ou ambiente computacional. A abordagem utilizada neste trabalho ainda está em desenvolvimento para apoiar experimentação baseada em simulação em Engenharia de Software. Melhorias já estão previstas, tal como uso de técnica de inspeção mais formal, por exemplo, checklists calibrados para guiar o inspetor na verificação de questões importantes para o domínio ou na completude das informações. No momento, está sendo revisada de forma mais sistemática a literatura técnica em busca de possíveis abordagens que atendam e possam ser adaptadas a este contexto de estudo in virtuo e in silico. O volume de informações e a repetição de tarefas indicam a necessidade de apoio computacional para melhorar o gerenciamento do conteúdo e inserção automática de informações (e.g., insumos e produtos, pré-atividades, dentre outras), visando diminuir problemas com a consistência entre as informações e o esforço na manipulação e preenchimento dos formulários. 30 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Agradecimentos Este trabalho é parte do projeto Engenharia de Software Experimental e Ciência em Larga Escala - CNPq (475459/2007-5) e FAPERJ. Os autores agradecem também a ao CAPES e FINEP por apoiar esta pesquisa. Referências Araújo, M. A. P. (2009) "Um Modelo para Observação de Evolução de Software", Tese de Doutorado, PESC/COPPE, Rio de Janeiro, UFRJ, p. 191. Deelman, E. et al. (2009) “Workflows and e-Science: An overview of workflow system features and capabilities”, In: FGCS, v. 25, n. 5, pp. 528-540. Gil, Y. et al. (2007) “Wings for Pegasus: Creating Large-Scale Scientific Applications Using Semantic Representations of Computational Workflows”, IAAI’07, Vancouver, Canadá, p. 1767-1774. Kaster, D.; Medeiros, C.; Rocha, H., (2005) “Supporting modeling and problem solving from precedent experiences: The role of workflows and case-based reasoning”, Environmental Modelling and Software, v. 20, pp. 689-704. Kavanagh, J.; Hall, W. (2008) “Grand Challenges in Computing Research 2008”, http://www.ukcrc.org.uk/grand_challenges/news/gccr08final.pdf. Juristo, N.; Moreno, A.M. (2001) “Basics of software engineering experimentation”, 1st ed., Kluwer Academic Publishers, 395p. Lehman, M.M.; Perry, D.E.; Ramil, J.F. (1998), “Implications of Evolution Metrics on Software Maintenance”, In:ICSM, v. 16, ed. 20, pp 208 – 217. Mattos, A. et al. (2008) “Gerência de Workflows Científicos: uma análise crítica no contexto da bioinformática”, COPPE/UFRJ, PESC, Technical Report ES-716/08. Mattoso, M. et al. (2008) “Gerenciando Experimentos Científicos em Larga Escala” In: SBCSEMISH´08, Belém, Brasil. p.121-135. Medeiros et. al., C.B. (2005) “WOODSS and the Web: annotating and reusing scientific workflows”, SIGMOD Record, v. 34, n. 3, p. 18-23. Oinn, T. et. al. (2007) "Taverna/myGrid: Aligning a Workflow System with the Life Sciences Community", In: Workflows for e-Science, Springer, p. 300-319. Object Management Group (2009) “OMG Unified Modeling Language Specification”, versão 2.2, formal/09-02-02, http://www.omg.org/spec/UML/2.2/. Pereira, W. M., Travassos, G.H. (2009) “Abordagem para concepção de experimentos científicos em larga escala suportados por workflows científicos” In: 3 E-Science Workshop colocado ao SBBD/SBES, Fortaleza, Brasil, in press. Pfleeger, S. L. (2004) “Engenharia de Software: Teoria e Prática”, 2nd ed., Prentice Hall, 560p. Sociedade Brasileira de Computação (2006). Grandes Desafios da Computação no Brasil: 2006-2016, http://www.sbc.org.br/index.php?language=1&content=downloads&id=272. Travassos, G. H.; Barros, M. O. (2003) “Contributions of In Virtuo and In Silico Experiments for the Future of Empirical Studies in Software Engineering”, In: ESEIW 2003 - WESSE, Roma, Italy, pp. 117–130. Verdi, K.; Ellis, H.; Gryk, M. (2007) “Conceptual-level workflow modeling of scientific experiments using NMR as a case study”, BMC Bioinformatics, v. 8, n. 31, 12p. Wohlin, C. et al. (2000) “Experimentation in Software Engineering”, Kluwer Academic Publishers, 204p. Zhang, H., Kitchenham, B., and Pfahl, D. (2008) “Software Process Simulation Modeling: Facts, Trends and Directions”, In Proceedings of the 2008 15th APSEC. IEEE Computer Society, Washington, DC, pp. 59-66. 31 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Estudo da Alocação de Pessoas em Projetos de Software através da Teoria Fundamentada em Dados Cinthya S. Oliveira, Cleidson R. B. de Souza, Carla A. L. Reis Programa de Pós-Graduação em Ciência da Computação Instituto de Ciências Exatas e Naturais - Universidade Federal do Pará {cinthyaseko, cdesouza, clima}@ufpa.br Abstract. Staffing a software project is a crucial activity on software development because of its impact on project quality and success. Despite its importance, current knowledge about how staffing takes place in real life is limited. This paper presents the results of a qualitative study conducted on a software development organization where staffing takes place in projects of different sizes and under various situations. Our goal was to understand how managers perform staffing in their daily work. Data collection and analysis was performed using grounded theory. Results include staffing criteria alongside their importance levels that can be adopted by other organizations, and, more importantly, highlight the importance of negotiation during the staffing process, an overlooked aspect of staffing software projects. Resumo. A alocação de pessoas a um projeto de software é uma atividade de extrema importância no desenvolvimento de software, pois são as pessoas que determinam a qualidade e o sucesso de um projeto. O objetivo neste artigo é apresentar os resultados de um estudo empírico conduzido em uma organização onde se realizam alocações de pessoas em projetos de diferentes portes e envolvendo situações distintas. Como resultados são mostrados critérios para a alocação de pessoas juntamente com os seus níveis de importância que poderão ser adotados em outras empresas, facilidades para auxiliar a atividade de alocação de pessoas e a importância da negociação durante o processo de alocação de pessoas. 1. Introdução A atividade de desenvolvimento de software é um esforço coletivo, complexo e criativo, e a qualidade do produto de software depende fortemente das pessoas, organizações e procedimentos utilizados para criá-lo [Fuggetta 2000]. Nesse contexto, a alocação de pessoas a um projeto de software é uma atividade de extrema importância no desenvolvimento de software, pois são as pessoas que determinam a qualidade e o sucesso de um projeto [ABNT 2000]. Na norma NBR ISO 10006 [ABNT 2000], no PMBOK [PMI 2004] e no modelo CMMI [SEI 2002] são citados fatores que devem ser levados em consideração para a alocação de pessoas a cada atividade de projeto, tais como: conhecimento, habilidade, disponibilidade, experiência, interesses pessoais e custo. Além de levar em conta as características individuais de cada membro da equipe, é importante considerar também fatores que influenciam o desempenho de uma equipe, como [Biffl 2003], [Shetler 1996], [Smith 2001]: habilidade, afinidade entre os membros, tamanho e diversidade de habilidades da equipe. Outros autores como Acuña (2006), Barreto (2005), França 32 ESELAW’09 VI Experimental Software Engineering Latin American Workshop (2007) e Fernandes (2007) também propõem abordagens para auxiliar a alocação de pessoas utilizando diferentes métodos. Apesar das diferentes recomendações e abordagens na literatura, existem poucos estudos que explorem como a tarefa de alocação de atividades é realizada no dia-a-dia por gerentes de projeto de software. Assim, para entender como a alocação de atividades é feita na prática, foi realizado um estudo empírico em uma empresa chamada simplesmente de Alpha (para preservar a sua identidade). A Alpha foi selecionada por: (1) existirem pessoas que realizassem a alocação de recursos em atividades de desenvolvimento de software; (2) ser uma empresa cujo porte possibilitasse um estudo de campo envolvendo diversos gerentes de projetos de software; (3) utilizar um processo de desenvolvimento de software com papéis definidos; e finalmente, (4) ter uma estrutura de escritório de projetos que estivesse envolvida na alocação de pessoas. A abordagem utilizada neste trabalho foi uma abordagem qualitativa baseada em estudos de campo, envolvendo coleta de dados por meio de entrevistas semi-estruturadas, onde são colocadas questões abertas que permitem maior interação e novas questões são abordadas de acordo com o conhecimento de novas informações [DeWalt 2002]. A análise dos dados foi realizada através da Teoria Fundamentada em Dados [Strauss 2008] que visa originar uma teoria que explique o que foi observado a partir dos dados. Como resultados serão mostradas boas práticas e critérios para a alocação de pessoas que poderão ser adotados em outras empresas e também a importância das negociações que ocorrem durante esta atividade, um aspecto pouco explorado na literatura. Do ponto de vista metodológico, este artigo apresenta um exemplo de utilização da teoria fundamentada em dados. O restante do artigo está organizado da seguinte forma: a seção 2 apresenta o estado da arte sobre alocação de pessoas. A seção 3 define a metodologia utilizada no trabalho: a Teoria Fundamentada em Dados. A seção 4 apresenta a caracterização do estudo empírico. A seção 5 apresenta os resultados, enquanto que a seção 6 apresenta a discussão dos resultados obtidos no estudo. Finalmente, a seção 7 contém as considerações finais e os trabalhos futuros. 2. Alocação de pessoas em projetos de software A alocação de pessoas em projetos de software envolve a designação de pessoas para as tarefas do projeto. Além da dificuldade em combinar características requeridas por atividades e características dos profissionais passíveis de serem alocados, existe pouco apoio automatizado para a realização da alocação de pessoas. Na tentativa de minimizar essas dificuldades, várias abordagens têm sido propostas como, por exemplo, em [Schnaider 2003] é disponibilizado um mapa de conhecimentos, habilidades, formação acadêmica e experiências dos profissionais da organização de forma a apoiar a alocação feita pelo gerente. Em [Barreto 2005] a alocação é tratada como um problema de satisfação de restrições associadas a fatores como custo, experiência e tamanho da equipe. Em [Acuña 2006] é utilizado um método baseado em capacidades pessoais requeridas. Em [Silva 2007] é apresentado um mecanismo baseado em políticas definidas pelo usuário, características das pessoas e necessidades do processo, produzindo sugestões de alocação. Finalmente, em [França 2007] é realizado um estudo sobre a relação entre habilidades necessárias em papéis funcionais do Rational Unified Process (RUP) com o comportamento de papéis de time descrito na Teoria de Papéis de Belbin [Belbin 1981]. Uma abordagem similar é apresentada em [Fernandes 2007] que faz a correlação entre o comportamento de papéis 33 ESELAW’09 VI Experimental Software Engineering Latin American Workshop de time descrito na Teoria de Belbin com as competências pessoais definidas no Project Management Competency Development – PMCD [PMI 2001]. Apesar destas abordagens, poucos estudos de campo foram realizados para o entendimento do processo de alocação de pessoas na prática. O objetivo deste estudo é justamente dirimir esta lacuna na literatura de gerenciamento de projetos. 3. A Teoria Fundamentada em Dados A teoria fundamentada em dados (do inglês, grounded theory) [Glaser 1967] visa originar a partir dos dados coletados, uma teoria que explique o que foi observado nesses dados. Isto é feito através da criação de categorias e relacionamentos entre as mesmas e permite extrair informações úteis de dados que a princípio formavam um grande de volume de dados desestruturados. Dessa forma, a teoria que resulta desta abordagem se parece mais com a “realidade” do que uma teoria derivada de maneira diferente, como a partir da reunião de uma série de conceitos baseados em experiência ou somente por meio de especulação. Teorias fundamentadas, por serem baseadas em dados, tendem a melhorar o entendimento de um contexto e fornecer um guia importante para ação [Strauss 2008]. Um aspecto importante da teoria fundamentada em dados é que ela intercala as fases de coleta e análise / validação dos dados para fornecer um entendimento sobre o que ocorre na prática e as razões que explicam tais fatos [Seaman 2008]. Portanto, durante as entrevistas, hipóteses são geradas, testadas e modificadas conforme a análise dos dados coletados. Para ser mais especifico, as fases da teoria fundamentada em dados são [Strauss 2008]: (1) Codificação aberta que é um processo analítico por meio do qual os conceitos são identificados e suas propriedades e dimensões descobertas nos dados. De forma geral, durante a codificação aberta, os dados são separados em partes distintas, rigorosamente examinados e comparados em busca de similaridades e de diferenças; (2) Codificação axial que consiste em relacionar categorias com subcategorias e examinar como as categorias se cruzam e se associam, isto é, esta fase visa identificar os relacionamentos entre as categorias; e (3) Codificação seletiva que é um processo contínuo de integração e refinamento da teoria após o reconhecimento das relações entre os conceitos. Neste caso, uma categoria central é escolhida e a teoria é detalhada em torno desta. 4. Caracterização do Estudo 4.1 O Contexto da organização O estudo de campo foi conduzido na Empresa Alpha que tem unidades de desenvolvimento espalhadas em 10 Estados do país atendendo aos requisitos do CMMInível 2 ou 3. Em algumas destas unidades existe o escritório de projetos implantado. Além disso, existe um processo de desenvolvimento de software que foi publicado em 2001 e é utilizado por toda a organização. As entrevistas foram realizadas com dez entrevistados responsáveis pela alocação de pessoas em projetos de desenvolvimento de software. O porte das unidades envolvidas no estudo variou de 44 a 130 empregados e o nível de experiência dos gerentes de projetos variou de 1 ano e meio a 10 anos de experiência, sendo que todos os entrevistados tiveram treinamento corporativo em Gerenciamento de Projetos. A seleção de gerentes de projetos se deu com o intuito de incluir unidades de portes diferentes, com ou sem Escritório de Projetos Funcional [Kerzner 2006] estabelecido, com níveis de experiência variados e que atendem a projetos de características distintas 34 ESELAW’09 VI Experimental Software Engineering Latin American Workshop (porte e tipo). As unidades entrevistadas têm uma estrutura matricial fraca, isto é, possuem características de organizações funcionais e projetizadas. Nesse tipo de organização, embora se reconheça a necessidade de um gerente de projetos, ele não possui autoridade total sobre o projeto e seus recursos financeiros. 4.2 Coleta de Dados A coleta de dados foi realizada através de entrevistas semi-estruturadas, onde não são fornecidas opções de resposta para não limitar ou direcionar a resposta do entrevistado. Nestas entrevistas são colocadas questões abertas que permitem maior interação com o entrevistado e novas questões são abordadas de acordo com o conhecimento de novas informações [DeWalt 2002]. Além de caracterizar os gerentes de projetos e a unidade onde trabalham, as perguntas foram elaboradas com o intuito de estimular os entrevistados a falarem sobre o seu trabalho no dia-a-dia, como realizam a alocação de pessoas: incluindo métodos e ferramentas utilizadas, interações com outras pessoas e outros fatores que influenciam nesta atividade. Para ser mais especifico, as seções do roteiro de entrevista contemplaram: (1) caracterização da unidade organizacional; (2) atividades que o gerente de projetos ou titular o escritório de projetos realiza; (3) como são realizadas as alocações de pessoas; (4) a experiência do entrevistado; e (5) o nível de capacitação do entrevistado em gerenciamento de projetos. A coleta de dados foi realizada ao longo de dois meses, sendo que quatro entrevistas foram presenciais e as demais foram realizadas remotamente via telefone. As entrevistas duraram entre 15 e 25 minutos. Além dos registros das entrevistas, foi utilizada de forma complementar a análise de documentação e artefatos de auxílio à alocação citados na entrevista. Esses artefatos eram solicitados pelos autores e, posteriormente analisados. Essas informações foram usadas para confirmar ou complementar informações geradas pelas entrevistas. 4.3 Análise dos dados O objetivo inicial do estudo estava focado nos critérios de alocação de pessoas e como estes eram priorizados e aplicados durante o projeto. Entretanto, através das entrevistas semi-estruturadas e da análise dos dados foi possível constatar a importância da negociação no processo de alocação de pessoas. Durante as entrevistas observou-se que o processo de alocação vai além do conhecimento e aplicação dos critérios de alocação: a negociação envolvendo líderes de projeto, gerente da unidade e titulares do escritório de projetos é uma atividade de extrema importância nesse processo. Este é um aspecto importante deste trabalho, pois contrasta diretamente com os trabalhos de [Barreto 2005] e [Souza 2007] onde a disponibilidade é uma das premissas para alocação de pessoas. A partir desta constatação, as novas entrevistas exploraram de maneira mais significativa a negociação que ocorre durante a atividade de alocação de pessoas. A análise de dados foi feita utilizando-se a ferramenta MAXqda2, onde as categorias foram identificadas juntamente com as suas propriedades e os relacionamentos entre as mesmas. 5. Resultados A partir da descrição de como os gerentes realizavam a alocação de pessoas e de suas atividades diárias foi possível realizar o ordenamento conceitual dos dados coletados, envolvendo suas propriedades e dimensões. Com isso, foi possível identificar: (1) 35 ESELAW’09 VI Experimental Software Engineering Latin American Workshop critérios de alocação de pessoas; (2) níveis de importância entre os critérios de alocação; (3) uma teoria sobre a importância da negociação durante a alocação de pessoas o que inclui questões como: o que, quando, onde, como e quem estaria envolvido nessa atividade. Cada um destes aspectos será discutido a seguir. Seguindo as recomendações da teoria fundamentada em dados [Strauss 1967], para ilustrar as conclusões de cada um dos resultados no decorrer do texto serão citados exemplos de onde os mesmos foram extraídos. 5.1 Critérios de alocação Experiência no negócio A experiência no negócio envolve conhecimentos sobre: objetivo do sistema, regras de negócio, cliente e integrações com outros sistemas e equipes. Este foi o critério mais citado nas entrevistas: oito dos dez entrevistados citaram esse critério. Em muitas entrevistas esse critério foi citado como mais importante que o conhecimento/experiência na plataforma e até mesmo a disponibilidade do desenvolvedor. A importância desse critério também se deve ao fato dele ser considerado muitas vezes em situações críticas, em que existe a necessidade de atendimento de uma manutenção corretiva, onde o prazo é crítico e em manutenções evolutivas em que se deve ter conhecimento sobre o sistema para realizar a avaliação de impactos. De acordo com o Entrevistado 07: “O último projeto foi crítico (dificuldade e prazo), por isso, selecionei pessoas que além de domínio sobre o negócio (objetivo do sistema), têm alta produtividade, pois funcionalidades críticas seriam alteradas e é mais fácil alocar quem gerou o código” Conhecimento ou experiência na tecnologia Muitos dos entrevistados citaram este critério como importante para a alocação. Em alguns casos, conhecimento e experiência foram utilizados como termos sinônimos. Entretanto, foi observado que muitas vezes o que é de fato importante, é a experiência, já que não adianta o desenvolvedor ter sido capacitado (ter o conhecimento) se ainda não o aplicou em nenhum projeto: “A alocação é feita pela experiência da pessoa, se já trabalhou com Java, design e etc..” (Entrevistado 01) “Considero conhecimento na tecnologia: ferramentas GED, conversão para formato PDF, ...” (Entrevistado 09) Conhecimento relacionado ao papel do processo de desenvolvimento Como as unidades pesquisadas seguem a um processo de software definido, uma das premissas que todos os entrevistados citaram é que as pessoas são designadas para os papéis definidos no processo e devem deter conhecimento sobre as atividades inerentes ao papel, conforme exemplo abaixo do Entrevistado 06. “Levo em considerações os papéis, já que as pessoas do pólo são treinadas e detêm conhecimentos de acordo com os papéis definidos no processo.” Características pessoais De uma forma geral, as características pessoais não foram citadas como um critério de alocação, mas alguns entrevistados citaram que as mesmas são consideradas em conjunto com o papel a ser executado no projeto. “Para o papel de testador levo em consideração características pessoais. A pessoa tem que ser criteriosa.” (Entrevistado 03) Disponibilidade 36 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Constatou-se que os períodos de disponibilidade podem derivar de informações sobre a indisponibilidade de cada profissional, como: envolvimento em outros projetos, férias, licença médica e outros afastamentos. Oito dos dez gerentes citaram que a disponibilidade de projeto é considerada como critério de alocação de pessoas. “Realizo a alocação via MS-Project... recursos (humanos) são integrados usando [o] banco de recursos, onde são registrados o abono, licença médica e férias.” (Entrevistado 02) O trecho acima ilustra também a necessidade de gerenciar as indisponibilidades das pessoas de alguma forma, por exemplo, em algum tipo de ferramenta para que estas indisponibilidades não atrapalhem inesperadamente o andamento do projeto. Isto também permite uma realocação ou replanejamento do projeto quando uma indisponibilidade futura é identificada. Interesse pessoal O interesse pessoal foi considerado como fator de motivação para que desenvolvedores participassem do projeto, mesmo que para isso a produtividade fosse reduzida. “... [considero em] quais áreas têm maior conhecimento e quais gostariam de trabalhar mesmo que não tenham todo esse conhecimento.” (Entrevistado 02) O trecho acima corrobora que o interesse pessoal do desenvolvedor deve ser considerado conforme consta na norma NBR ISO 10006 (2000), PMBOK [PMI 2004] e [Pfleeger 2004]. O interessante no trecho acima, é que o entrevistado chega a considerar o interesse pessoal em detrimento ao conhecimento na tecnologia e à produtividade. Produtividade A importância da produtividade dos desenvolvedores foi citada em algumas entrevistas, principalmente em situações que envolviam prazos curtos, importância do sistema para o cliente e criticidade da funcionalidade a ser alterada. “Na formação dos grupos de trabalho foram mapeadas as pessoas: as pessoas que são rápidas (alta produtividade) foram alocadas no grupo de manutenções corretivas, as que apresentam maior curva de aprendizado foram alocadas no grupo de trabalho de evolutiva.” (Entrevistado 08) Complexidade do projeto ou da tarefa Nas entrevistas, constatou-se que a complexidade do projeto ou da tarefa em geral estava ligada à complexidade da regra de negócio do sistema. “A característica do projeto considerada importante é a complexidade da regra de negócio, ...” (Entrevistado 10) “Depende da complexidade do projeto, se tiver muitas atividades, se muitas delas forem complexas e os analistas experientes forem poucos (eles são geralmente priorizados para as tarefas complexas)” (Entrevistado 04) Criticidade do Projeto A criticidade do projeto foi citada como aspecto ligado à importância do mesmo para o cliente ou para a unidade. Nessas situações, foram constatados casos em que existe até remanejamento de pessoas de outros projetos. “Como característica do projeto, considero se ele é crítico (estratégico para o cliente). Para esse caso, escolho pessoa que cumpre prazo” (Entrevistado 09) “... é necessário pensar a quanto à criticidade dos projetos, já que em alguns projetos mais críticos, deve-se ceder as pessoas.” (Entrevistado 2). É justamente este remanejamento de pessoas que leva a necessidade de negociação entre os gerentes das equipes de desenvolvimento. Este aspecto é discutido em mais detalhes na seção 5.3. 37 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Tipo do Projeto O tipo de projeto foi citado como um fator que influencia a alocação e está relacionado ao critério de experiência do desenvolvedor. No caso das manutenções evolutivas, a experiência é necessária para que se realize a análise de impactos das evoluções nas funcionalidades existentes. Para os casos das corretivas, um dos fatores é a urgência com que a correção deve ser efetuada e, por isso, uma pessoa experiente poderá corrigir o problema com maior agilidade. “Como se tratava de uma manutenção envolvendo a alteração de sistema implantado, por isso precisava de pessoas experientes (plataforma e conhecimento do negócio do cliente)” (Entrevistado 03) 5.2 Níveis de importância entre os critérios de alocação de pessoas Dentre os critérios de alocação citados pelos entrevistados, ficou claro que para cada situação, alguns critérios teriam que ser considerados em conjunto com outros para que se obtivesse o resultado esperado para a alocação. Além disso, existem níveis de importância entre os critérios, conforme os trechos abaixo. “Se tiver uma tarefa muito complexa e eu colocar uma pessoa inexperiente, ela não conseguirá dar vazão mesmo que tenha disponibilidade.” (Entrevistado 05) “Considero primeiramente o nível de conhecimento do negócio e, em seguida, o conhecimento na linguagem.” (Entrevistado 09) O primeiro exemplo ilustra que o trabalho a ser realizado não será executado no prazo se apenas o critério disponibilidade for considerado. 5.3 A importância da negociação durante a alocação de pessoas A negociação poderá ocorrer se a pessoa mais indicada para participar em um projeto estiver indisponível por estar alocada em outro projeto em andamento. Durante o estudo de campo foi constatado que essa negociação envolve gerentes de projetos, gerentes das unidades e titulares dos Escritórios de Projetos e pode levar até mesmo dias para ser finalizada, impactando no tempo necessário para a realização da alocação. Abaixo exemplos que mostram a necessidade e a complexidade da atividade de negociação com outros gerentes. “Quando tem papéis a serem executadas por pessoas de outra equipe (exemplo: consultor de garantia de qualidade) tem que negociar com outro líder.” (Entrevistado 03) “O que leva mais tempo é para negociar, pode levar dias. Quando o recurso já está para outro projeto tem que negociar, envolve até o gerente do pólo.” (Entrevistado 05) A negociação é uma atividade complexa, já que se a pessoa estiver alocada em outro projeto, isso desencadeará a realocação no projeto de origem. Nessas negociações deve ser determinado qual projeto é mais prioritário para a unidade ou para o cliente e isso implica em uma maior força no momento de fornecer aporte de recursos humanos para esse projeto. Essa decisão é tomada normalmente pelo gerente da unidade, conforme exemplo abaixo. “Isso já aconteceu [alocação de outras pessoas fora da equipe], aí o gerente da unidade interfere na alocação dando mais força para projetos mais críticos/estratégicos para o pólo/cliente.” (Entrevistado 01) De forma complementar, para apoiar a decisão do gerente da unidade e até diminuir o esforço envolvido na negociação, alguns entrevistados citaram a importância 38 ESELAW’09 VI Experimental Software Engineering Latin American Workshop do escritório de projetos da unidade realizar atividades de gestão de portfólio de projetos de forma a manter uma lista priorizada dos projetos mais importantes de acordo com as estratégias da unidade e também realizar a gestão de competências das pessoas. Isso pode ser confirmado no trecho abaixo do Entrevistado 02. “Alocação deve ser feita pelo escritório de projetos, de forma a não ser de responsabilidade do líder de projeto a negociação com outros líderes.” 6. Discussão Na norma NBR ISO 10006 [ABNT 2000], no PMBOK [PMI 2004] e no CMMI [SEI 2002] são citados que critérios devem ser considerados na atividade de alocação de pessoas, sem fornecer detalhamentos da importância dos mesmos para a execução das atividades e formação das equipes. Os resultados deste trabalho permitem identificar como cada um desses critérios é considerado no dia-a-dia dos gerentes, além de permitir o entendimento de como a prioridade entre os critérios é tratada pelos entrevistados de acordo com os resultados esperados pela alocação. Por exemplo, a experiência de um desenvolvedor é considerada em dois aspectos: experiência no negócio e experiência na tecnologia. Um fato interessante é que a experiência no negócio em muitos casos foi considerada mais importante que a experiência na tecnologia. No critério conhecimento, os gerentes enfatizaram a necessidade de conhecimento tanto na tecnologia como no papel a ser alocado no processo de desenvolvimento. O interesse pessoal deve ser considerado levando em consideração a sua motivação em realizar a tarefa, conforme sugerido em [Pfleeger 2004] e [Ferreira 2008]. Entretanto, foi interessante observar que em alguns casos, para considerar esse fator, o gerente de projetos dispensa outros fatores tradicionalmente considerados mais importantes, como a produtividade. Além disso, considerar o interesse pessoal é visto como uma forma de motivar o empregado. A alocação baseada em características pessoais de acordo com o papel a ser desempenhado corrobora o trabalho de Acuña (2006). Foi possível observar que os gerentes de projetos consideram as características do projeto como um todo ao invés de pensar nas características de cada atividade envolvida, pois isso influi diretamente no resultado esperado da alocação e na definição do perfil da pessoa a ser alocada. Um exemplo disto foi comentado pelo Entrevistado 09: “Como característica do projeto, considero se ele é crítico (estratégico para o cliente). Para esse caso, escolho a pessoa que cumpre prazo”. As características do projeto consideradas relevantes foram: (1) tipo (sistema novo, manutenção corretiva, manutenção evolutiva, etc.); (2) complexidade; e (3) criticidade. Estes resultados são diferentes dos apresentados em [Barreto 2005], [Souza 2007] e [Schnaider 2003]. Outro ponto que merece destaque é quanto à disponibilidade. Alguns autores como Barreto (2005) e Souza (2007) consideram que a alocação depende da disponibilidade das pessoas. Entretanto, os resultados deste estudo sugerem que esta é uma forma limitada de tratar o problema de alocação de pessoas, já que muitas vezes as pessoas a serem designadas já estão alocadas para outros projetos. Isto requer uma intensa e demorada negociação entre diversos atores, e caso a negociação tenha sucesso, ela pode causar uma realocação de pessoas nos projetos. O principal resultado deste trabalho está relacionado à importância da negociação para a adequada alocação de pessoas, um aspecto que não é tão discutido na literatura. Nesse sentido, no PMBOK [PMI 2004] é comentada a necessidade de negociação entre equipes de gerenciamento de projetos dentro da organização executora 39 ESELAW’09 VI Experimental Software Engineering Latin American Workshop para designar adequadamente recursos escassos ou especializados. Portanto, a negociação identificada nesse trabalho refere-se especificamente à realocação de pessoas. Essa negociação, por sua vez, envolve a discussão de que projetos são os mais prioritários e quais os perfis de competências das pessoas envolvidas. Além disso, a duração da atividade de alocação é diretamente influenciada pela negociação, que pode, quando requerida, necessitar de vários dias para ser concluída. Este aspecto – a duração da atividade de alocação – não é discutido em trabalhos anteriores. Em [Barreto 2005], por exemplo, a complexidade desta tarefa e a necessidade de apoio computacional para a mesma é apenas comentada. Para apoiar a negociação levando em conta a criticidade e o impacto em projetos em andamento é importante que exista uma ferramenta que apresente uma visão integrada dos projetos e atividades em execução além dos que ainda serão executados. Também, as pessoas passíveis de alocação poderiam ser tanto as que estão disponíveis no período quanto as que já estão alocadas. Além disso, deve ser fornecida uma forma de verificar os impactos no projeto de origem com a realocação. Outros aspectos relacionados ao projeto de ferramentas foram identificados, mas não puderam ser discutidos neste artigo por limitação de espaço. 7. Considerações Finais e Trabalhos Futuros O presente trabalho apresentou os resultados de um estudo qualitativo realizado na empresa Alpha. Nesta empresa, foi possível estudar unidades de desenvolvimento de software de diferentes portes, com e sem escritório de projetos implantado, com gerentes de projetos de variados níveis de experiência e envolvendo projetos com características diferentes. A partir da coleta e análise de dados utilizando-se a teoria fundamentada em dados, foi possível identificar em projetos reais os critérios que são levados em consideração durante a alocação de pessoas, o nível de importância destes critérios e as facilidades consideradas interessantes para auxiliar a atividade de alocação. Além disso, como principal resultado, destaca-se a importância da negociação no processo de alocação de pessoas. Espera-se que os resultados deste trabalho possam aperfeiçoar o processo atual de alocação de pessoas na empresa Alpha que não prevê a negociação durante a alocação, mas que, conforme discutido neste artigo influi tanto no tempo gasto para alocação quanto em relação aos impactos nos projetos em andamento. Também será possível propor melhorias no processo da empresa. Como trabalhos futuros estão a elaboração de um survey a ser aplicado a um número maior de gerentes de projetos da empresa Alpha visando obter dados quantitativos sobre o processo de negociação. Este survey deverá abordar aspectos, como: quais as pessoas envolvidas, quanto tempo dura essa atividade, como é realizada a priorização dos projetos e a análise dos perfis das pessoas a serem liberadas dos projetos e quais impactos são considerados aceitáveis durante a realocação. Agradecimentos Esta pesquisa é financiada pelo CNPq através do Edital Universal 2008 (473220/20083) e pela Fundação de Amparo à Pesquisa do Estado do Pará (FAPESPA) através do Edital Universal N.° 003/2008 e do Edital de Apoio a Grupos de Pesquisa No 017/2008. 40 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 8. Referências ABNT. NBR ISO 10006. Gestão da Qualidade – Diretrizes para a Qualidade no Gerenciamento de Projetos. 2000. Associação Brasileira de Normas Técnicas, Rio de Janeiro, RJ, Brasil. ACUÑA, S. T.; JURISTO, N.; MORENO, A. M. Emphasizing Human Capabilities in Software Development. 2006. IEEE Software. 23, 2 (Mar. 2006), 94-101. BARRETO, A. S.; BARROS, M. O.; WERNER, C. M. L. Apoio à Alocação de Recursos Humanos em Projetos de Software: Uma Abordagem Baseada em Satisfação de Restrições. 2005. IV Simpósio Brasileiro de Qualidade de Software - SBQS 2005. Porto Alegre, Brasil. BELBIN, M.R. Management Teams: Why they succeed or Fail. Butterworth-Heinemann, 1981. BIFFL, S.; HALLING, M. Investigating the Defect Detection Effectiveness and Cost Benefit of Nominal Inspection. 2003. IEEE Transactions on Software Engineering 29 (5), 385–397 DEWALT, K. M.; DEWALT, B. R. Participant Observation – A Guideline for Fieldworkers. Altamira Press, California, 2002. FERNANDES, F.; SILVA, F. Relações entre Competências Pessoais e Tipos de Personalidade do Gerente de Projetos. 2007. 2o. Congresso Brasileiro de Gerenciamento de Projetos. 2007. FERREIRA, P. ; SILVA, F. Fatores Humanos que Influenciam a Utilização de Processos de Software. 2008. VII Simpósio Brasileiro de Qualidade de Software. Florianópolis, Brasil. FRANÇA, C.; SILVA, F. Um estudo sobre Relações entre Papéis Funcionais do RUP e o Comportamento Pessoal no Trabalho em Equipe em Fábricas de Software 2007. In: III Workshop Um Olhar Sócio-técnico sobre a Engenharia de Software. Porto de Galinhas, PE. FUGGETTA, A. Software process: a roadmap. Proceedings of the Conference on The Future of Software Engineering, p.25-34, June 2000, Limerick, Ireland. GLASER, B. G.; STRAUSS, A. The discovery of grounded theory: Strategies for Qualitative Research. Aldine de Gruyter, NY, 1967. KERZNER, H .Gestão de Projetos: As Melhores Práticas. 2ªed.Bookman, Porto Alegre, 2006. PMI - Project Management Institute. A Guide to the Project Management Body of Knowledge PMBOK Guide. 3rd ed. 2004. PMI - Project Management Institute . Project Management Competency Development (PMCD) Framework. 2001. PFLEEGER, S. L. Engenharia de Software: teoria e prática. 2ªEd., SP:Prentice Hall, 2004. SCHNAIDER, L.R.C. Planejamento da alocação de recursos humanos em ambientes de desenvolvimento de software orientados à organização. 2003. Dissertação de Mestrado – COPPE/UFRJ, Rio de Janeiro, RJ, Brasil. SEAMAN, C. B. Qualitative Methods. In: SHULL, F. et al. Guide to Advanced Empirical Software Engineering London: Springer-Verlag, 2008. p. 35-62 SEI-SOFTWARE ENGINEERING INSTITUTE. CMMi for Software Engineering. Staged Representation (CMU/SEI-02TR029). Pittsburg: Carnegie Mellon University, 2002. SHETLER, J. Teaming in the microprocessor laboratory. 1996. Frontiers in Education Conference, 1996, FIE'96. Volume 3, 6-9 Nov.1996, pp.1437-1440. SILVA, M. A; LIMA REIS, C. A.; REIS, R. Q. Auxílio a Alocação de Pessoas em Projetos de Software Através de Políticas. 2007. VI Simpósio Brasileiro de Qualidade de Software SBQS 2007. Porto de Galinhas, Brasil SMITH D.C.; BECKER M.; BURNS-HOWELL J.;KYRIAKIDES, J. Creating High performance IS Teams. 2001. SAICSIT, Pretoria, 2001, 172–181 SOUZA, M. M. Uma Metodologia de Predição Estatística de Projetos Baseada em Simulação. 2007. Dissertação de Mestrado – Programa de Mestrado em Ciência da Computação, Universidade Federal de Pernambuco, Recife. STRAUSS, A.; CORBIN J. Pesquisa Qualitativa – Técnicas e procedimentos para o desenvolvimento de teoria fundamentada. 2ªed. Bookman, Porto Alegre, 2008. 41 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Experimentação em Engenharia de Software: Glossário de Termos Vitor Pires Lopes, Guilherme Horta Travassos COPPE / UFRJ – Programa de Engenharia de Sistemas e Computação Caixa Postal 68.511, CEP 21945-970, Rio de Janeiro – Brasil {vitorlopes, ght}@cos.ufrj.br Abstract. There is an increasing agreement in the Software Engineering community that experimentation is necessary to develop or to improve software development and maintenance processes, methods and tools. Motivated by the importance of Experimental Software Engineering, some researchers have tried to adapt concepts and definitions to their own perspectives and research practices. This scenario frequently leads to difficulties in knowledge exchanging between research groups and, mainly, in study results comparison. To address this problem, a glossary of terms concerned with Experimental Software Engineering has been organized. This paper describes the construction of this glossary and introduces a web-based tool that turns it accessible to the research community. Resumo. Existe um consenso crescente na comunidade de Engenharia de Software que experimentação é necessária para desenvolver ou melhorar processos de desenvolvimento e manutenção de software, métodos e ferramentas. Motivados pela importância da Engenharia de Software Experimental, alguns pesquisadores tentam adaptar conceitos e definições a suas perspectivas e práticas de pesquisa locais. Este cenário freqüentemente leva a dificuldades na troca de conhecimento e, principalmente, na comparação de resultados de estudo. Para tratar este problema, um glossário de termos em Experimentação em Engenharia de Software foi construído. Este artigo relata o processo de construção deste glossário e apresenta uma ferramenta web que o torna acessível para a comunidade de pesquisa em engenharia de software. Palavras-chave. Engenharia de Software Experimental, Taxonomia, Glossário de Termos, Experimentação 1. Introdução Atualmente, grande parte das informações sobre novas tecnologias de software (processos, métodos, técnicas e ferramentas) ainda são baseadas em opinião própria ou propaganda. Entretanto, a pesquisa científica não pode ser baseada em opiniões ou interesses comerciais [Juristo e Moreno, 2001]. Neste contexto, experimentação provê uma forma sistemática, disciplinada e controlada para avaliar processos e atividades humanas [Wöhlin et al., 2000]. Estudos experimentais contribuem no sentido de prover justificativas para o uso ou não de tecnologias, baseadas em indicações sobre a efetividade destas tecnologias para melhoria da qualidade do software. Assim, os resultados de estudos experimentais executados em diferentes cenários de pesquisa podem ser utilizados como pontos de partida para definir um conjunto de critérios que 42 ESELAW’09 VI Experimental Software Engineering Latin American Workshop apóiem o processo de tomada de decisão a respeito da utilização de tecnologias de software. Na pesquisa em Engenharia de Software, iniciativas na condução de estudos experimentais vêm aumentando consideravelmente ano após ano. Diferentes grupos de pesquisa executam e incentivam a adoção de estudos primários e secundários como meios de gerar evidências e construir um corpo de conhecimento científico válido em Engenharia de Software [Travassos et al., 2008]. Motivados pela importância de Experimentação no avanço da pesquisa em Engenharia de Software, vários grupos de pesquisa tentaram adaptar conceitos e definições de Experimentação para suas próprias perspectivas e metodologias de trabalho, freqüentemente diferentes entre si. Isto traz dificuldades no compartilhamento e disseminação do conhecimento produzido, pois cada grupo de pesquisa passa a utilizar um conjunto de conceitos e definições próprio. O estímulo à colaboração entre pesquisadores também é dificultado pela ausência de uma normatização de termos empregados na área. Além disso, a comparação entre resultados de grupos diferentes pode ser prejudicada em função de não apresentarem um padrão de descrição compatível entre si. A falta de uma taxonomia em comum dificulta a evolução científica da área [Sjøberg et al., 2007]. Tendo em vista este cenário, a comunidade de pesquisadores do ISERN1 (International Software Engineering Research Network) deu início, em 1995, à construção de uma primeira versão de um glossário de termos que contemplasse os conceitos com sua respectiva definição no domínio da experimentação em Engenharia de Software. Tomando como ponto de partida este trabalho do ISERN, combinado com informações extraídas de outras iniciativas mais recentes [Amaral, 2003], o grupo de Engenharia de Software Experimental2 da COPPE/UFRJ iniciou a reorganização do glossário de termos. Em complemento, planejou e conduziu, em parceria com diferentes pesquisadores, sessões de revisão que reuniram cientistas e alunos no sentido de fornecer contribuições para melhorar a completude e a corretude deste glossário. Para facilitar o acesso às informações e sua constante atualização e avaliação através da contribuição contínua da comunidade, o glossário está disponível através de uma ferramenta web baseada na tecnologia wiki3, onde funcionalidades para facilitar a navegação e consulta da lista de termos foram acrescentadas, incluindo a possibilidade de representação em diferentes línguas nativas. Este trabalho descreve o processo de construção do glossário de termos, contemplando detalhes sobre o planejamento e a execução das sessões de revisão que contribuíram para a definição da lista de termos atual. É discutida também a integração do glossário ao repositório de conhecimento de um ambiente de Experimentação em Engenharia de Software. Além disto, são apresentadas as principais características da ferramenta4 sobre a qual o glossário foi disponibilizado à comunidade. 1 http://isern.iese.de/network/ISERN/pub 2 http://ese.cos.ufrj.br 3 http://www.mediawiki.org/wiki/MediaWiki 4 http://lens-ese.cos.ufrj.br/wikiese 43 ESELAW’09 VI Experimental Software Engineering Latin American Workshop O artigo está organizado em quatro seções: A primeira compreende esta introdução. A seção 2 descreve o processo de construção do glossário de termos. A seção 3 detalha as facilidades fornecidas pela ferramenta que disponibiliza o glossário. A última seção resume e conclui este artigo. 2. Processo de Construção do Glossário de Termos No contexto de experimentação em larga-escala, a troca de conhecimento e experiência entre os pesquisadores fica dificultada quando estes não se utilizam de um vocabulário em comum. Freqüentemente, cada grupo de pesquisa adapta conceitos e definições sob suas próprias perspectivas. Isto conduz a divergências entre os pesquisadores, por vezes tornando difícil a comparação entre os resultados dos estudos e assim atrasando a evolução da área [Sjøberg et al., 2007]. Visando tentar reduzir as divergências terminológicas e construir uma perspectiva em comum para a área, foi desenvolvido um glossário de termos de Experimentação em Engenharia de Software. As subseções a seguir detalham a construção da versão inicial do glossário, a condução de revisões de seu conteúdo em parceria com diferentes pesquisadores e alunos e a integração do glossário ao repositório de conhecimento do eSEE, um ambiente de apoio à Experimentação em Engenharia de Software. 2.1. Construção da Versão Inicial do Glossário de Termos A comunidade ISERN disponibilizou uma primeira versão de um glossário de termos [ISERN, 1995], elaborado a partir dos estudos usualmente executados na época no contexto desta comunidade e relacionados principalmente a estudos in vitro no domínio de inspeções de software. Desde então foi possível perceber uma demanda crescente pela utilização de experimentação em Engenharia de Software, com foco diversificado e direcionado a diferentes categorias de estudo. Desta forma, o glossário proposto inicialmente, embora adequado para uma categoria em particular de estudos, não permitia o entendimento consistente dos conceitos envolvidos nos novos tipos de estudo. Assim, visando contribuir para a evolução da experimentação em Engenharia de Software, uma nova versão do glossário de termos passou a ser organizada a partir de 2004. Um conjunto evoluído de termos foi organizado a partir da consolidação da terminologia básica estabelecida pelo ISERN e dos trabalhos de Amaral (2003), Costa et al. (2003) e Chapetta (2006). Estes trabalhos abordam conceitos básicos sobre experimentação e também específicos sobre diferentes categorias de estudo, contribuindo assim para consolidar um glossário mais contemporâneo e com uma cobertura mais satisfatória. Nesta reorganização, foram removidas as duplicatas cuja definição fosse menos precisa. Foi organizada uma sessão no ESELAW’06 para apresentá-lo à comunidade. O terceiro Workshop de Experimentação em Engenharia de Software – ESELAW’06 – apresentou objetivos similares aos anteriores: reportar e discutir novos resultados na área e encorajar a troca de idéias para compreender, a partir de um ponto de vista experimental, aspectos de qualidade e deficiências de tecnologias de Engenharia de Software. O evento reuniu vários pesquisadores da América Latina (principalmente do Brasil) e, portanto, representou uma excelente oportunidade para conduzir uma sessão de discussão entre os participantes para identificar melhorias no 44 ESELAW’09 VI Experimental Software Engineering Latin American Workshop glossário e os possíveis requisitos para estrutura computacional de apoio a sua utilização através da web. Assim, consolidou-se a primeira versão do glossário de termos de Experimentação em Engenharia de Software. Este resultado se encontra disponível nos Anais do ESELAW’06. A discussão conduzida no ESELAW’06 apontou a importância de facilidades para navegação, inclusão, alteração e exclusão de conceitos e definições no uso do glossário. Ressaltaram também a facilidade de acesso como sendo uma característica determinante no incentivo à normatização terminológica na área. Tendo em vista estas perspectivas, foram identificadas e estudadas tecnologias candidatas para apoiar o desenvolvimento de uma ferramenta que torne o glossário mais acessível e forneça operações básicas de manipulação de seu conteúdo. Dentre as opções disponíveis, foi escolhida a tecnologia wiki. Esta tecnologia fornece uma infra-estrutura com diversas facilidades construídas especificamente para glossários, incluindo recursos de controle de acesso, navegação, inclusão, alteração e exclusão de termos e definições. A seção 3 fornece maiores detalhes sobre as funcionalidades oferecidas pela ferramenta que disponibiliza o glossário. A subseção a seguir descreve como foram conduzidas revisões do glossário. 2.2. Revisões do Glossário de Termos Após apresentação no ESELAW’06 e consolidação da primeira versão do glossário, seu conteúdo passou por sessões de revisão por diferentes grupos relacionados à Engenharia de Software Experimental. Foram conduzidas sessões de revisão em eventos científicos que reunissem pesquisadores de diferentes comunidades, representando assim uma excelente oportunidade de divulgação do glossário no meio de pesquisa e de discussões visando melhorias na completude e corretude da lista de termos. Uma primeira revisão ocorreu na reunião do ISERN em 2007. Como uma das primeiras iniciativas de concepção do glossário veio do ISERN através da definição de uma terminologia básica, a reunião entre os membros deste grupo foi considerada para divulgar o glossário e executar uma revisão. Em seguida, outra revisão ocorreu no ESELAW’07. Os objetivos destas revisões foram avaliar a pertinência e a correção do conteúdo do glossário. Nestas revisões, apresentou-se o glossário e uma discussão foi promovida a fim de identificar quais termos podiam ser incluídos e quais seriam passíveis de exclusão por não estarem ligados diretamente à experimentação em Engenharia de Software. Os participantes foram divididos em grupos que receberam um documento (Figura 1) listando os termos inclusos no glossário, organizados em ordem alfabética. Os participantes foram orientados a discutir em grupo quais termos poderiam ser inclusos e, dentre aqueles listados, quais seriam passíveis de exclusão. 45 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Figura 1. Documento distribuído para registrar sugestões de inclusão e exclusão de termos Os termos sugeridos por cada grupo foram comparados para eliminar eventuais duplicatas e serem efetivamente inseridos. Como as avaliações não solicitaram definições para os termos sugeridos, realizou-se uma pesquisa na literatura para fornecer as definições com suas devidas referências. Como resultado, um modelo bem mais estável e cobrindo um conjunto mais abrangente de tipos de estudos foi obtido. A seguir, em 2008, como uma última atividade antes da liberação do glossário para a comunidade, foi realizada uma sessão de inspeção como um dos trabalhos da disciplina de Experimentação em Engenharia de Software, ministrada pelo Programa de Engenharia de Sistema e Computação da COPPE/UFRJ. A disciplina foi direcionada para 22 alunos, dentre os quais 18 mestrandos e 4 doutorandos, tendo transcorrido nos meses de outubro, novembro e dezembro de 2008. Referências importantes na área de Experimentação em Engenharia de Software, tais como [Wöhlin et al., 2000] e [Juristo e Moreno, 2001], juntamente com o conhecimento transmitido na disciplina, subsidiaram a realização por parte dos alunos de uma inspeção no glossário. Os objetivos desta inspeção contemplaram a detecção de discrepâncias que não foram objetivo de avaliação nas revisões anteriores. Os alunos focaram na identificação de problemas relacionados à omissão de termos e definições, correção de das definições e alteração de nome dos termos. Um total de 190 oportunidades de melhoria foi identificado após discriminação e remoção de duplicatas. 2.3. Integração a um repositório de conhecimento Executar estudos experimentais envolve grande volume de conhecimento consumido e produzido ao longo da execução do Processo de Experimentação [Shull et al., 2001]. Este conhecimento precisa ser gerenciado adequadamente, sendo disponibilizado no momento certo ao pesquisador para auxiliá-lo em tomadas de decisão e também registrado para posterior consulta. Em vista disto, Lopes e Travassos (2009) destacaram a necessidade de um repositório que formalize este conhecimento, tornando-o acessível ao pesquisador durante a execução do Processo de Experimentação. Este repositório foi proposto como sendo o núcleo de recuperação de conhecimento do eSEE (experimental Software 46 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Engineering Environment), uma infra-estrutura computacional baseada em serviços web que provê facilidades de instanciação de ambientes de apoio ao Processo de Experimentação em Engenharia de Software [Travassos et al., 2008]. O eSEE consulta o repositório e disponibiliza ao pesquisador o conhecimento necessário para instanciar ambientes com todas as facilidades requeridas para conduzir o estudo desejado [Lopes e Travassos, 2009]. Repositórios de conhecimento expressam, através de uma linguagem de representação de conhecimento específica, conceitos e seus relacionamentos [O’Leary, 1998]. Como o repositório proposto para o eSEE contempla conceitos de Experimentação em Engenharia de Software, os termos listados no glossário podem constituir um conteúdo inicial deste repositório. Assim, o glossário construído até então se revelou um importante mecanismo de representação de conhecimento a ser adotado na estruturação deste repositório [Lopes e Travassos, 2009]. O eSEE contempla a instanciação de ambientes para diferentes tipos de estudo e, portanto, o conhecimento a cerca desses estudos deve estar refletido no repositório. Lopes e Travassos (2008) identificaram o domínio deste conhecimento, que contempla conceitos ligados às taxonomias de estudo segundo abordagem de pesquisa, estratégia de estudo, método de pesquisa e ambiente de estudo. Entretanto, o glossário construído até então carece de uma cobertura mais satisfatória a cerca dos conceitos sobre essas taxonomias. Desta forma, para consolidar a integração do glossário ao repositório, realizou-se uma pesquisa em referências importantes na literatura de Experimentação em Engenharia de Software. O objetivo foi agregar novos termos sobre as taxonomias previstas em [Lopes e Travassos, 2008], tornando o conteúdo do glossário mais aderente ao conhecimento requerido pelo repositório de conhecimento do eSEE. As referências selecionadas foram [Juristo e Moreno, 2001], [Shull et al., 2008] e [Wöhlin, 2000]. Foram identificados 28 novos termos, incluídos com sua respectiva definição no glossário através da ferramenta wiki. Com a inclusão dos conceitos sobre os diferentes tipos de estudos previstos em [Lopes e Travassos, 2008], o glossário foi integrado como um dos mecanismos estruturantes do repositório de conhecimento do eSEE (Figura 2). Como o repositório também deve explicitar relacionamentos entre os conceitos, foram construídas ontologias que representam as relações entre os conceitos expressos no glossário [Lopes e Travassos, 2009]. Figura 2. Repositório de conhecimento de Experimentação em Engenharia de Software47 [Lopes e Travassos, 2009] ESELAW’09 VI Experimental Software Engineering Latin American Workshop 3. Características do Glossário de Termos A primeira versão do glossário foi construída e disponibilizada em um documento. O aumento gradativo no número de termos, embora crucial do ponto de vista de completude, trouxe dificuldades para os pesquisadores navegarem pela lista, procurar por um termo específico e, sobretudo, controlar o acesso aos direitos de alteração no glossário. Assim, deu-se início, após consolidação da primeira versão do glossário, de um estudo sobre tecnologias disponíveis que pudessem ser empregadas no desenvolvimento de uma ferramenta que disponibilizasse o glossário. Os requisitos da ferramenta que a tecnologia deve apoiar são: Ser composto como um sistema web, permitindo seu uso em diferentes localidades e entre comunidades de pesquisa; Prover controle de acesso; Disponibilizar operações de inclusão, alteração e exclusão de termos, definições e referências. Dentre as opções disponíveis, foi escolhida a tecnologia wiki [MediaWiki, 2009]. Esta tecnologia fornece uma infra-estrutura que satisfaz os requisitos estabelecidos por ter sido concebida para viabilizar a criação e manutenção de glossários. A infra-estrutura é disponibilizada em um pacote de instalação contendo nativamente recursos de controle de acesso, navegação, inclusão, alteração e exclusão de termos e definições. Perfis de moderadores podem cadastrar novos usuários com diferentes permissões de alteração no glossário. Por padrão, todo usuário da ferramenta pode consultar os termos do glossário sem, entretanto, estar efetivamente cadastrado. A ferramenta está acessível através do endereço http://lens-ese.cos.ufrj.br/wikiese. A ferramenta apresenta a lista de termos em ordem alfabética, na qual o usuário pode navegar facilmente entre os termos utilizando hiperlinks (Figura 3). A fim de adicionar uma forma de navegação diferenciada, desenvolveu-se um componente baseado em hipergrafo (Figura 4) que oferece uma nova perspectiva sobre a lista. Os termos são apresentados em um hipergrafo e ligados pelos nós rotulados pela sua inicial. Figura 3. Lista de Termos 48 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Figura 4. Hipergrafo do Glossário de Termos Ao acionar o link de um dos termos da lista ou do hipergrafo, o pesquisador é conduzido à página (Figura 5) contendo a definição em inglês, português e espanhol do termo em questão. Além disso, são citadas as referências que fundamentam a definição e outras fontes importantes na contextualização do termo. Figura 5. Definições em diferentes línguas do termo selecionado 4. Conclusão Este artigo descreveu o glossário de termos de Experimentação em Engenharia de Software. O processo de construção do glossário foi detalhado em termos da consolidação de sua versão inicial e das revisões conduzidas entre os pesquisadores, visando ampliar a completude e a corretude da lista de termos. Discutiu-se também a integração do glossário a um repositório de conhecimento sobre Experimentação em Engenharia de Software, que demandou a inclusão de termos a cerca de conceitos sobre 49 ESELAW’09 VI Experimental Software Engineering Latin American Workshop os diferentes tipos de estudo experimentais. Ao final foram apresentadas as principais características da ferramenta que disponibiliza o glossário na web. Dentre as contribuições deste trabalho, destacamos a construção do glossário como uma importante iniciativa para estabelecer uma terminologia comum na área de Experimentação em Engenharia de Software. As avaliações conduzidas constituíram uma relevante contribuição para que o glossário atingisse níveis de corretude e completude satisfatórios em comparação com sua versão inicial. Destacamos também a importância do glossário na estruturação do repositório de conhecimento do eSEE, através do qual o glossário pode ser utilizado. O glossário revisado pode ser acessado também de forma independente através do endereço http://lens-ese.cos.ufrj.br/wikiese. Acreditamos que a comunidade possui importantes contribuições a fornecer no sentido de melhorar e divulgar o glossário, fomentando seu uso de forma extensiva entre os pesquisadores. A colaboração de membros da comunidade para evolução contínua e divulgação do glossário representa um importante passo na normatização da terminologia e melhoria constante do glossário, que deve refletir a própria evolução da área de Experimentação em Engenharia de Software. Agradecimentos O glossário de termos é parte do projeto Engenharia de Software Experimental e Ciência em Larga Escala - CNPq (475459/2007-5) e FAPERJ. Agradecemos ao grupo de Engenharia de Software Experimental, em especial aos alunos Felipe Pinto e Vinicios Bravo, pelas importantes contribuições na construção da versão inicial da ferramenta wiki. Os autores reconhecem e agradecem o apoio de Mike Baker (ISERN) e Sandra Fabbri (UFSCar-ESELAW) nas atividades de organização e revisão do glossário. Referências Amaral, E. A. G. G. (2003) “Empacotamento de Experimentos em Engenharia de Software”, Dissertação de Mestrado, COPPE/UFRJ, Engenharia de Sistemas e Computação, RJ, Brazil. Basili, V.R., Shull, F., Lanubile, F. (1999). “Building Knowledge through Families of Experiments”, In: IEEE Trans. on Software Engineering, vol. 25, No. 4. Chapetta, W. A., (2006), “Uma Infra-estrutura para Planejamento, Execução e Empacotamento de Estudos Experimentais em Engenharia de Software”, Dissertação de Mestrado, Programa de Engenharia de Sistemas e Computação, COPPE/UFRJ, Universidade Federal do Rio de Janeiro. Rio de Janeiro, RJ, Brasil. Costa, H.R.; Mian, P.G. Travassos, G.H., (2004), “Estendendo um Modelo de Processo e de Empacotamento de Estudos Experimentais”, Relatório Técnico do Projeto eSEE. ISERN, (1995), “ISERN basic terminology in Experimental Software Engineering”, http://www.cs.umd.edu/projects/SoftEng/tame/isern/isern.definitions.html. Juristo, N., Moreno, A. (2001). “Basics of Software Engineering Experimentation”, Kluwer Academic Press, 1ª edição. 50 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Lopes, V.P., Travassos, G.H. (2008) “Infra-estrutura Conceitual para Ambientes de Experimentação em Engenharia de Software”, Experimental Software Engineering Latin American Workshop (ESELAW'08), Brasil. Lopes, V.P., Travassos, G.H. (2009) “Estrutura do Repositório de Conhecimento de um Ambiente para Experimentação em Larga Escala em Engenharia de Software”, Em: Anais do XXIII Simpósio Brasileiro de Engenharia de Software, SBES, Fortaleza, CE, Brasil, Outubro. O’Leary, D.E., (1998), “Using AI in Knowledge Management: Knowledge Bases and Ontologies”. IEEE Intelligent Systems, v. 13, n. 3 (May/Jun), pp. 33-39. Shull, F., Singer, J., Sjøberg, D. I. K. et al., “Guide to Empirical Software Engineering”, Springer, ISBN: 978-1-84800-043-8, 2008. Shull, F., Carver, J., Travassos, G.H., (2001), “An Empirical Methodology for Introducing Software Processes”. In: 8th European Software EngineeringSymposium and 9th ACM SIGSOFT Symposium on the Foundations of Software Engineering (FSE-9) and 8th European Software Engineering Conference (ESEC), Vienna, Austria, September. Sjøberg, D.I.K., Diba, T., Jorgensen, M., (2007), “The Future of Empirical Methods in Software Engineering Research”. Em: International Conference on Software Engineering (ICSE), Minneapolis, Estados Unidos, Maio. Travassos, G. H., Santos, P. S. M., Mian, P. G., Dias Neto A. C., Biolchini, J., “A Environment to Support Large Scale Experimentation in Software Engineering”, 13th IEEE International Conference on Engineering of Complex Computer Systems, Abril, 2008. MediaWiki, (2009), http://www.mediawiki.org/wiki/MediaWiki Wohlin, C., Runeson, P., Höst, M., Ohlsson, M., Regnell, B., Wesslén, A., Experimentation in Software Engineering – An Introduction. Kluwer Academic Publishers. 2000. 51 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Rastreabilidade Indutiva Aplicada a Artefatos de Software Trabalho técnico Raquel Nitsche dos Santos, Raul Sidnei Wazlawick Departamento de Informática e Estatística – Programa de Pós-Graduação em Ciência da Computação – Universidade Federal de Santa Catarina (UFSC) – Cx. P. 476 – Florianópolis, SC – Brasil {raquelnitsche, raul}@inf.ufsc.br Abstract. Maintaining quality and consistency of artifacts through a software project can be more effective with the use of traceability. However, creating consistent traceability relationships can be a task so complex that it is often ignored or minimized. Techniques such as automatic discovery and traceability matrix have known limitations. This paper examines an alternative that consists in allowing the creation of traceability relationships inductively during the software development process. Experiments with a CASE tool showed encouraging results indicating that the technique can significantly improve productivity. Resumo. A tarefa de manter a qualidade e consistência de artefatos ao longo de um projeto de software pode ser mais efetiva com a utilização de rastreabilidade. Porém, a criação de relações de rastreabilidade consistentes ao longo de um projeto é uma tarefa tão complexa que muitas vezes é deixada de lado. Técnicas como a recuperação automática e a matriz de rastreabilidade apresentam limitações. Este trabalho examina outra abordagem que consiste em permitir a criação de relações de rastreabilidade indutivamente ao longo do desenvolvimento dos artefatos do projeto. Experimentos com uma ferramenta CASE mostraram resultados animadores indicando que a técnica pode melhorar significativamente a produtividade. 1. Introdução Os artefatos de software são constituídos por diversos elementos. Por exemplo, o modelo conceitual é formado por classes, atributos e associações, enquanto o diagrama de caso de uso é formado por casos de uso, associações e atores. Para que o desenvolvedor1 possa saber quais elementos afetam e são afetados por outros, ele pode utilizar o conceito de rastreabilidade, que consiste em uma maneira de associar elementos indicando uma relação de causa-efeito entre eles. A rastreabilidade entre elementos de artefatos permite acompanhar a vida de um artefato durante o ciclo de vida do software [1]. A rastreabilidade auxilia na compreensão dos relacionamentos entre os artefatos [7], 1 Desenvolvedor é entendido neste artigo como qualquer profissional (analista de sistemas, projetista, programador, etc.) que crie artefatos relacionados ao produto de software em desenvolvimento. 52 ESELAW’09 VI Experimental Software Engineering Latin American Workshop na análise de impacto e no reuso de software, proporcionando ao desenvolvedor uma importante visão para o processo de desenvolvimento e evolução do software. A rastreabilidade é reconhecida como um importante fator para obtenção da qualidade no processo de desenvolvimento, bem como para um gerenciamento de projeto eficiente [5]. Processos de melhoria da qualidade de software como o CMMI nível 3, ISO 15504 e MPSBR estabelecem que práticas básicas de rastreabilidade devem ser seguidas. As principais técnicas de rastreabilidade existentes são a matriz de rastreabilidade e a recuperação automática de rastreabilidade. Ambas são importantes, porém possuem limitações que dificultam o uso efetivo da rastreabilidade na prática. De acordo com Cleland-Huang et alii [20] a matriz de rastreabilidade assume um tamanho que rapidamente se torna não gerenciável, uma vez que o número de relações tende a aumentar significativamente, tornando a utilização da matriz complexa. O empenho dos desenvolvedores é retardado pela carência de suporte por parte das ferramentas, o que causa uma percepção de que o custo despendido para manter a matriz de rastreabilidade é muito alto, em comparação aos seus benefícios [21]. Técnicas de recuperação automática não recuperam todos os relacionamentos corretos sem também recuperar muitos falsos, o que acarreta trabalho extra para o desenvolvedor no descarte destes relacionamentos [15]. A tarefa de descarte pode ser muito trabalhosa, pois o desenvolvedor pode gastar mais tempo para descartar relações falsas do que rastreando as corretas. Ainda que seja possível melhorar o desempenho destas técnicas elas estão longe de ser uma solução viável para o problema [22]. Mesmo que a rastreabilidade seja requerida em grande parte das aplicações de segurança crítica, e faça parte de diversas iniciativas de melhoria de processo de software, as organizações ainda buscam uma maneira de implementá-la de forma que traga um bom custo-benefício [21]. Apesar de sua reconhecida importância, não é satisfatório o suporte para a rastreabilidade em ferramentas CASE contemporâneas, especificamente aquelas que permitem a construção de artefatos UML. O principal defeito destas ferramentas é a falta de um suporte automático ou semi-automático para a criação e manutenção de links de rastreabilidade, o que torna sua utilização cansativa e custosa [6]. Esta carência é um dos fatores que promovem a baixa qualidade de sistemas [3]. As relações de causa-efeito entre elementos de artefatos não são identificadas automaticamente nas ferramentas CASE porque a inclusão de novos elementos nos diagramas usualmente é feita sem que sua origem ou causa seja explicitada, os elementos são criados de forma individual, geralmente a partir de toolboxes. Desta forma, a criação da rastreabilidade é uma tarefa deixada para depois, ou seja, após inserir o novo elemento no diagrama o usuário da ferramenta CASE deverá indicar quais as relações de rastreabilidade se aplicam àquele elemento. Este artigo mostra que é possível automatizar a criação de relações de rastreabilidade sob a hipótese de que a inserção de novos elementos nos artefatos não consiste simplesmente em criar um novo elemento no diagrama, mas em uma ação que, em muitos casos, tem uma causa bem definida a partir de algum outro elemento. Por exemplo, 53 ESELAW’09 VI Experimental Software Engineering Latin American Workshop uma classe pode estar sendo inserida no modelo conceitual devido à existência de um caso de uso que a menciona. Ou ainda, um caso de uso pode estar sendo inserido no diagrama em função de um ou mais requisitos que lhe dão origem. Assim, a idéia examinada neste artigo é de que a de inserção de elementos nos artefatos seja indutiva. Ou seja, com exceção dos elementos iniciais (base) a inserção de um elemento em um artefato deverá ocorrer a partir de outro elemento, o qual consiste em sua causa. Este artigo apresenta, então, uma abordagem semi-automática para a criação da rastreabilidade2, que objetiva tornar sua utilização menos custosa que a técnica tradicional, almejando seu uso efetivo nas organizações. O restante do artigo apresenta na seção 2 trabalhos relacionados; na seção 3 definições de rastreabilidade; na seção 4 a rastreabilidade indutiva, incluindo sua implementação em uma ferramenta CASE; na seção 5 o experimento realizado e seus resultados; e na seção 6 as conclusões. 2. Trabalhos Relacionados A matriz e a recuperação automática de rastreabilidade são as principais técnicas da área. Estas tratam a rastreabilidade como uma atividade à parte da criação dos elementos nos artefatos, ou seja, primeiro são criados os elementos, depois são definidas as relações. Em sua forma mais simples a matriz de rastreabilidade se manifesta em tabelas com linhas e colunas, nas quais os elementos de um projeto são relacionados aos requisitos que os satisfazem [23]. As relações são, geralmente, estabelecidas pelo relacionamento explícito entre dois artefatos [24], e esta ainda é a forma como as relações são criadas atualmente nas organizações [21]. A matriz de rastreabilidade é a técnica mais atendida pelas ferramentas CASE que suportam a rastreabilidade. Recentemente, técnicas de recuperação automática de relações de rastreabilidade vêm sendo pesquisadas na tentativa de encontrar uma alternativa para o problema da custosa e complexa definição da rastreabilidade [16, 17, 18]. A recuperação automática procura identificar relações de rastreabilidade baseando-se na similaridade entre o texto contido nos artefatos. Um exemplo de técnica de recuperação é a LSI (Latent Semantic Indexing) [3, 11, 12, 15]. No entanto, segundo alguns autores [2, 3, 4], ainda existem muitos desafios que precisam ser superados. Um dos problemas é que as técnicas de recuperação confiam na hipótese de que o uso correto de termos do domínio entre artefatos permite rastreá-los. Nos casos em quem isto não acontece, o processo de recuperação automático torna-se ineficiente [25], pois muitos links possíveis deixam de ser detectados e falsos links podem ser detectados. Estas técnicas de recuperação não são completamente automáticas, pois o usuário deve interagir com o sistema para decidir sobre a aceitação ou rejeição das relações recuperadas. Durante a realização das pesquisas para este artigo não foram identificadas ferramentas CASE de escala industrial que suportassem a recuperação automática da 2 O escopo deste artigo compreende o processo de criação das relações de rastreabilidade, já manutenção das relações não faz parte de seu intuito. 54 ESELAW’09 VI Experimental Software Engineering Latin American Workshop rastreabilidade, mas apenas ferramentas em trabalhos de pesquisa [13, 14]. A técnica indutiva, aqui proposta, diferencia-se dos trabalhos citados em três aspectos: (1) ela não procura detectar ligações de rastreabilidade entre elementos preexistentes, mas propõe que a criação de novos elementos em artefatos seja feita de forma que a ligação de rastreabilidade seja criada pela explicitação da relação causa-efeito entre o elemento causador e o elemento criado, possibilitando assim um menor esforço no mapeamento das relações; (2) a técnica é definida de maneira totalmente genérica, ou seja, pode ser aplicada a quaisquer elementos e quaisquer artefatos, pois não analisa o conteúdo dos elementos ou seu significado, mas a forma de criação destes, o que possibilita o atendimento de diversos artefatos e não apenas de artefatos específicos e (3) a técnica já foi integrada a uma ferramenta CASE de largo uso comercial. 3. Rastreabilidade Nesta seção são definidos os conceitos fundamentais para este trabalho: elemento, artefato e relação de rastreabilidade. Um elemento e é uma unidade de informação que compõe um artefato. O universo de todos os elementos possíveis é denotado por E. Exemplos de elementos: um caso de uso, uma classe, um requisito, um protótipo de tela, Um artefato a é definido como sendo um conjunto de elementos de E. Um sistema de software pode então ser modelado por um conjunto de artefatos A = {a1, a2, ... an} cada qual contendo um conjunto de elementos, ou seja, A = { {e1,1, e1,2, ...}, {e2,1, e2,2, ...}, ... {en,1, en,2, ...} }. As eventuais associações entre elementos de um artefato (composição, generalização, associação simples, etc.) são também consideradas elementos dos artefatos. Faz-se exceção apenas às relações de rastreabilidade, definidas a seguir, que são consideradas externas aos artefatos, não sendo, portanto, elementos destes. A relação de rastreabilidade R ⊆ E × E é uma relação acíclica e transitiva que estabelece relações entre elementos de artefatos. A relação de rastreabilidade se dá entre os elementos: mesmo que um elemento esteja presente em um ou mais artefatos, suas relações permanecem as mesmas. 4. Rastreabilidade Indutiva O processo de desenvolvimento de software inclui a criação de artefatos e seus elementos nos diferentes graus de abstração. Então, na prática, o processo de desenvolvimento, do ponto de vista das atividades de um desenvolvedor, pode ser entendido como uma seqüência de ações que visam criar elementos nos diferentes artefatos. Diferente da técnica tradicional, na técnica indutiva a criação das relações está inserida no processo de construção dos elementos nos artefatos, ou seja, as relações são criadas como uma conseqüência da criação dos elementos nos diferentes artefatos e não como uma atividade extra. O processo se inicia com a criação do elemento base. A partir dele podem ser derivados os demais elementos nos diferentes artefatos. Por exemplo, os requisitos 55 ESELAW’09 VI Experimental Software Engineering Latin American Workshop poderiam ser os elementos base. A partir destes são derivados casos de usos e protótipos, dos quais são derivadas classes, e assim por diante. A técnica não obriga o desenvolvedor a utilizar a derivação, mas se ele a usar as relações de rastreabilidade serão criadas automaticamente pela ferramenta CASE. Os principais passos da técnica indutiva podem ser visualizados na Figura 1. No passo inicial o artefato de destino do elemento a ser derivado é selecionado. Isso só é necessário quando o elemento a ser derivado deve pertencer a um artefato diferente do elemento-causa. Para derivar elementos dentro do mesmo artefato não é necessário selecionar o artefato de destino. O segundo passo consiste em selecionar o elemento-causa, elemento de origem da relação de rastreabilidade. Pode-se, inclusive, selecionar dois ou mais elementos como elemento-causa em uma derivação porque um elemento pode ter várias causas. No terceiro passo é aplicada a derivação sobre o elemento-causa, para dar origem ao elemento-efeito. Juntamente com a criação do elemento-efeito é criada a relação de rastreabilidade. 1- Seleciona o artefato de destino 2- Seleciona o elemento-causa 3- Deriv a o elemento-efeito Figura 1. Passos da rastreabilidade indutiva. Um plugin foi desenvolvido na ferramenta CASE Enterprise Architect™ (EA) [8], para permitir a utilização da técnica indutiva. Na Figura 2 é apresentada sua interface, os itens destacados (1, 2 e 3) correspondem aos passos necessários para a criação da rastreabilidade apresentados na Figura 1. Neste exemplo são derivados casos de uso a partir de requisitos, porém a técnica indutiva pode permitir a criação de elementos em diversos outros artefatos. As relações criadas podem ser visualizadas por meio da matriz de rastreabilidade e também da funcionalidade Hierarchy do EA. Hierarchy apresenta de forma hierárquica as dependências entre os elementos. 1 2 3 Figura 2. Interface do plugin de rastreabilidade. A intenção da técnica indutiva é reduzir o esforço do desenvolvedor no mapeamento da rastreabilidade, tornando a atividade menos penosa em comparação às técnicas atualmente utilizadas. Com isto espera-se que a resistência à utilização da rastreabilidade possa diminuir. 56 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 5. Experimento A fim de comparar o desempenho da técnica indutiva e da técnica tradicional realizou-se um experimento com três grupos, sendo que um grupo usou a técnica indutiva, e os outros dois usaram ferramentas disponíveis no EA para definição de rastreabilidade a posteriori, ou seja, a matriz de relacionamentos e a janela de edição do elemento (criação direta de links). O experimento foi estruturado de tal forma que a subjetividade e reflexão proporcionassem pouca interferência nos resultados, uma vez que o objetivo deste consistiu em realizar uma análise quantitativa da técnica indutiva, analisando a quantidade de relações de rastreabilidade que podem ser criadas com a técnica indutiva comparada às técnicas tradicionais no mesmo intervalo de tempo. Para o experimento foram apresentados 80 requisitos no diagrama de requisitos e se solicitou a cada grupo que criasse um caso de uso correspondente para cada requisito bem como as relações de rastreabilidade. O tempo disponibilizado para a tarefa foi de 10 minutos. Quinze desenvolvedores foram avaliados no experimento, dos quais cinco usaram a técnica indutiva, cinco usaram a técnica criação de links e cinco usaram a técnica matriz de relacionamentos. As técnicas foram atribuídas de forma aleatória. Cada um recebeu um material com instruções sobre como realizar o experimento com a técnica correspondente. Medidas foram tomadas a fim de produzir dados sem vícios, objetivando evitar possíveis interferências nos resultados. Essas medidas foram adotadas antes, durante e depois do experimento, conforme detalhado a seguir. Antes da realização do experimento real os desenvolvedores receberam um arquivo de testes com os requisitos para praticarem e tirar dúvidas relacionadas ao funcionamento da técnica e do EA. Isto foi feito no intuito de nivelar o conhecimento dos mesmos. A configuração (hardware e software) dos computadores do laboratório foi verificada, assegurando que todos possuíam as mesmas características. Pois diferenças nas velocidades dos computadores poderiam interferir no número de elementos criados. A execução da tarefa de cada desenvolvedor foi gravada em vídeo com o software ScreenCam™ [10], com o objetivo de detectar anormalidades, tais como: o usuário realizar outra atividade além do experimento e falha no funcionamento dos softwares. Para avaliação dos resultados foram contabilizados, para cada um dos desenvolvedores, o número de relações de rastreabilidade corretamente criadas, conforme mostrado na Figura 3. Nesta figura observa-se que a média de relações criada com a técnica indutiva (72,6) é significativamente maior do que a média obtida com a técnica matriz de relacionamentos (28,2) e a média obtida com a técnica de criação de links (23,6). Em função do tamanho da amostra, foram aplicados testes estatísticos de hipóteses [9] para verificar se a diferença encontrada é significativa. O teste de hipóteses foi aplicado primeiramente comparando a técnica indutiva com a matriz de relacionamentos. A hipótese H0 (hipótese nula) é que em média o desempenho da técnica indutiva é igual ao da técnica 57 ESELAW’09 VI Experimental Software Engineering Latin American Workshop matriz de relacionamentos. A hipótese H1 (hipótese alternativa) é que em média a técnica indutiva possui maior desempenho que a técnica matriz de relacionamentos, para a criação e evolução de relações de rastreabilidade. Maior desempenho, neste trabalho, significa criar o maior número de relações corretas. Relações corretas são aquelas criadas entre elementos que realmente possuem uma relação de dependência. Um erro comum no mapeamento da rastreabilidade é criar por engano uma relação entre elementos que não possuem dependência (relação falsa). Figura 3. Relações de rastreabilidade corretas criadas com cada técnica. As amostras são independentes, pois as técnicas foram executadas com grupos diferentes. Neste caso aplica-se o teste t para amostras independentes. Ao aplicar o teste o resultado foi 8,27. Com 8 graus de liberdade a probabilidade de significância foi p=0,02. Considerando um nível de significância de 5% (a=0,05) tem-se (p<a), o que significa que se deve rejeitar H0 em favor de H1. Conclui-se, portanto, com 95% de confiança que a técnica indutiva tende a apresentar maior desempenho do que a técnica matriz de relacionamentos. O desempenho melhor da técnica indutiva indica que o esforço despendido para sua utilização pode ser significativamente menor em comparação à técnica matriz de relacionamentos. O mesmo teste foi realizado comparando o desempenho da técnica indutiva com o da técnica criação de links, onde a probabilidade de significância resultou em p=0. Concluise com 95% de confiança que a técnica indutiva tende a apresentar maior desempenho do que a técnica criação de links. O teste também foi aplicado entre a técnica matriz de relacionamentos e a técnica criação de links, avaliando se as duas técnicas possuíam desempenho distinto. O teste não detectou diferença entre estas duas técnicas. 6. Conclusão As principais técnicas de rastreabilidade apresentam limitações. A matriz de relacionamentos, técnica atualmente utilizada nas organizações, torna-se de difícil gerenciamento à medida que o número de artefatos aumenta. A recuperação automática, apesar de ser uma alternativa para a matriz, pode detectar muitos relacionamentos falsos e ainda não é amplamente utilizada por ferramentas CASE comerciais. As organizações ainda 58 ESELAW’09 VI Experimental Software Engineering Latin American Workshop buscam uma forma de criar as relações de rastreabilidade que forneça um bom custobenefício. A principal vantagem da técnica indutiva comparada a matriz de relacionamentos está no fato de que o desenvolvedor pode criar os relacionamentos de rastreabilidade de forma integrada aos elementos, utilizando apenas o ambiente de criação dos elementos. Já na matriz de relacionamentos o desenvolvedor deve criar os elementos e depois criar as relações de rastreabilidade, utilizando para isto dois ambientes, um para a criação de elementos, outro para a criação dos relacionamentos (matriz). A utilização de dois ambientes pode tornar mais trabalhoso e menos eficaz o mapeamento da rastreabilidade. O experimento realizado indicou que a técnica indutiva tende a apresentar uma maior produtividade em relação às técnicas tradicionais, por meio da criação de um maior número que relações de rastreabilidade. O esforço despendido para sua utilização pode ser significativamente menor, tornando a atividade menos penosa, reduzindo o esforço do desenvolvedor. Desta forma futuramente a técnica indutiva poderia ser utilizada nas organizações. Em relação à técnicas de recuperação automática (como LSI), a técnica indutiva não apresenta as mesmas desvantagens, pois não procura identificar relações a partir de artefatos existentes. Ao invés disso, a técnica indutiva procura criar as relações de rastreabilidade no momento da criação dos próprios elementos, o que evita a formação de falsas relações de rastreabilidade. A técnica indutiva, por outro lado, propõe que a tarefa executada pelo desenvolvedor seja redefinida. Ao invés de simplesmente desenhar uma classe em um diagrama, o desenvolvedor deverá deixar claro o porquê desta classe, ou seja, qual o outro elemento que fez com que ele chegasse à conclusão de que tal classe seria necessária. A técnica indutiva proposta é eficaz apenas em sistemas cuja documentação ainda vai ser produzida, onde se tem a oportunidade de utilizar a técnica desde o início. Ela não detecta relações que deveriam existir entre elementos e que por alguma razão não foram incluídas. Estas são limitações da técnica proposta. Nestas situações, ela pode ser complementada, por exemplo, com a aplicação de recuperação automática. Referências Bibliográficas 1. Gotel, O.C.Z. e Finkelstein, C.W. (1994) “An analysis of the requirements traceability problem”, Requirements Engineering: Proceedings of the First International Conference, p. 94-101. 2. Jiang, H., Nguyen, T. N.; Chang, C. K. e Dong, F. (2007) "Traceability Link Evolution Management with Incremental Latent Semantic Indexing", In: Proceedings of the 31st Annual International Computer Software and Applications Conference, IEEE Computer Society, USA, p.309-316. 3. Lucia, A. D., Fasano, F., Oliveto, R., e Tortora, G. (2007) “Recovering traceability links in software artifact management systems using information retrieval methods”, ACM Trans. Softw. Eng. Methodol, USA, p.13. 59 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 4. Maletic, J. I., Collard, M. L., e Simoes, B. (2005) “An XML based approach to support the evolution of model-to-model traceability links”, In: Proceedings of the 3rd international Workshop on Traceability in Emerging Forms of Software Engineering, ACM, USA. 5. Neumuller, C. e Grunbacher, P. (2006) “Automating Software Traceability in Very Small Companies: A Case Study and Lessons Learned”, In: Proceedings of the 21st IEEE/ACM international Conference on Automated Software Engineering, IEEE Computer Society, USA, p. 145-156. 6. Oliveto, R., Antoniol, G., Marcus, A. e Hayes, J. (2007) "Software Artefact Traceability: the Never-Ending Challenge", Software Maintenance, IEEE International Conference. 7. Palmer, J. D. (1997) “Traceability”, In: Software Requirements Engineering, R.H. Thayer and M. Dorfman, p. 364-374. 8. Sparx Systems. (2009) "Enterprise Architect". Disponível em: http://www.sparxsystems.com/products/ea. Acesso em: 01 mai. 2009. 9. Barbetta, P. A., Reis, M. M. e Bornia, A. C. “Estatística para Cursos de Engenharia e Informática”. São Paulo: Atlas, 2004. 10. SmartGuyz Incorporatec. (2009) "ScreenCam". Disponível em: http://www.smartguyz.com/index-2.html. Acesso em: 01 mai. 2009. 11. Marcus, A. and Maletic, J. I. (2003). “Recovering documentation-to-source-code traceability links using latent semantic indexing”. In Proceedings of the 25th international Conference on Software Engineering (Portland, Oregon, May 03 - 10, 2003). IEEE Computer Society, Washington, DC, 125-135. 12. Antoniol, G., Canfora, G., Casazza, G., De Lucia, A., and Merlo, E. (2002) “Recovering Traceability Links between Code and Documentation”. IEEE Trans. Softw. Eng. 28, 10 (Oct. 2002), 970-983. 13. Murta, L. G., Hoek, A., and Werner, C. M. (2008) “Continuous and automated evolution of architecture-to-implementation traceability links”. Automated Software Eng. 15, 1 (Mar. 2008), 75-10. 14. Aldrich, J., Chambers, C., and Notkin, D. (2002) “ArchJava: connecting software architecture to implementation”. In: Proceedings of the 24th international Conference on Software Engineering. ICSE '02. ACM, New York. 15. Settimi, R., Cleland-Huang, J., Khadra, O. B., Mody, J., Lukasik, W., and DePalma, C. (2004) “Supporting Software Evolution through Dynamically Retrieving Traces to UML Artifacts”. In: Proceedings of the Principles of Software Evolution, 7th international Workshop. IWPSE. IEEE Computer Society, Washington, DC. 16. Egyed, A., Biffl, S., Heindl, M., and Grünbacher, P. (2005) Determining the costquality trade-off for automated software traceability. In Proceedings of the 20th IEEE/ACM international Conference on Automated Software Engineering. ASE '05. ACM, New York, NY, 360-363. 60 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 17. Lormans, M. and Van Deursen, A. (2006) Can LSI help Reconstructing Requirements Traceability in Design and Test?. In Proceedings of the Conference on Software Maintenance and Reengineering, CSMR. IEEE Computer Society, Washington, DC, 4756. 18. Antoniol, G., Cimitile, A., and Casazza, G. (2000) Traceability Recovery by Modeling Programmer Behavior. In Proceedings of the Seventh Working Conference on Reverse Engineering (Wcre'00), WCRE. IEEE Computer Society, Washington, DC, 240. 19. Egyed, A., Biffl, S., Heindl, M., and Grünbacher, P. (2005) Determining the costquality trade-off for automated software traceability. In Proceedings of the 20th IEEE/ACM international Conference on Automated Software Engineering ASE '05. ACM, New York, NY, 360-363. 20. Cleland-Huang, J., Zemont, G., Lukasik, W. (2004) "A Heterogeneous Solution for Improving the Return on Investment of Requirements Traceability," Requirements Engineering, IEEE International Conference on, pp. 230-239, 12th IEEE International Requirements Engineering Conference (RE'04). 21. Cleland-Huang, J. (2006) Just Enough Requirements Traceability. In Proceedings of the 30th Annual international Computer Software and Applications Conference - Volume 01 (September 17 - 21, 2006). COMPSAC. IEEE Computer Society, Washington, DC, 4142. 22. De Lucia, A., Fasano, F., Oliveto, R., and Tortora, G. (2006) Can Information Retrieval Techniques Effectively Support Traceability Link Recovery?. In Proceedings of the 14th IEEE international Conference on Program Comprehension. ICPC. IEEE Computer Society, Washington, DC, 307-316. 23. Almeida, J. P., Eck, P. v., and Iacob, M. (2006) Requirements Traceability and Transformation Conformance in Model-Driven Development. In Proceedings of the 10th IEEE international Enterprise Distributed Object Computing Conference. EDOC. IEEE Computer Society, Washington, DC, 355-366. 24. Jesse Fletcher, Jane Cleland-Huang. (2006) "Softgoal Traceability Patterns," Software Reliability Engineering, International Symposium on, pp. 363-374, 17th International Symposium on Software Reliability Engineering (ISSRE'06). 25. De Lucia, A., Oliveto, R., Zurolo, F., and Di Penta, M. (2006) Improving Comprehensibility of Source Code via Traceability Information: a Controlled Experiment. In Proceedings of the 14th IEEE international Conference on Program Comprehension. ICPC. IEEE Computer Society, Washington, DC, 317-326. 61 TECHNICAL SESSION 2 Systematic reviews (SR) 62 ESELAW’09 VI Experimental Software Engineering Latin American Workshop A Systematic Review on Software Product Lines Scoping Marcela Balbino Santos de Moraes1, Eduardo Santana de Almeida2, Silvio Romero de Lemos Meira1 1 Federal University of Pernambuco (UFPE), Brazil 2 Federal University of Bahia (UFBA), Brazil {mbsm, srlm}@cin.ufpe.br, [email protected] Abstract. Software Product Lines are a systematic way to achieve the benefits related with large-scale reuse. In Software Product Lines, an important phase is the Scoping, which is essential for the success of the product lines. It aims to determine the viability of a product line, identifying aspects such as: products that will constitute the product line, risks, reuse potential and costs for implementation of the core assets. However, some of their important aspects are not well-defined in the existent approaches, as the customization of the Scoping according to the context in which is inserted. In this context, this paper presents a systematic literature review in order to investigate the state-of-the-art, trying to summarize the current scenario, identifying best practices, challenges and limitations. 1. Introduction Software Product Lines (SPL) is currently considered an efficient way to achieve the benefits related to large-scale reuse. Its adoption in the industry has decreased implementation costs, reduced time to market and improved quality of derived products [Clements and Northrop 2007]. According to [Clements and Northrop 2001], “a software product line is a set of software-intensive systems sharing a common, managed set of features that satisfy the specific needs of a particular market segment or mission and that are developed from a common set of core assets in a prescribed way”. In general, the software product line engineering paradigm involves two processes: core asset development, responsible for establishing the reusable platform and to define the commonality and variability of the product line; and product development, responsible for deriving product line applications from the platform established in core asset development [Pohl et al. 2005]. Both processes cover all phases of software development such as scoping, requirements engineering, design, implementation, testing and evolution. In this life cycle, scoping is a process by which information used in developing software systems within the domain is identified, captured and organized with the purpose of making it reusable when building new products [America et al. 2001]. According to Kruchten [Kruchten 1998], the scoping captures the context, the most important requirements and constraints in order to derive acceptance criteria for the end product. Hence, is clear the association of scoping to the SPL success, being necessary a scoping process very well-defined to implant efficiently product lines and to reduce their risks. 63 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Organizations that desire to adopt SPL and need to define scope should identify the most appropriate approach to its context, considering the main activities defined in the approaches. Thus, the analysis and comparison among existent scoping approaches is crucial for selection of an appropriate approach for a specific context. In this context, this paper presents a systematic review to investigate the existent approaches on SPL scoping, aiming to identify, compare and summarize evidence about the scope definition techniques, analyzing their activities, roles, guidelines, concepts, strong points and drawbacks, and the main features. This study is based on interesting issues analysis, covered by a set of research questions. Moreover, since it is systematically performed and documented, its result is believable to serve as a guide to aid the research community regarding future directions. In addition, it is important to summarize the current status of the approaches in the field of scoping. Finally, for practitioners, it can identify the more appropriate approach to be used in industrial scenarios. This review is systematically performed following Kitchenham's guidelines [Kitchenham and Charters 2007], which aids in assuring consistent results from individual studies (called primary studies). This paper is organized as follows: Section 2 discusses related work in the field. Section 3 discusses the research question and the studies investigated. The obtained results are presented in Section 4. Section 5 discusses the threats and, finally, Section 6 presents concluding remarks and future work. 2. Related Work Two surveys were found with a similar proposal: to evaluate scoping approaches. Schmid [Schmid 2000] presented a survey of scoping-related technology, both from software engineering, as well as from non-software disciplines, presenting a framework for approaches analysis associated to two problem dimensions: task of scoping and object of scoping, and two solution dimensions: scoping product and scoping process. This framework is used to structure the field of scoping. The analysis made in [Schmid 2000] had the following goals: Organize and structure the field of scoping; Provide an overview of what approaches exist for scoping and their relevant advantages and disadvantages; Aid in selecting among existent approaches; and Aid in improving existent methods and building news ones. In [John and Eisenbarth 2009] was performed the investigation of some aspects in SPL scoping. Their focus was to identify the following aspects: the goal of the approaches, how to treat variability, the main inputs and outputs of the approaches, the involved roles, the effort to perform scoping, and the maturity and benefits with the use of the approaches. Moreover, in this survey were indicated some new research questions such as: How is the connection of scoping and Requirements Engineering? How is the connection between scoping and architecture? How to produce quantifiable results? It is important to highlight that our work performed the evaluation using a formal and defined approach. Thus, it can be repeatable for other researchers and research 64 ESELAW’09 VI Experimental Software Engineering Latin American Workshop groups, since all the process was documented and detailed in the protocol of the systematic review and can be accessed on the web page: http://www.cin.ufpe.br/~sople/scoping/sr/. In addition, several issues and approaches that were not considering in [Schmid 2000] as approaches which define stakeholders, agile characteristics with SPL and so on are being extensively discussed in our review. Moreover, our study can be useful to reinforce the findings identified in [John and Eisenbarth 2009] since we investigated similar issues such as: main activities, inputs, outputs, defined stakeholders, and so on. On the other hand, our research complements their work since new issues are also investigated by our research questions, such as: customization, relationship between SPL and development agile principles and metrics. 3. Research Questions and Studies Search The research questions are considered the key aspects of the systematic review. In this review the questions were identified with the investigation of studies in SPL scoping and with discussions at RiSE (Reuse in Software Engineering) Labs members. In this study, eight questions were defined as can be seen in Table 1. Table1. Research questions Q1. What activities are addressed for scoping in the software product lines? The objective of this question is to identify the activities of scoping used by the approaches, as well as analyzing the inputs and outputs addressed by each activity. Q2. Do approaches scope? the SPL optimize This question aims to identify if the approaches optimize scope and which techniques are used for this optimization. Optimize scope is to adapt a scope to maximizes specific objectives [Schmid 2002], i.e. to align the scope according with business objectives of the organization, as time-to-market and development effort. Q3. What are the types of scope addressed by the approaches? The purpose of this question is to identify the types of scope covered by each approach. According to Schmid [Schmid 2002], in general, three types of scope can be identified: I. product portfolio scoping, it aims at identifying the particular products that should be developed as well as the features they should provide; II. domain scoping, it is the task of bounding the domains that are relevant to the product line; and III. assets scoping, it aims at identifying functional parts of the product line that should be developed in a reusable manner. This question is important to identify the focus of each approach. Q4. Which stakeholders are involved in the scope definition process? This question aims to identify the essentials stakeholders at the scope definition process and their importance (roles and attributions). According to Clements [Clements 2005], the involvement of a wide range of stakeholders increases the awareness of the product line efforts, obtains stakeholders' critical input, and builds momentous for the long-term investment in core asset development and use. Q5. Do the approaches use specific metrics or cost models for scope definition? The goal of this question is to identify if the approaches for scope definition use specific metrics, general software metrics or cost models. Moreover, this question aims to identify which types of metrics are used and their importance for the economical value evaluation of the software product line assets. Q6. Are the approaches customizable? The goal of this question is to identify if the approaches are customized for different contexts. Besides, the question aims to determine which customization factors are used. Q7. Do the approaches treat the new perspective of agile SPL planning? The goal of this question is to identify if the approaches insert agile aspects in scoping and which techniques, principles or practices are used. Q8. How are the approaches related with SPL development? The goal of this question is to identify if the approaches have specifics activities to define scope according with the different development stages, considering situations as: product line development started from the scratch, product line development with existents products and evolution of an existent product line. From the research question were extracted some keywords used to search the primary study sources. They are: scope, domain scope, product scope, assets scope, features scope, scope definition techniques, scope definition and scope metrics. All terms were combined with the term “Software Product Line” and “Software Product Family” by using Boolean “AND” operator, to match the search goals. At the end, sixteen strings had been generated. They all were joined each other by using “OR” operator so that it could improve the reliability of the results. 65 ESELAW’09 VI Experimental Software Engineering Latin American Workshop The search process was manual and performed in references found in related papers to the topic, digital libraries of some important publishers and organizations in software engineering and web search engines such as IEEE, ACM and Springer Link. In this search, were also considered important conferences as: Annual ACM Symposium on Applied Computing, Euromicro Conference on Software Engineering and Advanced Applications, Fundamental Approaches to Software Engineering, International Computer Software and Applications Conference, International Conference on Advanced Information Systems Engineering, International Conference on Software Engineering, Asia Pacific Software Engineering Conference, International Conference on Software Reuse, Software Product Line Conference; and journals as: ACM TOSEM, Communications of the ACM, IEEE Computer, IEEE Software, IEEE Transaction on SW Engineering, Journal of Systems and Software, Software Practice and Experience Journal. The selection of the papers was performed in two stages. In the first stage for each selected primary study was applied a brief analysis of the following elements: titles, abstracts, keywords, conclusion and references. The resulted of this stage was 28 studies raised from the web search. In the second stage was performed a complete analysis of the 28 studies found in the first stage. After complete analysis and application of our criteria of inclusion, exclusion and quality, 11 approaches and two surveys were included in our review. All the information used in the search and selection of the studies as: keywords, list of search engines, conferences and journals, and the criteria for selection can be seen in the systematic review web site. 4. Reporting In this section, the results of the review will be presented and each research question will be discussed and analyzed, and conclusions will be drawn. 4.1. Scoping Activities Analyzing the primary studies, we found a wide variety of activities for scoping. However, the lack of standardization can be faced as a problem. In general, each analyzed approach has specific activities to define scope. Besides, the majority of the approaches do not have the activities showed clearly in an easy and applicable way, and the guidelines for its application are described in high level. Therefore, in general, the use of the approaches is considered difficult by the organizations and their activities, typically, are adapted for definition of the scope to have success. In general, the activities defined by the approaches can be clustered in three groups: identification, analysis and prioritization. Identification is related with features, requirements and products, the analysis is based on domains and sub-domains and the prioritization is related with optimization factors. However, there few approaches which address activities related with scope optimization, besides are also few the approaches which address activities as: market analysis and release planning. Therefore, the current scenario shows that there are not approaches that present activities for all the contexts in which the product lines can be inserted, occurring inevitably an adaptation of the activities or the use of two or more approaches in set to identify the scope adequately. Table 2 summarizes some characteristics related with each approach and can help researches and organizations to choice the most suitable approaches. 66 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Table2. Summary of the aspects of the scoping approaches Approaches Activities Author Optimization Scope Types Stakehol Met Customi Agile ders rics zation Factors Relate clearly Scoping and Developmen t Riebisch [2001] identification, prioritization, use priorities assets interpretation of features calculation and decision tables no no no no yes Kish identify requirements and do not define product products, list and prioritize optimization architecture candidates, tasks for scoping categorize requirements, examine candidates for the product-line scope no no no no no Schmid [2002] identification and description of optimize the domain, products, features and domains, feature matrix assets product map prioritization, using GQM identification and prioritization of assets no yes no no no Rommes [2003] writing and review of user do not define product scenarios, requirements optimization identification tasks for scoping yes no no no no Lee [2004] market analysis, feature do not define assets modeling, feature binding optimization analysis, assets identification, tasks for scoping core assets development, production plan documentation no no no no no Helferich [2005] identify customer requirements, product functions and evaluate different technologies and architectures yes no no no no no yes no no no scenarios, do not define product matrix, optimization tasks for scoping yes no no no no John [2006] mandatory activities: product prioritize and domain, identification, plan product optimized the assets releases, assess features, identify feature matrix features, specify product feature matrix and identify domains yes yes yes no no Inoki [2007] product line development plans do not define assets no yes no no no yes no no yes no [2002] use QFD to product identify the true needs of the customers Park [2005] analysis of commonality and do not define assets variability, variability optimization dependencies analysis, domain tasks for scoping model refinement, economical evaluation of core asset Clements [2005] development of attributes/products products analysis analysis, create product line optimization development plan, create road tasks for scoping map, define organizational standards Noor [2007] identify and agree domains, define features for each domain, analyze products, define products in terms of features, prioritize product map make domain, prioritization assets and optimization of the product map 4.2. Scope Optimization According to Schmid [Schmid 2002], it is important to distinguish scoping according with three goal levels: identification of a scope, i.e., simply writing down the scope; 67 ESELAW’09 VI Experimental Software Engineering Latin American Workshop evaluation of a scope, i.e., to determine advantages and disadvantages of a particular scope; and, finally, optimization of a scope, optimization of the scope in terms of identifying what should be built for reuse, it aims at the optimization of the underlying concept (product line, domain, asset), so as to optimize some sort of benefit. In our review was possible to identify optimization in product portfolio scoping and asset scoping. The optimization in product portfolio scoping is performed, in general, to determine a feature set aligned with market and business goal. In assets scoping, the optimization activities are related, often, to the identification of the assets implementation effort and their potential for each product and for all product line. Optimization of SPL scope still is an aspect partly addressed. Few are the approaches that define directly activities for optimization, as activities related with components economic evaluation, where are used economic models, and optimization criteria, where are used parameters, such as: market segments, customer view point, product value and so on. 4.3. Scope Types Analyzing the scope types, we can identify the focus of each approach. In general, the approaches address product portfolio scoping and assets scoping, as can be seen in Table 2. With the review was possible to identify that more of 36% of the approaches have activities related with product portfolio scoping, focusing on the identification of products and features based on the market analysis and products analysis which are economically useful and beneficial to product line development. Besides, assets scoping is addressed by more of 63% of the approaches analyzed, focusing on the analysis of the potential of the assets, identifying efforts and costs of implementation of them for product line, and making analysis of variability dependencies. On the other hand, there are few approaches which define domain scoping, approximately 27 %, these are based on activities of domain potential assessment, considering risks and benefits of the domains for the product line. Based on the scope types addressed by the approaches, we can identify the levels in which they perform scoping and their goals. 4.4. Stakeholders and Roles into Scoping The participation of representative stakeholders with well-defined roles is very important for the scoping phase. With the effective presence of them in the process, risks associated with SPL are minimized, for example, the risk of including products lacking some essential feature or with unnecessary features. However, the approaches do not have an effective definition of stakeholders and roles, in spite of this information to be extremely necessary for the success of the scope definition. This makes difficult to judge which approaches have a team appropriated for scoping. Moreover, the choice of the stakeholders and roles into project depends on a series of factors such as: resources, project type, complexity, and so on. Nevertheless, roles such as: domain experts, with technical or marketing knowledge; scoping expert, to conduct the tasks of the process and identify constraints; end user or customer, to enable a customizable SPL; architects, to phase of assets scoping, with the function of defining the conflicts and impacts of the reusable assets; developers, to determine the effort to implement the features and manager, to define the organizational goals, are the roles most relevant into of the context of SPL Scoping. 68 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 4.5. Cost Models and Metrics Analyzing the eleven studies, we identify that the lack of metrics is an aspect in the majority of the approaches. Information as effort and costs of the product line are attributes do not measurement by the majority of them and when are, in general, it is made across of estimative of experienced stakeholders. Among the analyzed studies that define metrics are: I. [Schmid 2002], where is achieved business goal operationalization to define metrics, as for example, metrics which determine the cost of implementation of a specific feature. It is performed based in the top-down approach that was derived from the GQM approach [Briand et al. 1996], [Schmid 1999]. With this approach is possible to define a simplistic model to express the desired business objective as the result of properties of the features and products, in a way that can be determined by the experts; II. [Park and Kim 2005], where are used cost metrics to analyze economical value of the core assets. Besides, in the analysis of the scope economical value are considered the variability and also dependencies among it. With this approach is possible to identify the economic impact which each asset has on the SPL; III. [John et al. 2006], in this study the quality models measure economic factors such as effort and risk. Thus, the assets which maximize the economical return can be prioritized; and IV. [Inoki and Fukazawa 2007], where metrics which evaluate levels coverage and consistency are used. The level of coverage is a quantitative measure that describes to what degree elements of core assets are prepared. It considers returns of investment and should be adjusted depending of the conditions of an organization. This metric determines if an asset should be reused in various products. The level of consistency is a qualitative measure of all core assets; it describes the consistency of all core assets in a product line. Core assets with a high level of consistency do not contradict each other. The use of metrics can be an effective way to optimize scope and to determine the costs associated with the SPL. In this context, GQM has if showed the way most used by the organizations, because it makes possible align the scope to the business goals, considering the views of different stakeholders of a SPL project. 4.6. Scoping Customization [John and Eisenbarth 2009] highlight that applying scoping in practice, it should be customized to the concrete situation and activities, and representative stakeholders, artifacts generated and the execution time for the tasks can change according to several factors, such as: resources, organizations factors, size of the team, domain characteristics, available assets and so on. Among the approaches analyzed in this review, only the PuLSE Scoping Process [John et al. 2006] defines customization factors which are adaptable for the context. These factors are grouped in five categories: I. operational context, related with project and organizational constraints; II. domain characteristics, related to domain complexity; III. integratable artifacts, this category identifies the existence of artifacts relevant for scoping; IV. enterprise context, this category is related with the structure and maturity of the organization; V. resources, related with the knowledge of the stakeholders and resources available for scoping definition. However, this approach does not define an activity set associated for each situation. The current scenario shows that is necessary a framework, which indicates specific activities, stakeholders and artifacts for different projects, driving the organizations in the application of scoping. 69 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 4.7. Agile Planning of SPL An important research area which is being investigated by the communities of SPL and Agile is the join between SPL and Agile Methods (AM). Product lines and AM offer similar benefits, both aiming reduction of time-to-market and development costs and increase of quality. In addition, as cited in [McGregor 2008] considering the similar goals and the differing perspectives of each method, when blending their tasks, has allowed organizations effectively to deploy hybrid methods that are agile and yet assetbased at the same time. According to Noor [Noor et al. 2007] the union between SPL and AM can increase the potential of the organizations and open new markets for it. In this research area, there is only one approach related to scoping [Noor et al. 2007]. This approach makes agile planning, combining agile principles and practices, collaboration engineering and PuLSE Eco [Schmid 2002]. The goal of the approach is to define a product map which prioritizes features, domains and product with active participation and collaboration among the stakeholders. However, in general, this approach does not use all the potential which AM can offer, presenting as agile characteristic most relevant the collaboration among the stakeholders. Finally, this approach was validated in only one industrial project and the lack of approaches which address agile aspects in SPL scoping make difficult to create a comparative and to judge the agility of the approach. 4.8. Scoping and SPL Development The activities and results of scoping can have direct influence in the SPL development. However, the majority of the approaches do not offer support well-defined for relation between scoping and the development steps. In general, the approaches define tasks for product lines started from the scratch. Among the studies analyzed, only [Riebisch 2001] treat clearly the results of scoping as basis for further development steps. In this study, three cases which relate scoping with the development stage of the SPL are discussed: development from scratch; when it is started from scratch using as basis existents products; and when the SPL is in evolution. It considers priority levels for features implementation using decision tables. According to the priority levels, in which the features are and with the development stage, the features can be implemented or not. 5. Threats to Validity In this study, the following threats were related to the review: I. research questions, it is possible that some questions defined in the protocol and which drive the systematic review are not so relevant. In order to avoid it, we had several discussions with RiSE members and experts in the area; II. search of the approaches, it is possible also that our search criteria did not find all the relevant approaches. Nevertheless, we searched the main conferences and journals and checked the references found in these papers to avoid it; III. excluded studies, in this case, the research team had discussions in order to define a consensus about the work to be excluded. Besides, criteria of exclusion and inclusion were defined to aid in this decision. 70 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 6. Concluding Remarks and Future Work Scoping is the initial phase of the SPL where is performed the planning, defining the products which will integrate the product line, its features and the costs related with the SPL. As widely discussed along of this paper, the main purpose of this systematic review was to understand how SPL scoping is being considered by the available approaches. At the end of the review, we identified that the majority of the approaches do not discuss the activities systematically and the guidelines for their applications are described in high- level. Other important issue is that the optimization of SPL scoping is partly addressed by the approaches, and there are not techniques or activities related with domain optimization. Besides, in general, it does not consider the domain according to its relation with business goal and assets costs. Other finding was that among the approaches which define stakeholders, the main ones defined were: managers, customers, developers and architects. In addition, the lack of metrics is an aspect presents in the majority of the approaches and only one of it defines customization factors for aligning scoping according to the context. Moreover, only one approach considers the integration among SPL and AM, but it does not explore all potential which AM and SPL can have. Finally, we identified that the approaches define tasks for product lines started from the scratch and do not treat clearly the results of scoping as basis for further development steps. On the other hand, the main challenges identified are related with the following questions: I. How to maximize the potential of union between product lines and agile methodologies in scoping? II. How to customize scoping in SPL? III. Which techniques can be used to optimize scope? and IV. How the approaches combine scoping with SPL development? These questions have good potential of research and can be used as basis for new approaches of SPL scoping. In addition, the effort and quality of the review present an important result that can be used as background information for scoping researches and companies that use SPL or are planning to adopt it, since it presents a important view of the state-of-the-art in scoping approaches, showing how scoping is addressed by the approaches. As future work, we are intended to create an agile SPL scoping process considering the best practices, gaps and main challenges identified in this review, with focus on the insertion of agile principles, practices and techniques in each scoping activity. Additionally, we invited the community to access our systematic review website in providing us feedback. References America, P., Thiel, S., Ferber, S. and Mergel, M. (2001) “Introduction to Domain Analysis”, ESAPS Project. Briand, L., Differding, C. and Rombach, D. (1996) “Practical Guidelines for MeasurementBased Process Improvement”, In: Software Process Improvement and Practice Journal. Clements, P. and Northrop, L. (2001) Software Product Lines: Practices and Patterns, Addison Wesley. Clements, P. (2005) Software Product Lines – SEI Framework. Clements, P. and Northrop, L. (2007) “A Framework for Software Product Line Practice”, version 5.0. technical report, SEI. 71 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Helferich, A., Herzwurm, G. and Schockert, S. (2005) “QFD-PPP: Product Line Portfolio Planning Using Quality Function Deployment”, In: 9th International Software Product Line Conference, France, p.162-173. Inoki M., Fukazawa, Y. (2007) “Core Asset Scoping Method: Product Line Positioning Based on Levels of Coverage and Consistency” In: First International Workshop on Management and Economics of Software Product Lines, Japan. John, I., Knodel, J., Lehner, T. and Muthig, D. (2006) “A Practical Guide to Product Line Scoping”, In: 10th International Software Product Line Conference, USA, p.3-12. John, I. and Eisenbarth, M. (2009) “A Decade of Scoping – A Survey”, In: 13th International Software Product Line Conference, USA. Kishi, T.; Noda, N. and Katayama, T.A (2002) “Method for Product Line Scoping Based on a Decision-Making Framework”, In: 6th International Software Product Line Conference, USA, p. 348-365. Kitchenham, B. and Charters, S. (2007) “Guidelines for Performing Systematic Literature Reviews in Software Engineering”, In: 11th Evidence-Based Software Engineering, technical report, USA. Kruchten, P. (1998) The Rational Unified Process: An Introduction, Reading, Ma.: AddisonWesley. Lee, J., Kang, K. C. and Kim, S. (2004) “A Feature-Based Approach to Product Line Production Planning”, In: 8th International Software Product Line Conference, USA. McGregor, J. D. (2008) “Agile Software Product Lines, Deconstructed” In: Journal of Object Technology, Volume 7, Issue 8, p. 7-19. Noor, M.A, Rabiser, R.; Grünbacher, P. (2008) “Agile Product Line Planning: A Collaborative Approach and a Case Study” In: Journal of Systems and Software, Volume 81, Issue 6. Park, S. Y. and Kim, S. D. (2005) “A Systematic Method for Scoping Core Assets in Product Line Engineering”, In: 12th Asia-Pacific Software Engineering Conference, USA, p.491-498. Pohl, K., B¨ockle, G. and Van der Linden, F. (2005) Software Product Line Engineering: Foundations, Principles, and Techniques. Riebisch, M., Streitferdt, D. and Philippow, I. (2001) “Feature Scoping for Product Lines”, In: International Workshop on Product Line Engineering – The Early Steps: Planning, Managing and Modeling, Germany. Rommes, E. (2003) “A People Oriented Approach to Product Line Scoping: Enabling Stakeholder Cooperation with User Scenarios”, In: International Workshop on Product Line Engineering, Germany, p.284-303. Schmid, K. (1999) “An Economic Perspective on Product Line Software Development”, In: First Workshop on Economics-Driven Software Engineering Research, USA. Schmid, K. (2000) “Scoping Software Product Lines - An Analysis of an Emerging Technology”, In: Software Product Line Conference, p. 513-532. Schmid, K. (2002) “A Comprehensive Product Line Scoping Approach and its Validation”, In: Proceedings of the 24th International Conference on Software Engineering, USA, p. 593-603. 72 ESELAW’09 VI Experimental Software Engineering Latin American Workshop ! " " % #$ &' ( % " !"#$% &"$'$(#$$ ' & " )* % + , /. ) * ) /)0/. -. /) % + % /. [email protected], [email protected], [email protected] !" # !$ % % % % % % % & % ' () () % , + " ) () % ) () (* ' ' / . () $ % % () & () 0 ' % %+ 1 2 ) 3 / 3 1)/ 5 4 2 5 7 ###: ; 8 2 5 1)/ = 7 2 81 ? 5 1 6 * 4 '$$>: ; 5 9 6 2 < 1)/ 5 . 5 ( 7 % @ 4 73 4 @ ESELAW’09 VI Experimental Software Engineering Latin American Workshop ? 7 1)/ -. 7 < 7 . -. D 7 2 5 C 7 E F G 5 C • @ • @ • -. H 2 2 7 9 ; B 2 -. -. -. 5 . % % . . 6 % A % 3 KI 6 A 3 6 L ( 5 5 .M ( 5 A .M 5 ( @ ? 6 -. 2 5 N H -. ) L M M ) -. '$$>: C 2 2 '$$!:A ( . @ 2 7 1)/ 89IJ 2 . ; 6 . ; 6 @ A 2 ; ? -. ? 81 )? 1 6 * 4 '$$>: ; -. , -. @ 8 2 ; 5 * ( )? 5 ##": 9 6 -. = = , ; 2 . ; 8O 6 5 -. )? 1)/ ; 6 6 2 = 3 2 5 4 ( ( 4 = 2 . -. . ; 7 5 . ; A 4 -. -. / -. ' / -. Q / -. P ) . . ; 5 . 4 -. 8O 2 2 -. . 7 1)/ ? = 4 2 -R 6 -. )? A . ) 2 74 6 C 6 -. '$$P: 2 ESELAW’09 VI Experimental Software Engineering Latin American Workshop *+ , " . 4 = O 2 2 '$$P '$$! ? 2 + R 2 4 ) -. -. ( . 6 '$$# B< - , ? 4 -. . / 0 5 A G ; A 5 • G . ) • G . / C . / • G • G ; 1)/ 5 1)/4 = = -. -. . 1 ; , 1)/ -R . ) • G • G . / C . / ( G 12 T S , 1)/S = , S R . A 1)/ A / -R -. 'A ) QA 1)/ 5 6 -. 1)/ 6 0 )? = 1)/ 5 ( ! -. ; 5 ) , 4 K A 5 K 2 A 7 M) 7 )? 6 3 2 )? 0 2 . / • A A K; 5 ( 2 5, A • . 6 -. 1)/S -. • )? 6 -. 5 G ; 6 -. 1)/ . • )? -. -. 'A G )? QA G . / 6 2 R 5 -. " -. H H , , 5 2 . = U / 7 -R 75 ESELAW’09 VI Experimental Software Engineering Latin American Workshop • ) E 2 A E F ( 2 - E) !$ - % 2 % 1 () $ % 5 2 % F F , ! 1 % % $ ! $ 2 . . 1$ () $ $ 2 $ -. ( 2 K T ? 2 ; . 7 4 (5 9 5 -. 2 5 2 ; 5 R 5 R . 2 6 5 7 ; 5 , A ) C ! -R ! 1 - F E -. ? 7 2 . . = 7 ; 2 5 = . ; *+ %+" . 6 7 '$$& 4 2 '$$& 6 5 2 6 ) 4 2 '$$# 5 T 2 2 5 6 2 4 . ? 2 R T 6 '$$# 7 % 4 -R . -R ( 2 ; 5 -. ; 5 = . ( . A (linha de produtos OR família de produtos) AND (Programação Orientada a Aspectos OR Orientação a Aspectos OR POA OR Desenvolvimento de Software Orientado a Aspectos OR DSOA) (product line OR product-line OR product family OR productfamily OR family of products) AND (aspect-oriented program OR aspects programming OR AOP OR aspect-oriented software development OR aspect oriented software development OR AOSD) C 5 -R % D 76 6 5 ESELAW’09 VI Experimental Software Engineering Latin American Workshop % 6 . 5 5 9 -. 5 "" # -. $ 5 ? 5 &" 2 4 &" = P> T 7 -. ; 2 5 2 2 PQV 7 -. 7 '$' 2 "$V 1)/ 6 )? T -. = 7 ""V 'QV -. ; 5 Q$V Figura 1. (a) Estudos incluídos na revisão classificados por fonte; (b) Classificação dos estudos selecionados. 6+ ? @ 2 B< . 2 ( 6 '$$# T ) -. 1)/ -. ; A 6 )? 5 5 . 6 -. . = 5 6 . = -. 5 2 R 4 ; 2 = 7 2 6 K = 5 . 2 5 Q 5 7 ( -. -. -. 1)/ 77 )? 7 ESELAW’09 VI Experimental Software Engineering Latin American Workshop • 74- 8 - AG 2 ; 5 4 ? T? ; ( 4 8 6 ; = 3 ? 8 + -. I '$$>: '$$P: • A -. 2 6 -. 1)/ • - - , -. - 1)/ 2 2 ; )? -. • A @ -. -. 5 6 7--8 ,! 5 4 9 -. 5 6 , )? 7 7 2 6 -. . ; @ / - A 1)/ ; -. 7 9 2 = W < 5 2 '$$# R ) -. 1)/ )? 6 -. * ; 5 -. '$$" -. 1)/ • 2 2 9 - A -. 6 -. -R • @ : G ; 8O T? 4 )? 2 6 '$$>: - ; 7) ;;8 2 A 9 . ; -R 1)/ 4 R )? -. 8U 2 -. • 5 7 '$$!: 0 2 ) ; 5 -. , 1)/ 7 )? 1)/ 5 )? 6 -. A .( 5 7 . 6 % 1)/4 = 78 -. ESELAW’09 VI Experimental Software Engineering Latin American Workshop • - ) % 1)/ ?? )? -. 2 1)/ -. 5 5X 1)/ ? U 4 7 )? 1)/ @ 1)/ ? 7 6 -. 7 2 -R -R )? % -. @ U 7 A 4 . 0 ; / 1 H ( -. WI 6 K 0B 5 2 5 ' . 9 ( ; )? 1)/ ( 7 -. 2 )? 2 K 2 ; 1)/ T? 6 2 7 ' . .A ( ( -. 5 @ 2 1)/ * )? )? 3 5 R )? R -. U )? ( 2 ) = < 5 5 6 -. B -. -. 9 ? / 5 7 2 )? , 1)/ @ -. 9 0 -. -. 5 7 1)/ 7 2 ( < 6 -. 7 P . P' PQ <+" -R )? ?? / 4 6 -. < . . -. ; -. 1)/ 6 )? 79 ! ESELAW’09 VI Experimental Software Engineering Latin American Workshop Tabela 1 – Sumário das Técnicas e Abordagens Selecionadas ' 3 - ( ' Q P !> "& - 4 T? )? 4 T? )? 4 T? )? -. )? 1)/ ?? -. )? 1)/ ?? # P ! > " $ Q ' & # '$ ' '' 'Q 'P '! '> R -. R R 6 -. -. % 1)/ ?? / -. 9. / / / 9. 9. / 9. 9. 9. )? / 9. )? )? 9. 9. 9. 9. 9. 9. / 9. / 9. 9. 9. 9. 9. 9. 9. 9. 9. 9. 9. / 9. )? 4 )? 4 4 )? )? -. '" 1)/ @ '& '# Q$ Q = )? )? 4 )? Q' % 5 2 1)/ )? 5 -. Tabela 2 – Sumário dos Estudos de Caso Selecionados ' QP ; QQ Q> Q" P Q! Q& Q# P$ P P' PQ PP ! P! P> 3 - = 2 2 @ @ U 4 -. C . ( . % ( 9. 9. 9. 9. 9. / 9. 9. 9. 5 4 -R '$' 9 4 . -R H 1 9. / 9. 9. 9. / 9. / 9. 0 ; / / U)1 7 = -. 5 P> 'QV ( 5 % . 6 -. -R ( 2 ( 6 . ( 2 ( R 6 5 2 H % 7 5 5 ; 4 < = 5 . 5 7 4 -. 80 ESELAW’09 VI Experimental Software Engineering Latin American Workshop ) ( 5 5 5 . -. ( 2 5 7 4 ( -. A )? C ; 1)/ -. ; = -. . ; 5 ; 5 = 5 / 3 ? 2 -R -. 3 - -. -. -. R 5 = , - 6 -. 1)/ . 1)/ 5 ; 0 5 2 7 2 5 )? ; -. )? 2 7 1)/ )? )? -. = 3 5 1)/ ; 4 3 - 9 1)/ 2 ? ; . -. )? 1)/ -. -. 5 1 G 5 2 5 . 2 5 .( 5 T 5 K 5 ( 1)/ C )? -. . -. 4 . = 2 U ) K0 (/ / > / A) + 2 ) ) + BM 3 I '$$> EL 2 T 2 !2 U ) 9 3 Y Z 9Y / ) U M9 F K 2 ) 9 2 1 F [ . '$ / 3 2 ) B I ### B< -. [ MK * ### E S ) !#%>& / IF U W '$$! E/I 3 *K( />"#0$! ) / ( ?)) 0 T*B T 3 Z / 3 ) 1 I 6 K '$$# E * . / 1)/ 6 )? F * @ ; 81 9 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 0)* + U 2 + ) T 2 / / 23 F 2 #2 2 L Z2 '$$! - / W / 2 (? / 3 ) ) O 6 3 / / ([ O 2 2 K 2 O 6 BM (? 19 / 'P 2Z M ) ? 4 (? B ##" B) B 1 6* * [ F ? ) 6 ) ? M? L / 3 Y Z 9IJ KI 6 3 6 / [ I / 3 ) / 3 ) 1 ) (1 % I * B (? [ F '$$" B . ) ? / 3 ) + 2 A ^^ / @ ) 1 L 1 ] M1 B 2 ??) ) L Z2 ) I ( (? F 2 ] 2 3 2T '2 / 3 * B 3 I O ( U ) '$$> L Z 2 '$$> I K '$$! E S / M 2 T '$$> E 6 F 2 &2 /. T '$$> E (1 L Z2 ) ) O '$$P E[ F A ) T / '$$P '"% Q> /I ) I 3F % $P$$$ K 9 K / / ( O K 1 O 0/ ( * 5 '$$> / F ) ) * 4 W '$$> EK2 * 2 !2 ) 2 U) 1 '$$> ) ? 2 O * K 2 5 / 3 * 2 M1 ) U K 2 5 O 3 U 1 I ) ) / 3 1 [ 2 T F + '$$P E) * K*0/ ($P$ O U % / 3 %9 2( 1 [ ? 0\ '$$! E T / 3 ) 1 / 3 ) 1 '$$# E* ) * 2 '$$# U M1 B ##" E 333 (? / U/?TK ) 9 3 IF 2 #2 2 L Z2 T ) '$$" E? 2 I K 2 5 ) 1 + 2 / 3 /+ / '$$" 2 1 L Z2 ( 1 (L /) '$$" #( Q$ 82 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Uma Abordagem Visual para Auxiliar a Revisão da Seleção de Estudos Primários na Revisão Sistemática Katia R. Felizardo1 , Gabriel F. Andery1 , José Carlos Maldonado1 , Rosane Minghim1 1 Instituto de Ciências Matemáticas e de Computação (ICMC) - Universidade de São Paulo Caixa Postal: 668 – 13560-970 – São Carlos – SP – Brazil {katiarf,gfandery,jcmaldon,rminghim}@icmc.usp.br Abstract. This paper presents an approach that uses Visual Text Mining (VTM) techniques and associated tool to support the reliability of inclusion and exclusion decisions in the conduction stage of a systematic review. The approach has been applied to real systematic reviews and the results showed that the use of visualization is an additional component and it can assist the reviewer to decide that relevant studies were not deleted. Resumo. Este artigo apresenta uma abordagem que faz uso de técnicas de Mineração Visual de Texto (Visual Text Mining - VTM) e ferramenta associada para apoiar a revisão da seleção de estudos primários na etapa de Execução da revisão sistemática. A abordagem foi aplicada em revisões sistemáticas reais e os resultados mostraram que o uso da visualização é um componente adicional e pode auxiliar o revisor na decisão de garantir que estudos relevantes não foram eliminados. 1. Introdução A comunidade de Engenharia de Software tem adotado revisões sistemáticas como uma forma de reunir dados de diferentes estudos experimentais para caracterizar uma dada tecnologia. A revisão sistemática é uma maneira de avaliar e interpretar toda pesquisa relevante e disponível sobre uma questão de pesquisa específica, tópico ou fenômeno de interesse, fazendo uso de uma metodologia de revisão que seja confiável, rigorosa e que permita auditagem [Kitchenham 2004]. O processo de condução da revisão sistemática, adaptado para a Engenharia de Software, foi sugerido por Biolchini et al. [2005] e baseado nas diretrizes iniciais propostas por Kitchenham [2004]. O processo envolve três etapas, o Planejamento da revisão, a Execução e a Análise dos Resultados [Biolchini et al. 2005]. Durante a etapa de Planejamento é identificada a necessidade de uma nova revisão sistemática, os objetivos da pesquisa são definidos e é criado o protocolo, que contém itens como a seleção de fontes, métodos de busca e palavras-chave, critérios de inclusão, exclusão e qualidade dos estudos primários [Biolchini et al. 2005]. Experimentos controlados, estudos de caso e surveys são exemplos de estudos primários, que atuam como fonte de informação para as revisões sistemáticas, ou seja, os estudos experimentais é que levantam os dados que são agrupados e sumarizados pelas revisões sistemáticas, que são os estudos secundários [Kitchenham 2004, Sjøberg et al. 2007]. 83 ESELAW’09 VI Experimental Software Engineering Latin American Workshop A etapa de Execução tem como objetivo a obtenção e análise dos estudos primários. Assim, os estudos são identificados, coletados e organizados em uma lista. Então os critérios de inclusão e exclusão definidos no protocolo são aplicados nos estudos da lista em duas etapas, inicialmente por meio da leitura do título, resumo e conclusões, seguido pela leitura do texto completo. Os resultados dessa análise são registrados, sendo que a lista dos estudos deve ser reavaliada para garantir que não foram eliminados estudos relevantes (Revisão da Seleção). Ao final dessa atividade, as informações são extraídas dos estudos identificados como incluídos. Por fim, é na etapa de Análise dos Resultados que os resultados dos estudos primários que atendem ao propósito da revisão são sintetizados. Essa síntese pode ser descritiva, mas um sumário quantitativo obtido por meio de um cálculo estatístico pode complementar a descrição [Kitchenham 2004]. Como mencionado anteriormente, a atividade de Revisão da Seleção procura evitar a eliminação de estudos relevantes, o que pode prejudicar consideravelmente o resultado final da revisão, uma vez que exclui informações que deveriam ser avaliadas e sintetizadas na etapa de Análise dos Resultados. Este artigo tem como objetivo propor uma abordagem que faz uso combinado de técnicas de Visual Text Mining (VTM) para auxiliar a Revisão da Seleção dos estudos primários, oferecendo as seguintes contribuições: (i) Revisão sistemática com dois ou mais revisores: A abordagem proposta auxilia na discussão das divergências entre revisores, oferecendo outros recursos para apoiar a tomada de decisão; e (ii) Revisão sistemática individual: A abordagem proposta pode sugerir indícios sobre quais artigos devem ser revistos, tanto para inclusão, quanto para exclusão, sem se basear em uma escolha aleatória. Este artigo está organizado da seguinte forma: na Seção 2 são apresentados os trabalhos relacionados; na Seção 3 a abordagem é descrita, juntamente com a sua aplicação em revisões sistemáticas reais e os resultados obtidos. Por fim, na Seção 4 estão as conclusões e os trabalhos futuros. 2. Trabalhos Relacionados Pesquisas relacionadas ao contexto mencionado foram desenvolvidas por Malheiros et al. [Malheiros et al. 2007], que sugeriram estratégias de VTM para apoiar a seleção de estudos primários. Os autores compararam o desempenho de revisores ao realizar a seleção dos estudos efetuando apenas a leitura dos seus resumos com o desempenho ao utilizar as estratégias sugeridas com o apoio de uma ferramenta de VTM denominada Projection Explorer (PEx) [Paulovich and Minghim 2006]. Assim como o trabalho de Malheiros et al. [2007], este trabalho também faz uso de técnicas de VTM e da PEx para apoiar o processo de revisão sistemática, no entanto, enquanto o objetivo do primeiro é utilizar essas técnicas para realizar a seleção dos estudos, a proposta deste trabalho é utilizá-las para revisar a seleção. Além disso, as técnicas de VTM utilizadas nesses dois trabalhos são diferentes. Não foram identificadas outras pesquisas que utilizam técnicas de VTM com o mesmo objetivo deste trabalho. 84 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 3. Abordagem Proposta e Aplicação em Situações Reais A Projection Explorer - PEx [Paulovich and Minghim 2006] é uma plataforma genérica de visualização de código aberto. A ferramenta disponibiliza diversas facilidades para manipulação de textos e exploração de uma coleção de documentos com o uso de técnicas de VTM. De forma resumida, tem-se que a ferramenta faz uso do modelo espaço vetorial para estruturar, comparar e calcular as distâncias entre os documentos. As distâncias calculadas são utilizadas por técnicas de projeções multidimensionais para gerar um mapa de documentos, ou seja, uma representação gráfica da coleção de textos. Nesse mapa, cada ponto (círculo), definido no espaço bidimensional representa um texto. Uma vez gerada a visualização, a principal ideia é a possibilidade do usuário interagir com o resultado, permitindo-lhe explorar, compreender e extrair informações relevantes dos dados. Nas Figuras 1(a) e 1(b) estão representados dois mapas de documentos gerados pela PEx. Esses mapas representam os estudos primários analisados em duas revisões sistemáticas. Essas e as outras revisões utilizadas neste artigo são do domínio de Engenharia de Software. (a) Revisão sistemática 1 (b) Revisão sistemática 2 Figura 1. Mapas de documentos gerados com a PEx A diferença de cor entre os pontos identifica a classe (incluído ou excluído) a qual cada estudo pertence. Essas classes foram definidas com base na aplicação (por um especialista no domínio de cada revisão) da estratégia tradicional de seleção de estudos primários, leitura dos resumos ou textos completos e aplicação dos critérios de inclusão, exclusão e qualidade. Nos mapas, os pontos vermelhos identificam os estudos excluídos da revisão, e os azuis, os incluídos. Na revisão sistemática 1, representada na Figura 1(a), foram incluídos 40 estudos e excluídos 77, já na revisão sistemática 2, representada na Figura 1(b), foram incluídos 33 estudos e excluídos 205. Partindo da criação e exploração visual de um mapa de documentos, a estratégia sugerida aqui para revisar a seleção dos estudos primários analisados pode ser resumida em dois passos principais: (1) primeiro, um algoritmo de clustering é aplicado sobre o mapa de documentos compondo grupos de documentos altamente relacionados (similares) – para tal o algoritmo k-means [MacQueen 1967] foi empregado; (2) então, os agrupamentos resultantes são analisados, em termos dos documentos incluídos e excluídos 85 ESELAW’09 VI Experimental Software Engineering Latin American Workshop que os formam, a fim de encontrar inconsistências. Nessa análise, as possíveis configurações que um agrupamento pode alcançar, e as possíveis consequências para o processo de reavaliação são: • Situação (a): Cluster Puro – todos os documentos possuem a mesma classificação (todos incluídos ou todos excluídos). Esse caso não desperta inicialmente a necessidade de uma reavaliação; • Situação (b): Cluster Misto – documentos com classificação diferente. Esses casos são alertas ao revisor e os estudos ali agrupados, principalmente os que possuem classificação divergente da maioria, devem ser reavaliados seguindo o método tradicional; e • Situação (c): Ponto Isolado – esses casos também são alertas ao revisor, sendo que o estudo isolado, se classificado como incluído, deve ser reavaliado uma vez que não possui semelhança com nenhum outro estudo. Os mesmos mapas das Figuras 1(a) e 1(b) estão reproduzidos nas Figuras 2(a) e 2(b) respectivamente, porém com a identificação dos clusters e das situações que devem ser detectadas segundo a abordagem descrita anteriormente. (a) Revisão sistemática 1 (b) Revisão sistemática 2 Figura 2. Identificação das situações (a), (b) e (c) Exemplos de clusters puros estão identificados na Figura 2(a) pelas marcações (a). Exemplos de clusters mistos estão identificados na Figura 2(b) pelas marcações (b). Por fim, um exemplo de ponto isolado está identificado na Figura 2(b) pela marcação (c). A avaliação dos clusters pode ser refinada com o apoio de recursos baseados em conteúdo ou citação, descritos na sequência, e que podem ser utilizados individualmente ou de forma combinada. 3.1. Recursos Baseados em Conteúdo Os documentos (pontos) contidos no mapa gerado pela PEx são posicionados de acordo com a similaridade entre seus conteúdos, conforme explicado anteriormente. A ferramenta também possui funcionalidades para modificar os atributos visuais dos pontos, por exemplo, a cor, de modo a refletir propriedades dos objetos. Dessa forma, dois recursos baseados nessas funcionalidades podem ser utilizados para apoiar a análise visual dos clusters. 86 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 3.1.1. Histórico das Exclusões O primeiro recurso prevê a criação de mapas de documentos baseados em conteúdo, contendo os estudos coletados e analisados na revisão sistemática, destacando por meio de cores o histórico das exclusões, ou seja, os estudos que foram excluídos nas diferentes etapas da seleção. O mapa da Figura 3(a) representa o resultado da fase de Execução da revisão sistemática 3, contendo 49 estudos primários, 38 excluídos da revisão (pontos vermelhos) e 11 incluídos (pontos azuis). Na Figura 3(b) o mesmo mapa de documentos da Figura 3(a) é reapresentado, mas agora colorido de acordo com o histórico das inclusões e exclusões. Os 16 pontos vermelhos representam estudos excluídos da revisão na primeira etapa (apenas com a leitura do resumo); os 22 pontos verdes, os incluídos na primeira etapa da seleção, porém excluídos na segunda (leitura completa do artigo); e os 11 pontos azuis, os incluídos. Assim, pontos verdes e vermelhos, 38 no total, são documentos excluídos e os azuis, documentos incluídos. No caso específico da revisão sistemática 3 foi mantido contato com os revisores, que disponibilizaram o histórico, o que não ocorreu com os demais exemplos utilizados neste artigo, retirados de publicações na literatura. (a) Sem histórico (b) Com histórico Figura 3. Mapas de documentos referentes à revisão sistemática 3 Com a coloração por histórico é possível a formação de quatro tipos de clusters mistos: (i) verdes e vermelhos; (ii) azuis e verdes; (iii) azuis e vermelhos; e (iv) azuis, verdes e vermelhos. Estudos em verde em conjunto com estudos em vermelho, apesar de mistos na representação por histórico, equivalem a clusters puros (todos excluídos) e, portanto, não precisam ser reavaliados. Estudos em azul (incluídos) em conjunto com estudos em verde ou vermelho (excluídos) formam clusters mistos nas duas representações, com ou sem o uso do recurso de histórico. Entretanto, considerando que os pontos azuis e verdes foram avaliados na segunda etapa pela leitura integral do texto, apenas os clusters contendo pontos azuis e vermelhos despertam a necessidade de reavaliação, pois representam estudos excluídos já na primeira etapa, apenas com a leitura do resumo, similares à estudos incluídos, lidos na íntegra. Por fim, clusters que contêm as três cores também devem ser reavaliados, pois configuram a mesma situação mencionada anteriormente, ou seja, pontos vermelhos 87 ESELAW’09 VI Experimental Software Engineering Latin American Workshop similares à azuis. Vale destacar que sem o uso do histórico todos os clusters mistos deveriam ser reavaliados. Os mapas e o recurso de histórico foram considerados, na opinião dos especialistas, um mecanismo importante para embasar a decisão inicialmente tomada (e mantida) de incluir ou excluir um determinado estudo primário da revisão. 3.1.2. Classificação da Qualidade dos Estudos O segundo recurso é similar ao primeiro, mas ao invés de colorir o mapa com base no histórico, o mesmo é colorido de acordo com a qualidade definida e atribuída pelos revisores para cada um dos estudos incluídos. A revisão sistemática 4 foi formatada para apresentar a aplicação desse recurso. (a) Excluídos e incluídos (b) Classificação de qualidade Figura 4. Mapas de documentos referentes à revisão sistemática 4 Nessa revisão a qualidade atribuída pelos revisores refletiu o conteúdo da maioria dos artigos, o que é possível observar na concentração de artigos de maior qualidade (Q1 a Q3, em uma escala de 1, maior qualidade, a 7, menor qualidade) no canto superior do mapa (todos incluídos). No entanto, não é possível afirmar que estudos com poucos detalhes na escrita são de baixa qualidade, isto porque não se pode assumir que algo não reportado não tenha sido feito [Kitchenham et al. 2007]. Uma situação interessante foi o caso destacado como (1) na Figura 4(b), ou seja, um artigo excluído (vermelho) similar a um incluído de qualidade Q7. Nesse caso, duas situações são possíveis e devem ser avaliadas: (i) o estudo de qualidade Q7 omitiu detalhes e, portanto, mais informações devem ser obtidas com os autores desse artigo para assegurar a sua inclusão; (ii) o estudo possui informações suficientes e, portanto, sua inclusão é questionável. Assim, fica evidente que os critérios de qualidade proveram mais detalhes do que apenas os fornecidos pelos critérios de inclusão e exclusão. 3.2. Recurso Baseado em Rede de Citações Como mencionado anteriormente o conteúdo dos estudos primários pode não refletir a sua qualidade. Assim, é possível utilizar outras opções para visualizar esses estudos, de 88 ESELAW’09 VI Experimental Software Engineering Latin American Workshop modo a complementar o que somente o conteúdo não revela. A rede de citações é uma dessas opções. A forma mais comum de representar visualmente as redes de citações (redes complexas) é por meio de grafos, que são formados por um conjunto de vértices e arestas, os quais representam os objetos e as relações entre eles, respectivamente [Andery et al. 2009]. Nesse caso, os estudos primários (vértices ou pontos) e suas referências bibliográficas (arestas). Através dessa visualização é possível identificar, por exemplo, estudos que não estão conectados aos demais, ou seja, não compartilham referências. Esses estudos, que estão isolados em termos de referências, merecem atenção por parte dos especialistas (revisores). Outro caso que merece destaque são as referências de estudos incluídos com muitas conexões. Isso porque buscas por estudos usando bibliotecas digitais e palavraschave podem não ser suficientes para uma revisão sistemática completa. Outras fontes devem ser pesquisadas, incluindo as listas de referência dos estudos revisados e classificados como incluídos [Kitchenham et al. 2007]. Exemplificações de redes de citações estão ilustradas na sequência, com outros conjuntos de revisões sistemáticas. As Figuras 5(a) e 5(b) representam as redes de citações das revisões 5 e 6, respectivamente. Essas redes também foram geradas pela ferramenta PEx, que foi adaptada por Andery et al. [2009] para permitir esse tipo de visualização. Os pontos vermelhos representam artigos excluídos; os azuis, os incluídos; e os cinzas, artigos referenciados. (a) Revisão sistemática 5 (b) Revisão sistemática 6 Figura 5. Redes de citações das revisões 5 e 6 Foi possível visualizar na rede de citações da Figura 5(a) que a maioria dos artigos incluídos (localizados na região central) compartilham as mesmas referências, assim como os excluídos (localizados na região à esquerda, acima). Os estudos isolados foram todos classificados como excluídos. Vale destacar que o “ponto azul” localizado no canto inferior direito, se observado com detalhe, não é um único ponto isolado, mas dois pontos que compartilham exatamente as mesmas referências, não citadas em nenhum outro estudo. Situações críticas e que merecem ser reavaliadas foram percebidas na rede de citações correspondente à revisão sistemática 6 (Figura 5(b)). Uma delas é a presença de 89 ESELAW’09 VI Experimental Software Engineering Latin American Workshop estudos incluídos totalmente isolados do restante (pontos azuis conectados apenas com suas respectivas referências), que totalizam 10 ocorrências. Um recurso adicional que pode ser utilizado é a técnica de coordenação por igualdade. Essa técnica cria um relacionamento direto entre os mesmos documentos contidos em diferentes visualizações. Dessa forma, quando um estudo primário ou um conjunto de estudos é selecionado no mapa de documentos, os mesmos objetos são destacados na rede de citações (ou vice-versa). Na Figura 6 está ilustrado o uso da estratégia de coordenação por igualdade para a revisão sistemática 5, sendo que na Figura 6(a) está apresentado o mapa de documentos dessa revisão sistemática e na Figura 6(b) a sua respectiva rede de citações. Os mesmos documentos selecionados no mapa da Figura 6(a) (pontos destacados à esquerda, acima) estão ressaltados na rede de citações da Figura 6(b) (ao centro). Os documentos (pontos) destacados permanecem com suas opacidades originais e os demais, não selecionados, ficam semi-transparentes. A utilização da coordenação permitiu visualizar que os estudos incluídos e localizados no mesmo cluster, além de similares em termos de conteúdo, são citados entre si. (a) Mapa de documentos (b) Rede de citações Figura 6. Coordenação: mapa e rede de citações da revisão sistemática 5 (a) Mapa de documentos (b) Rede de citações Figura 7. Coordenação 1: mapa e rede de citações da revisão sistemática 6 90 ESELAW’09 VI Experimental Software Engineering Latin American Workshop O uso da técnica de coordenação por igualdade permitiu identificar que o artigo incluído que não possui nenhuma referência na revisão sistemática 6 (ponto azul mais abaixo na Figura 5(b)) é similar a vários outros estudos excluídos da revisão. A Figura 7 apresenta esse cenário, sendo que na Figura 7(a) está exibido o mapa de documentos dessa revisão sistemática e na Figura 7(b) a sua respectiva rede de citações. A Figura 8 apresenta outro exemplo de coordenação por igualdade da revisão 6. Essa coordenação revelou que um estudo que foi incluído, mas que aparece isolado no mapa de documentos, ou seja, sem similaridade com os demais estudos (Figura 8(a), ponto mais à direita), na verdade possui muitas referências em comum com outro estudo também incluído (Figura 8(a), ponto azul ao centro). Esses dois estudos estão destacados na rede de citações da Figura 8(b). (a) Mapa de documentos (b) Rede de citações Figura 8. Coordenação 2: mapa e rede de citações da revisão sistemática 6 4. Resultados Obtidos e Trabalhos Futuros A abordagem sugerida disponibiliza mecanismos de interação que possibilitam ao revisor uma melhor compreensão dos estudos primários analisados em uma revisão sistemática. Utilizando a abordagem, é possível combinar diferentes técnicas de VTM para apoiar o revisor na tarefa de reavaliar os estudos primários, tanto as baseadas em conteúdo (classificação por histórico e qualidade) como em redes de citações (coordenação por igualdade), todas disponibilizadas na PEx. A abordagem é uma combinação de recursos para convalidar ou alertar sobre a decisão de incluir ou excluir um estudo primário da revisão sistemática e, principalmente, garantir que não foram eliminados estudos relevantes. Os resultados obtidos com a aplicação das técnicas de VTM demonstraram que as mesmas fornecem subsídios para facilitar a solução de divergências entre os revisores, quando a revisão é executada em conjunto. A visualização pode confirmar a decisão de um dos revisores, por exemplo, incluir um estudo de classificação divergente, caso o mesmo seja similar a vários estudos incluídos, ou que possua muitas referências em comum com outros também incluídos. No caso das revisões executadas individualmente as técnicas eliminam a escolha 91 ESELAW’09 VI Experimental Software Engineering Latin American Workshop aleatória dos artigos a serem reavaliados, sendo essa escolha baseada em critérios de similaridade e citações, ou seja, em informações sólidas contidas no conjunto de estudos, porém não reveladas sem o auxílio visual. Um dos formatos de entrada aceito pela PEx é o próprio conjunto de documentos em formato de texto. Por isso, se os estudos estiverem armazenados em qualquer outro formato, é necessária a conversão, uma tarefa a mais ao processo de revisão, que já é moroso, sendo essa uma limitação quanto à utilização da abordagem. Como trabalho futuro, pretende-se automatizar a conversão dos estudos primários para o formato de entrada da PEx. Além disso, deverá ser investigado o uso de medidas de importância de vértice em redes complexas (redes de citações), como grau de centralidade (degree centrality), grau de proximidade (closeness centrality) e grau de intermediação (betweenness centrality), de modo a fornecer informações adicionais para o revisor embasar as suas escolhas, uma vez que essas medidas permitem identificar o grau importância de um vértice dentro da rede. Essas medidas serão implementadas na PEx e será avaliado o uso das mesmas para apoiar as atividades de seleção e revisão dos estudos primários. Referências Andery, G. F., Lopes, A. A., and Minghim, R. (2009). Exploração visual multidimensional de redes sociais. In 2nd International Workshop on Web and Text Intelligence (WTI’09), pages 1–9, São Carlos. Biolchini, J., Mian, P. G., Natali, A. C., and Travassos, G. H. (2005). Systematic review in software engineering: Relevance and utility. Technical Report RT-ES 679/05, PESC/COPPE/UFRJ. Kitchenham, B. (2004). Procedures for performing systematic reviews. Technical Report TR/SE-0401, Keele University and NICTA. Kitchenham, B. A., Mendes, E., and Travassos, G. H. (2007). Cross versus withincompany cost estimation studies: A systematic review. IEEE Transactions on Software Engineering, 33(5):316–329. MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. In Cam, L. M. L. and Neyman, J., editors, Proceedings of the fifth Berkeley Symposium on Mathematical Statistics and Probability, volume 1, pages 281–297. University of California Press. Malheiros, V., Höhn, E. N., Pinho, R., Mendonca, M., and Maldonado, J. (2007). A visual text mining approach for systematic reviews. In Proceedings of the First International Symposium on Empirical Software Engineering and Measurement (ESEM’07), pages 245–254, Washington, DC, USA. IEEE Computer Society. Paulovich, F. and Minghim, R. (2006). Text map explorer: a tool to create and explore document maps. In Proceedings of the conference on Information Visualization (IV’06), pages 245–251, Washington, DC, USA. IEEE Computer Society. Sjøberg, D. I. K., Dybå, T., and Jørgensen, M. (2007). The future of empirical methods in software engineering research. In Briand, L. and Wolf, A., editors, Future of Software Engineering (FOSE’07), pages 358–378. IEEE Computer Society. 92 TECHNICAL SESSION 3 Verification, validation and test (VV&T) 93 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Granularity on Persistent Data Flow Testing of Active Database Applications Plinio S. Leitao-Junior1 , Plinio R. S. Vilela2 , Mario Jino3 , Joao C. Silva1 Instituto de Informática – Universidade Federal de Goias (UFG) Campus Samambaia, Caixa postal 131 – 74001-970 – Goiania – GO – Brazil 1 Universidade Metodista de Piracicaba (UNIMEP) Rodovia do Acucar, Km. 156 – 13400-911 – Piracicaba – SP – Brazil 2 Universidade Estadual de Campinas (UNICAMP) Avenida Albert Einstein, 400 – 13083-970 – Campinas – SP – Brazil 3 {plinio,jcs}@inf.ufg.br, [email protected], [email protected] Abstract. Active databases have been traditionally used as an alternative to implement persistent data requirements of applications on several knowledge domains. Their principle is the activation of tasks with specific functionalities as a response to events. These reactive abilities are generally expressed with active rules defined within the database itself. We investigate the use of data flowbased testing to identify the presence of faults in active rules written in SQL. Our research is based on the precision of data flow analysis, also named as data flow granularity, aiming at comparing different granularities and preliminarily evaluating their fault-revealing effectiveness. This analysis has an important impact on the cost of database application testing. The results point to higher granularities do not improve the fault detecting ability. 1. Introduction Data persistency is an attribute associated to the demand for non-volatile data. Applications that manipulate such data are different from conventional applications, since they incorporate persistent data in their execution input and output domains. In this context, database-enabled applications play an important role in the majority of modern organizations [Chays et al. 2000]. A database application is a program running in an environment containing one or more databases [Kapfhammer and Soffa 2003] Considering that faults are inherently part of software production, the proposition of approaches to improve the quality of database applications is pertinent. Software testing is the most commonly used method of software quality assurance. Software testing techniques for conventional programs have been proposed, implemented and evaluated over the years, but relatively little effort has been dedicated to the development of systematic testing techniques aimed to the database application domain [Chan and Cheung 1999, Chays et al. 2000, Kapfhammer and Soffa 2003, Zhang et al. 2001]. The motivation for this work is to contribute to the improvement of the quality of SQL-based applications. An SQL-based application interacts with the database using SQL (Structured Query Language), the most used language by database application developers [Fortier 1999, Elmasri and Navathe 2006]. The use of relational databases has 94 ESELAW’09 VI Experimental Software Engineering Latin American Workshop increased in applications that manipulate persistent data and, in this context, SQL is the most widely accepted and adopted in relational database systems [Daou et al. 2001]. Active database systems monitor specific events and, as they occur, trigger appropriate responses at the appropriate time. When the triggering of events occurs, a condition is evaluated against the database state, and an action is activated if its true. From the application’s point of view, part of its functionality is expressed as rules, such that the control and data flows are transferred from the application to the active rules during execution. An application domain overview of active database systems and their implementation aspects are found in [Ceri et al. 2000, Ceri and Widom 1996]. The question associated to this research is the lack of testing techniques in the context of active rules written in SQL. This motivates new testing techniques based on the use of SQL, aiming to reveal faults not yet discovered. Testing criteria for active rules written in SQL were proposed and analyzed in the context of data flow based structural testing [Leitao-Junior et al. 2008]. The criteria are an extension to the All-Uses criterion [Rapps and Weyuker 1985], and exploits persistent data flow relations associated to rule interaction. We carried out an empirical investigation aiming to evaluate the applicability of different data flow analysis precisions and to compare their fault detecting ability. Section 2 deals with active rules written in SQL. Persistent data flow is discussed in Section 3. Section 4 introduces persistent data flow analysis precision. An empirical analysis is exploited in Section 5. Section 6 deals with related work. Section 7 concludes with directions for future work. 2. Active Rules in SQL Active rules in SQL, called triggers, are activated by a database state transition. The source of events is limited to operations on the database structure, specifically a relation state transition. The rule condition consists of any SQL predicate, including sub-queries and user defined functions [Kulkarni et al. 1998]. Baralis et al. [Baralis et al. 1998] present the event-condition model for triggers. Three components make up the model: i) the event set: the set of data manipulation operations being monitored; ii) the condition: a predicate that references the current database state and the rule transition values; and iii) the action: a sequence of data manipulation operations. The transition values associated to a given active rule execution are transient data that are being inserted, updated or excluded by the event operation. Figure 1 presents the syntax for the creation of a trigger, according to Kulkarni et al. [Kulkarni et al. 1998]. The production <trigger action time> – Figure 1 – determines whether the rule will be triggered before or after the event operation acts on the database. The production <trigger event> defines the type of state changing operations that cause the rule to be triggered. The clause FOR EACH { ROW | STATEMENT } specifies whether the rule is triggered for each event occurrence or for a set of event occurrences. The production <search condition> does not include state changing operations, differently from the production <triggered SQL statement>; the dispatch between triggers, not necessarily distinct, can occur only from the action rule execution, not from the condition rule evaluation. If the execution of the action rule causes the event of another rule, the execution of the former is interrupted and the control is given to the latter. 95 ESELAW’09 VI Experimental Software Engineering Latin American Workshop <trigger definition> ::= CREATE TRIGGER <trigger name> <trigger action time> <trigger event> ON <table name> [ REFERENCING <old or new values alias list> ] <trigger action> <trigger action time> ::= BEFORE | AFTER <trigger event> ::= INSERT | DELETE | UPDATE [ OF <column name list> ] <old or new values alias list> ::= <old or new values alias> <old or new values alias> ::= OLD [AS] <identifier> | NEW [AS] <identifier | OLD_TABLE [AS] <identifier> | NEW_TABLE [AS] <identifier> <trigger action> ::= [ FOR EACH { ROW | STATEMENT } ] [ <trigger condition> ] <triggered SQL statement> <trigger condition> ::= WHEN <left paren> <search condition> <right paren> <triggered SQL statement> ::= <SQL procedure statement> | BEGIN ATOMIC { <SQL procedure statement> <semicolon> } END Figure 1. Syntax of trigger creation. The notation ri (ei , ci , ai ) indicates that the rule ri is described by event ei , condition ci and action ai . In the control flow context, similarly to conventional programs, a rule r is represented by a directed-graph, given by G(r) = (N, B, e, x), where: N is the set of nodes in the rule; B is the set of branches; the entrance and exit nodes are, respectively, e and x; the entrance node is also called event node. Figure 2(b) shows the control flow graph of the SQL active rule in Figure 2(a); dashed edges represent exceptions due to the execution of SQL manipulation commands. 1 2 CREATE TRIGGER Reorder AFTER UPDATE OF PartOnHand ON Inventory WHEN (:New.PartOnHand < :New.ReorderPoint) FOR EACH ROW DECLARE NUMBER X; BEGIN SELECT COUNT(*) INTO X FROM PendingOrders WHERE Part = :New.Part; IF X = 0 THEN INSERT INTO PendingOrders VALUES (:New.Part, :New.OrderQuantity, SYSDATE); END IF; END; 3 4 5 6 7 (a) (b) Figure 2. Example of an active rule in SQL: (a) source code (b) control flow graph. 3. Persistent Data Flow The data flow in manipulation commands is characterized by: definition, use and usedefinition. The first is the result of the execution of the insert command; the second corresponds to the execution of the select command; and the last one is the result of the execution of the update and delete commands. Data flow of implicit operations are also considered; for example, the opening of a cursor is a persistent data use. The ddef notation represents persistent data definitions: ddef(i)={variable v — v is a database variable defined in node i}. The definition of a persistent variable is a 96 ESELAW’09 VI Experimental Software Engineering Latin American Workshop persistent definition. The persistent use may affect the control flow, due to the occurrence of exception conditions. Persistent uses occur in the output edges of SQL nodes, due to the potential exceptions. The duse notation represents the persistent data use: duse(i,j)={variable v — v is a database variable used in the edge (i,j)}. The use of a persistent variable is a persistent use. A persistent data flow association, persistent association, ddef-duse-association, or simply ddua, is a triple [i, (j, k), v], such that: v ∈ ddef (i); v ∈ duse(j, k); and there is a definition-free path with respect to (w.r.t.) v from i to (j, k). Alternatively, if ddu(v,i)={edges (j,k) — v ∈ ddef(i), v ∈ duse(j,k) and there is a definition-free path w.r.t. v from i to (j,k)}, a persistent association is represented by the triple [i, (j, k), v], such that (j, k) ∈ ddu(v, i). 4. Granularity on Persistent Data Flow To define the data flow associations created from the database usage we should decide on a level of granularity of the database variables in which we can trace their definition and their later use [Daou et al. 2001]. The granularity, also called data flow analysis precision, determines the rigor of data flow analysis and defines coverage levels for persistent data flow relations. According to Kapfhammer and Soffa[Kapfhammer and Soffa 2003] the granularity levels are: database, relation, attribute, tuple, and attribute value. At granularity level relation persistent variable are mapped to database relations, no matter which tuples or attributes had been affected by manipulation operations. This approach easy the analysis and reduce the number of variables, since it considers each relation as a single variable. Nevertheless establishes a conservative approach, since every variable definition followed by a variable use is a data flow association, regardless of which data they are manipulating. At granularity level attribute the definition occurrences and uses of relation attributes are explored, with no concerns of which tuples have been manipulated. It is more precise then the relation level, since it differentiates the attributes at each relation. Data flow associations can be characterized when the intersection of the two sets of manipulated columns, the definition occurrences and the use occurrence, are not empty. An advantage of this approach is that the number of columns in a relation is fixed and their occurrences of definitions and uses are statically identified. Daou et al. [Daou et al. 2001] set forth a strategy to the regression testing of database applications and use the granularity at the column level to determine the database modules affected by modifications in the database component definitions. The granularity level tuple is used when a refined data flow analysis is necessary to determine the affected tuples in each data manipulation operation. Generally, statically determine which tuples are affected by a data operation is not possible, due to the complexity that can be reached by the line selection predicates [Vaduva 1999] and the current database state. In a relational database a tuple, in general, represents a real world entity, an association among entities or some particular aspect of an entity. So use the line granularity level means reach the real world entities manipulated by database operations. The database and attribute value granularity levels represent two ends of data flow analysis precision. The former considers the whole database as a single variable and the 97 ESELAW’09 VI Experimental Software Engineering Latin American Workshop definition and use occurrences are statically determined. The latter is the level of greater dataflow analysis precision and represents a composition of tuple and attribute, and is also not decidable by static analysis. The coverage of persistent data flow association is affected by the granularity of the data flow analysis. The coverage of a ddua at the β granularity is reached when the intersection of sets ddef and duse established at level β is not null and at least one definition free path with respect to the persistent variable is executed. Therefore, in the context of persistent data flow based testing, testing requirements are pairs <criterion, granularity> which coverage analysis consider exercised paths and manipulated persistent data along these paths. The pair <criterion, granularity> established a new testing requirement, since it requires the analysis of the input domains that are appropriate to the coverage of a particular criterion on each granularity level. To reach coverage at more precise granularity levels implies a greater effort during the testing activities, since the input domain is reduced. Moreover, it is in general not possible to statically determine if a particular <criterion, granularity> will be covered by the test. 5. Empirical Analysis The experiment investigated the applicability of testing requirement <criterion, granularity>, and preliminarily analyze its fault-revealing effectiveness at different data flow analysis precisions. The coverage of pair <criterion, granularity> demands dynamic analysis of persistent data along exercised paths, since in general the static determination of defined and used database entities due to manipulation command execution is an open question. The effectiveness of coverage criteria depends not only on the selected paths but also on the test data for those paths [Clarke et al. 1989]. Consider that the application of a test case set produces the tuple < Π, Γ > such that: Π is the resulting path set, Π = {π1 , · · · , π1 }, p > 0; and Γ is persistent data defined and used along each path of Π; Γ = {γ1 , · · · , γp }, such that γk ∈ Γ is persistent data defined and used along path πk ∈ Π. We will consider a testing requirement effective if the application of an adequate test data is capable of revealing at least half of the software faults in the subject programs. In addition, we consider a testing requirement to be applicable if the number of test cases required in a real application is substantially less than that expected by their theoretical complexity, so that the use of the criteria is possible in a practical manner. 5.1. Experiment Design The experiment applied a family of adequacy testing criteria, called Interaction Between Active Rules based Criteria, defined in [Leitao-Junior et al. 2008]. The complexity of testing requirements can be used to derive their application cost; it is defined as the number of required test cases in the worst case, even so in practice this situation is unlikely to occur. Although Interaction Between Active Rules based Criteria are an extension to AllUses criterion, in which the worst case scenario is a function of control flow structures, their complexities are indexed by manipulation operations that possess both definition and use of persistent data, such that SQL command update. 98 ESELAW’09 VI Experimental Software Engineering Latin American Workshop A four-rule set of SQL rules, named as Rx , which has 74 interaction associations, was applied to the Oracle database management system. The Oracle system has been frequently used by the academic community [Daou et al. 2001]. This approach could be extended to others systems, such as SQLServer, DB2, SyBase, M ySQL, and Inf ormix. Versions of the rule set Rx were built by seeding one fault for each version. The manipulation fault type list introduced in [Leitao-Junior et al. 2005] was used to derive 26 faulty versions of Rx , aiming at testing them by applying Interaction Between Active Rules based Criteria. The set of manipulation commands in Rx in which their execution can cause persistent data flow of interaction associations was targeted during the seeding of faults. The SQL manipulation command and the fault type were selected randomly for each faulty version in order to avoid bias in fault seeding. All faulty versions were tested at granularities relation, attribute, tuple, and attribute value, in order to observe whether higher data flow analysis precisions improve the fault-revealing ability. Test data were generated for each faulty version, aiming at exercising all interaction associations at each granularity. The triggering commands were elaborated to cover all event rule operations of Rx . The generation of testing database was based on [Ostrand and Balcer 1988, Chays et al. 2000]: basically, the tester provides a list of values that are conceptually different for each database attribute, according to its domain, which are combined to derive insertion commands to database relations; the commands in which execution does not satisfy any database integrity constraints are discarded. 5.2. Experiment Application All rules of Rx were enabled for triggering before the application of each test case; this establishes the real operation of Rx . The execution of the faulty rule was not isolated, and the triggering between rules could occur in a chain. The experiment application was supported by a tool, called ADAPT-TOOL – Active Database APplication Testing TOOL for active rules written in SQL – that was developed aiming at the automation of Interaction Between Active Rules based Criteria. The tool builds a database testing using relational model structures, and focuses on the following functions: test data generation, control of rule set faulty versions, application (and re-application) of test cases, testing oracle, and evaluation of test case sets by granularity. 5.3. Analysis of the Results Table 1 shows the summary of 632 applications of test cases. The data table relate the number of test cases, presenting values of interaction association coverage per granularity, and of raised exceptions. The columns are labeled (I), (II), and (III); lines are labeled (a) to (j). Columns (I) and (II) distinguish fault-revealing and non fault-revealing test cases, respectively; column (III) refers to all test cases, sum of columns (I) and (II). Line (a) refers to test cases that did not exercise the faulty node. Test cases that exercised the faulty node but covered no interaction association are summarized in line (b). Lines (c), (d), (e), and (f ) synthesize test cases related to interaction association coverage at granularities relation, attribute, tuple, and attribute value, respectively. To understand how the values in lines (c) to (f ) were computed, consider the cell (I : d), column (I) and line (d); it states the number of fault-revealing test cases to the granularity tuple, 99 ESELAW’09 VI Experimental Software Engineering Latin American Workshop those test cases in which tuple were the highest granularity obtained at all interaction associations covered by them. Raised exceptions are exploited in lines (h) to (j). Line (i) refers to user exceptions – those raised by the programmer using the command raise. Line (j) refers to persistent manipulation exceptions – those raised due to manipulation command execution and not handled by the programmer. Line (h) refers to test cases applied with no exception. Table 1. Summary of fault and non fault-revealing executed test cases, by granularity and raised exception type. (I) (II) (III) Test cases Fault-revealing Non fault-revealing All (a) Fault not exercised 0 8 8 (b) No coverage 20 2 22 (c) Relation coverage 213 89 302 (d) Tuple coverage 46 20 66 (e) Attribute coverage 81 37 118 (f) Attribute value coverage 64 52 116 (g) all 424 208 632 (h) No exception 281 198 479 (i) User exception 112 10 122 (h) System exception 31 0 31 (j) All 424 208 632 The application of the adequate test data was capable of revealing all of the faults, and the number of test cases was substantially less than that expected by the theoretical complexity of each rule set faulty version. To evaluate the applicability of the data flow analysis, a measure was used, denoted by the number of fault-revealing test cases of adequate test set, stated by Equation 1. (I : c) + (I : d) + (I : e) + (I : f ) (III : c) + (III : d) + (III : e) + (III : f ) (1) Equation 1 was used by all data flow criteria, using any model, deriving adequate test sets that include at least one fault-revealing test case . The value 0.6711 resulted from the expression above, denoting that 2/3 of the adequate test sets are fault-revealing. Computing the effectiveness per granularity, the values 0.7053, 0.6970, 0.6864, and 0.5517 were obtained for granularities relation, attribute, tuple, and attribute value, respectively, showing that the effectiveness reaches higher values for the lower data flow analysis precision. The coverage at higher granularities does not improve the fault detection ability. The coverage at granularity relation was enough to reveal the presence of all faults. In some versions of Rx , the coverage at granularities tuple and attribute value was non faultrevealing. Two scenarios were observed: i) two state changing commands characterize the interaction association, such as update-update, so that the execution of the second one fix the error due to execution of the first one; and ii) the triggering between rules leads to failure elimination due to the sequential execution of state changing commands. 100 ESELAW’09 VI Experimental Software Engineering Latin American Workshop The raised exceptions were traced in order to help the oracle role. From faultrevealing test cases, 33.7% (143 out of 424) raised exceptions, the majority resulted from raise command executions. Note that user exceptions implement behavior according to the software specification and they should be used to decide on the presence of faults. The instrumentation of exception situations required special mechanisms, since exception occurrences usually can cause the loss of database transactions, eliminating the instrumentation data. The demonstrated effectiveness is an initial empirical evidence. Additional studies are required since several factors are involved in the investigation, such as, test data generation strategy, active rules used in the experiment, and fault types and active rules selected faults. 5.4. Threats to Validity Although the seeded faults were not collected from real software projects, they are representative of real fault types, according to Leitao et al. [Leitao-Junior et al. 2005]. Even then the replication of this study with real fault data is desirable. A threat is related to the fact that the experiment uses only one set of rules, with several different versions. To compensate this approach the set has several interaction points, which makes its behavior very complex at run time. Such interaction points, specially the triggering between rules, result in some cases on the execution of more than a thousand nodes, increasing the chances of unexpected or incorrect behavior. Another limitation is related to the artificial seeding of faults, that are unique in each version of the rule set, in spite of the random selection of manipulation occurrences and of fault types. In practice it is observed that faults do not occur in isolation, defective programs will in general have more than one fault at the same time. We have to point out that a secondary goal of this empirical investigation is to evaluate different data flow granularities to detect the presence of faults. The isolation of faults allow a finer level of control when analyzing the influence of each granularity in the detection of each fault. 6. Related Work In the active rule context, Vaduva [Vaduva 1999] establishes an approach based on rules sequences, independently of the existence of triggering between rules, in order to reveal inadequate rule interactions or improper sequences of rule execution. That work is based on SAMOS, an object oriented database system. The goal of each test case is the execution of a specific rule sequence from a rule set. SQL is not used and the structural elements of the rules, such as control and data flow, are not considered in the coverage of a particular sequence. Kapfhammer and Soffa [Kapfhammer and Soffa 2003] define testing criteria based on data flow analysis for database applications exploiting several granularity levels. The list of data flow associations is dependent on the database initial state: the size of the database determines the number of required elements, since associations are defined for each possible element of the database. The results of their empirical investigation indicate that the number of required elements varies with the precision of the data flow analysis. The authors based their empirical investigation on a couple of Java programs accessing a MySQL database. There is a tendency for a high number of required elements when 101 ESELAW’09 VI Experimental Software Engineering Latin American Workshop tuple and attribute value granularities are used, even with a reduced database. The work does not investigate the fault-revealing aspect of the proposed criteria. Additional work concentrate on the generation of testing databases [Chays et al. 2000, Daou et al. 2001, Davies et al. 2000, Zhang et al. 2001] and on the definition of approaches to test database applications [Chan and Cheung 1999, Suárez-Cabal and Tuya 2004]. 7. Conclusions This work investigates the applicability of persistent data flow strategies in testing of active rules written in SQL, representing a valuable resource to the quality assurance activities related to the development of active database applications. A family of adequacy criteria was used, called Interaction Between Rules based Criteria, to promotes the use of a systematic approach to testing and eventually contributes to the dissemination of the use of active rules databases. The results of the empirical investigation, supported by the tool ADAPT-TOOL, show that the criteria are capable of revealing faults in manipulation commands, in addition to their applicability at several granularities. The effectiveness was 2/3 of adequate data set, and reached higher values for the lower data flow analysis precision. The coverage of interaction associations at higher granularities does not improve the fault detecting ability; fault-revealing and non fault-revealing scenarios were identified at every granularity level. The realization of new empirical studies is desirable, since several factors are involved in the results of the study, such as: data flow generation techniques; set of active rules utilized; test data generated; faults and types of faults seeded in the active rules. Additional sets of active rules could be used to include samples of real rules to reduce threats to the study’s validity. References Baralis, E., Ceri, S., and Paraboschi, S. (1998). Compile-Time and Runtime Analysis of Active Behaviors. IEEE Transactions on Knowledge and Data Engineering, 10(3):353–370. Ceri, S., Cochrane, R., and Widom, J. (2000). Practical Applications of Triggers and Constraints: Success and Lingering Issues. In Proc. of the 26th Very Large Database (VLDB) Conference, pages 254–262, Cairo, Egypt. Ceri, S. and Widom, J. (1996). Applications of Active Databases. In Widom, J. and Ceri, S., editors, Active Database Systems: Triggers and Rules for Advanced Database Processing, pages 259–291. Morgan Kaufmann Publishers. Chan, M. and Cheung, S. (1999). Testing Database Applications with SQL Semantics. In Proc. of the 2nd Intl. Symp. on Cooperative Database Systems for Advanced Applications (CODAS’99), pages 364–375. Chays, D., Dan, S., Frankl, P. G., Vokolos, F. I., and Weyuker, E. J. (2000). A Framework for Testing Database Applications. In Proc. of the 2000 ACM SIGSOFT Intl. Symposium on Software Testing and Analysis, pages 147–157, Portland, Oregon. 102 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Clarke, L. A., Podgurski, A., Richardson, D. J., and Zeil, S. J. (1989). A Formal Evaluation of Data Flow Path Selection Criteria. IEEE Transactions on Software Engineering, 15(11):1318–1332. Daou, B., Haraty, R. A., and Mansour, N. (2001). Regression Testing of Database Applications. In Proc. of the 2001 ACM Symposium on Applied Computing, Las Vegas, Nevada. Davies, R. A., Beynon, R. J. A., and Jones, B. F. (2000). Automating the Testing of Databases. In Proc. of the 1st Intl. Workshop on Automated Program Analysis, Testing and Verification. Elmasri, R. and Navathe, S. (2006). Fundamentals of Database Systems. Addison Wesley, Boston, MA, 5th edition. Fortier, P. J. (1999). Implementing the SQL Foundation Standard. McGraw-Hill. Kapfhammer, G. M. and Soffa, M. L. (2003). A Family of Test Adequacy Criteria for Database-Driven Applications. In European Software Engineering Conference and ACM SIGSOFT Symposium on the Foundations of Software Engineering, ESEC/FSE 2003, Helsinki, Finland. Kulkarni, K., Mattos, N., and Cochrane, R. (1998). Active Database Features In SQL3. In Paton, N. W., editor, Active Rules in Database Systems, pages 197–219. SpringerVerlag. Leitao-Junior, P. S., Vilela, P. R. S., and Jino, M. (2005). Mapping Faults to Failures in SQL Manipulation Commands. In Proc. of the 3rd 3 ACS/IEEE International Conference on Computer Systems and Applications (AICCSA-05), Egypt, Cairo. Leitao-Junior, P. S., Vilela, P. R. S., and Jino, M. (2008). Data Flow Testing of SQLbased Active Database Applications. In Proc. of the 3rd International Conference on Software Engineering Advances (ICSEA-08), Sliema, Malta. Ostrand, T. J. and Balcer, M. J. (1988). The Category-partition Method for Specifying and Generating Functional Testing. Communications of the ACM, 31(6):676–686. Rapps, S. and Weyuker, E. (1985). Selecting software test data using data flow information. IEEE Trans. Soft. Eng., SE-11(4). Suárez-Cabal, M. J. and Tuya, J. (2004). Using a SQL Coverage Measurement for Testing Database Applications. In Proc. of the 12th Intl. Symp. on the Foundations of Software Engineering, Newport Beach, California. Vaduva, A. (1999). Rule Development for Active Database Systems. PhD thesis, University of Zurich. Zhang, J., Xu, C., and Cheung, S. (2001). Automatic Generation of Database Instances for White-box Testing. In Proc. of the 25th Annual International Computer Software and Applications Conference (COMPSAC’01), Chicago, Illinois. 103 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Redução de Potenciais Defeitos através da Detecção de Anomalias em Diagramas de Classes Isela Macía, Arndt von Staa Departamento de Informática – PUC-Rio – Rio de Janeiro – RJ – Brazil {ibertran, arndt}@inf.puc-rio.br Abstract. This paper defines strategies to assist the identification of flaws related to inter-dependencies between classes and packages that can be observed in class diagrams. The flaws described in this paper are Shotgun Surgery, God Package and Misplaced Class. The accuracy, precision and recall of the proposed strategies were evaluated and compared to the measurements of similar flaws made at code level by means of an experimental study. The study showed that two of the three proposed detection strategies God Package and Misplaced Class - yield very close results to published detection strategies applied to code, hence are good predictors at the design level. Resumo. Este trabalho define estratégias para detectar anomalias associadas com interdependências entre classes e pacotes e que podem ser observadas em diagramas de classes. As anomalias descritas neste artigo são Shotgun Surgery, God Package e Misplaced Class. A acurácia, precisão e recall das estratégias propostas foram avaliadas e comparadas, por intermédio de um estudo experimental, com medições feitas aplicando estratégias similares no correspondente código. O estudo mostrou que a detecção no modelo de duas das três anomalias analisadas - God Package e Misplaced Class - produz resultados muito próximos aos obtidos por estratégias publicadas de detecção no código, constituindo, portanto, bons preditores no nível de projeto. 1. Introdução Anomalias de design são resultados das más escolhas e têm o efeito potencial de degradar a qualidade do design e, conseqüentemente, tendem a impactar a qualidade do software. Alguns pesquisadores propuseram mecanismos baseados em métricas de código fonte para capturar desvios dos princípios de bom design orientado a objetos [Munro, 2005; Lanza & Marinescu, 2006]. Marinescu & Lanza chamam esse mecanismo de estratégias de detecção. Uma estratégia de detecção é uma condição lógica, composta por métricas, que detecta candidatos de elementos do projeto com anomalias específicas. Tais estratégias, embora possam gerar um número considerável de falsos positivos, aliviam o problema do projetista ter que exaustivamente inferir anomalias a partir de uma extensa inspeção do conjunto de valores “anormais” de métricas. A maioria dos trabalhos existentes propõe ou estuda estratégias de detecção com base exclusivamente em informações do código fonte. No entanto, a detecção a partir do código fonte é indesejável, uma vez que leva a um considerável volume de retrabalho inútil que poderia ser evitado caso as medições fossem realizadas nos projetos, ainda 104 ESELAW’09 VI Experimental Software Engineering Latin American Workshop antes de se iniciar o desenvolvimento do código [Pressman, 2001; Sapsomboon, 2002; Brykczynski et al., 1994]. Embora existam trabalhos que definem métricas em diagramas de classes e diagramas de estados [Genero et al., 2001; Genero et al., 2002; Zhou e Baowen, 2002] e ferramentas como [SDMetrics, 2008; MetricView, 2005] que automatizam a aplicação destas métricas, esses trabalhos possuem uma série de limitações. Dentre elas encontram-se: (i) eles não provêem suporte para identificação de anomalias de modularidade forçando ao projetista ter que exaustivamente inferí-las a partir de uma extensa inspeção do conjunto de valores “anormais” de métricas, (ii) atributos externos da qualidade não são estimados a partir de quantificações das propriedades do design (tamanho, acoplamento, entre outras). Uma primeira iniciativa de definição de estratégias para a detecção de anomalias, recorrentes na literatura, em modelos é [Macia et al., 2008]. Nesse trabalho adaptamos duas estratégias para a detecção de Data Class e God Class e desenvolvemos uma ferramenta para apoiar sua aplicação automatizada. As medições realizadas a partir dos modelos foram confrontadas com medições realizadas a partir do código e mostraram uma forte coerência. Ou seja, os resultados obtidos naquele trabalho mostraram que essas estratégias propostas podem ser utilizadas como ajuda aos projetistas para evitar anomalias de design antes da criação do código. Porém, anomalias mais complexas, envolvendo interdependências múltiplas, devem ser exploradas em modelos. Neste trabalho definimos um conjunto de estratégias para a detecção de anomalias de design no contexto de modelos UML, especificamente em diagramas de classes (Seção 3), visando complementar as estratégias definidas em [Macia et al., 2008]. Essas anomalias estão associadas com interdependências indesejáveis entre classes e pacotes. Mais especificamente, adaptamos para modelos as estratégias definidas por Lanza & Marinescu (2006) para detecção no código dos problemas de design chamados de Shotgun Surgery, God Package e Misplaced Class [Fowler et al., 1999]. Além disso, realizamos um estudo experimental para verificar a acurácia, precisão e recall dessas estratégias aplicadas a modelos (Seção 4). Os resultados do estudo são discutidos na Seção 5. Esses resultados mostraram que as estratégias propostas podem antecipar anomalias de design encontradas posteriormente na etapa de geração de código. Finalmente, a Seção 6 apresenta conclusões e trabalhos futuros. 2. Estratégias para a Detecção de Anomalias de Design em Código Fonte Shotgun Surgery. Este problema de design corresponde a classes nas quais uma modificação, implica pequenas modificações em muitas outras classes [Fowler et al., 1999]. Quando as modificações estão espalhadas, elas são difíceis de encontrar e, por isso, é muito provável esquecer uma modificação importante. Isto acarreta, portanto, um impacto negativo na manutenibilidade dos sistemas já que as mudanças não estão agrupadas. As classes que possuem esta anomalia de design normalmente apresentam as seguintes características: (i) seus métodos são muito utilizados por outras classes, e (ii) elas têm muitas outras classes como clientes, ou seja, têm um acoplamento elevado. Com base nessas características, a estratégia para a detecção de classes com essa anomalia é definida da seguinte forma [Lanza & Marinescu, 2006]: Shotgun Surgery = (CC > 5) and (CM > 10), 105 ESELAW’09 VI Experimental Software Engineering Latin American Workshop em que: (i) a métrica CM (Changing Methods) conta o número de métodos que podem ser potencialmente afetados por mudanças na classe avaliada, e CC (Changing Class) conta o número de classes que deverão ser inspecionadas se ocorrerem mudanças na classe avaliada. Os detalhes de implementação e as referências originais dessas métricas podem ser encontrados em [Lanza & Marinescu, 2006]. God Package. Este problema de design refere-se a pacotes que tendem a ser muito grandes e possuir classes que não interdependem, ou seja, classes com baixa coesão entre elas. Além disso, segundo Lanza & Marinescu (2006), outro sintoma desta anomalia são pacotes que possuem muitos clientes. A estratégia para detecção de God Package é definida da seguinte forma: God Package = (PS > 20) and (NOCC > 20) and (NOCP > 3) and (PC < 0,33), em que: (i) a métrica PS (Package Size) conta o número de classes que estão definidas no pacote avaliado. A métrica NOCC (Number Of Client Classes) representa o número de classes definidas em outros pacotes e que usam o pacote avaliado. Uma classe utiliza um pacote se ela realiza chamadas a métodos, acessa a variáveis ou herda de alguma classe definida nesse pacote. A métrica NOCP (Number Of Client Packages) conta o número de pacotes que utilizam o pacote avaliado. Um pacote A utiliza outro pacote B se ao menos uma das classes definidas em A usa alguma classe do pacote B. A métrica PC (Package Cohesion) é definida como o número relativo de pares de classes que dependem entre si. Os detalhes de implementação e as referências originais dessas métricas podem ser encontrados em [Lanza & Marinescu, 2006]. Misplaced Class. Este problema de design faz referência às classes em que é baixo o grau de interdependência com as demais classes definidas em um dado pacote, além de dependerem muito de classes definidas em outros pacotes. Uma classe que utiliza principalmente as funcionalidades definidas em pacotes diferentes do seu, deveria provavelmente ser movida para outro pacote. Baseado nas características prováveis de estas classes a estratégia de detecção para código foi definida da seguinte forma [Lanza & Marinescu, 2006]: Misplaced Class = (NOED > 6) and (CL < 0,33) and (DD > 3), em que: a métrica NOED (Number Of External Dependencies) conta o número de classes de outros pacotes das quais a classe avaliada depende, (ii) a métrica CL (Class Locality) conta a porcentagem de dependências que uma classe tem em seu próprio pacote em relação ao total de dependências que ela possui, e (iii) a métrica DD (Dependency Dispersion) representa o número de outros pacotes dos quais a classe avaliada depende. Os detalhes de implementação e as referências originais dessas métricas podem ser encontrados em [Lanza & Marinescu, 2006]. 3. Estratégias para a Detecção de Anomalias de Design em Modelos UML Com o objetivo de antecipar a detecção de anomalias de design desde os modelos do sistema, adaptamos um conjunto de estratégias de detecção - Shotgun Surgery, God Package e Misplaced Class - a fim de permitir que elas sejam aplicadas em diagramas de classes. Diferentemente de [Macia et al., 2008], neste trabalho nos preocupamos com a adaptação de estratégias que cobrem problemas de maior complexidade tais como 106 ESELAW’09 VI Experimental Software Engineering Latin American Workshop interdependências de classes e pacotes. As adaptações realizadas foram de dois tipos: (i) mudança na forma de computar algumas métricas de modo que fossem consideradas apenas informações disponíveis em diagramas de classes, e (ii) inclusão de métricas para contornar a ausência de informações nos diagramas de classes. Shotgun Surgery. As duas métricas usadas na estratégia de detecção de Shotgun Surgery para código (Seção 2) – CC, CM – dependem de informações disponíveis exclusivamente no código interno dos métodos, respectivamente, para determinar: (i) os métodos que podem ser afetados por modificações na classe avaliada, e (ii) a quantidade de classes em que são definidos os métodos possivelmente afetados pelas mudanças na classe avaliada. Como essas informações não estão disponíveis em diagramas de classes, tivemos que realizar adaptações para definir a estratégia de detecção de Shotgun Surgery para modelos. Primeiramente, na computação de CMadpt, passamos a considerar os métodos de outras classes: (i) com parâmetros cujos tipos fazem referência à classe avaliada, e (ii) que redefinem algum método da classe avaliada. Segundo, incluímos a métrica CA (Changing Attributes) que representa a quantidade de atributos cujo tipo faz referência à classe avaliada. Esta inclusão está apoiada pelo fato de que os atributos de uma classe normalmente são acessados pelos métodos por ela definidos. Terceiro, no cálculo de CCadpt, foram consideradas as classes que: (i) algum de seus métodos foi identificado pela CMadpt, ou (ii) apresentam relações de associação ou dependência com a classe avaliada. Dessa forma, a estratégia de detecção de Shotgun Surgery para modelos é definida da seguinte maneira: Shotgun Surgery := (CCadpt > τ) and (CMadpt + CA > η), em que, as métricas CCadpt e CMadpt referem-se às métricas CC e CM adaptadas. Os valores limites utilizados foram representados, respectivamente, pelos símbolos τ e η, uma vez que estudos empíricos ainda precisam ser realizados para que se possam determinar os valores que reduzam a freqüência de falsos positivos, sem no entanto gerar falsos negativos que possam comprometer a qualidade do software. Além disso, a escolha desses valores limites também depende das características do sistema que está sendo analisado. Por ora, caberá ao desenvolvedor especificar quais valores serão utilizados para parametrizar a estratégia de detecção. God Package. Aqui três das quatro métricas utilizadas na estratégia de detecção para código (Seção 2) – PS, NOCC, NOCP e PC – dependem de informações disponíveis do código dos métodos para determinar o grau de dependência entre as classes e pacotes nos diagramas de classes. Como essas informações não estão disponíveis em diagramas de classes, tivemos que adaptar as métricas NOCC, NOCP e PC de forma a que elas passassem a considerar apenas que uma classe depende de outra classe quando: (i) existem relações de dependência, herança ou associação entre elas; e (ii) utiliza informações por meio de declarações de atributos e/ou parâmetros. Uma classe depende de um pacote quando utiliza alguma das classes definidas nele. Sendo assim, a estratégia de detecção God Package para modelos é definida da seguinte forma: God Package = (PS > τ) and (NOCCadpt > η) and (NOCPadpt > δ) and (PCadpt <ζ), em que, as métricas NOCCadpt, NOCPadpt, PCadpt, referem-se às métricas NOCC, NOCP e PC adaptadas. Os valores limites associados às métricas PSadpt, NOCCadpt, NOCPadpt e 107 ESELAW’09 VI Experimental Software Engineering Latin American Workshop PCadpt foram representados utilizando, respectivamente, os símbolos τ, η e δ, de maneira semelhante à estratégia Shotgun Surgery. Misplaced Class. As três métricas usadas na estratégia de detecção Misplaced Class para código (Seção 2) – NOED, CL e DD – dependem de informações disponíveis apenas no código fonte para determinar: (i) quando uma classe depende de outra classe, e (ii) quando um pacote depende de outro pacote. Ao realizar as adaptações nas métricas NOEDadpt, CLadpt e DDadpt, consideramos os mesmos critérios utilizados na estratégia God Package para determinar se uma classe depende de outra classe ou se depende de um pacote. Sendo assim, a estratégia de detecção de Misplaced Class para modelos é definida da seguinte forma: Misplaced Class = (NOEDadpt > τ) and (CLadpt < η) and (DDadpt > δ), em que as métricas NOEDadpt, CLadpt e DDadpt. referem-se às métricas NOED, CL e DD adaptadas. Os valores limites associados às métricas NOEDadpt, CLadpt e DDadpt foram representados utilizando, respectivamente, os símbolos τ, η e δ. 4. Estudo Experimental O objetivo do estudo experimental é avaliar a acurácia, a precisão e o recall das estratégias aqui propostas na identificação das mesmas entidades com anomalias que as estratégias correspondentes para código. Estas medidas foram escolhidas por elas serem normalmente utilizadas para avaliar a eficácia de um sistema de recuperação de informação. Nesse contexto, elas são definidas da seguinte forma: acurácia representa o grau de veracidade dos resultados; precisão corresponde à relevância dos resultados obtidos de acordo à consulta realizada, e recall representa a habilidade para a recuperação dos resultados relevantes de acordo à consulta realizada (Baeza & Ribeiro, 1999). O estudo se baseou na estrutura proposta por Wholin et al (2000). 4.1. Definição do Estudo Analisar: as estratégias de detecção propostas para modelos Com o propósito de: avaliar Com respeito a: sua precisão, acurácia e recall na identificação das mesmas anomalias que suas correspondentes para código. Do ponto de vista: do pesquisador No contexto de: estudantes da pós-graduação do Laboratório de Engenharia de Software da PUC-Rio. 4.2. Planejamento O estudo supõe o processo off-line e apresenta ausência de randomização tanto na seleção dos objetos quanto na seleção dos participantes. Em virtude da dificuldade de encontrar sistemas desenvolvidos a partir de modelos, os nove sistemas envolvidos no estudo apresentado em [Macia et al., 2008] foram utilizados para avaliar as estratégias aqui propostas. Esses sistemas são: um framework para a geração de relatórios estatísticos para o gerenciamento de incidentes (S1), um framework para o gerenciamento de conteúdos (S2), uma linha de produto de software de locadora de filmes (S3), um framework para a aplicação de métricas no código fonte (S4), QCDTool 108 ESELAW’09 VI Experimental Software Engineering Latin American Workshop [Macia et al., 2008] uma ferramenta para a aplicação das estratégias de detecção em diagramas de classes (S5) e as versões 5.2 (S6), 6.0 (S7), 7.0 (S8) e 7.1 (S9) do sistema open source JHotdraw [JHotdraw, 2008]. Os modelos dos primeiros cinco sistemas foram gerados como parte do processo de desenvolvimento como trabalho da matéria Projeto Projeto de Sistemas de Software do programa de pós-graduação em informática da PUC-Rio. Esta disciplina avalia a correspondência dos diagramas UML com o código implementado. Os modelos escolhidos apresentaram bons resultados e alta coerência com o código fonte. No entanto, os diagramas de classes das diferentes versões do sistema JHotdraw foram gerados mediante engenharia reversa apoiada pela ferramenta Enterprise Architecture [EA, 2008]. As características desses sistemas são resumidas na Tabela 1. A realização do estudo envolveu apenas um estudante de posgraduação na área de engenharia de software da PUC-Rio. Tabela 1 - Características dos sistemas utilizados no estudo Sistema S1 S2 S3 S4 S5 S6 S7 S8 S9 Num. Pacotes 12 38 27 18 16 17 16 21 25 Num. Classes 61 102 110 96 150 172 332 313 401 Num. Métodos 513 529 898 459 679 1.438 3.117 3.251 3.986 Num. Atributos 142 218 194 248 459 363 361 735 1.198 4.3. Execução Devido a que utilizamos os sistemas envolvidos no estudo apresentado em [Macia et al., 2008] não tivemos que nos preocupar por uma fase de preparação. Sendo assim, a execução deste estudo pode ser resumida nos seguintes passos: (i) aplicação das estratégias de detecção nos diagramas de classes, usando uma extensão de nossa ferramenta QCDTool, (ii) aplicação das estratégias de detecção no código, utilizando a ferramenta Together (2008), e (iii) análise dos resultados. Escolhemos utilizar Together pelo fato de automatizar muitas das estratégias de detecção para código propostas em [Lanza & Marinescu, 2006], incluindo as adaptadas neste trabalho. Tabela 2 – Valores Limites utilizados. Shotgun Surgery Métrica Valor Limite CM + CA 10 CC 5 God Package Métrica Valor Limite PS 20 NOCC 18 NOCP 3 PC 0,33 Misplacd Class Métrica Valor Limite NOED 5 CL 0,33 DD 3 Os valores limites foram usados nas estratégias para modelos com base nos valores limites das estratégias correspondentes para código. Sendo assim, utilizamos mesmos valores para: (i) as métricas cuja informação necessária para seu cálculo está disponível no modelo em nível de detalhe semelhante ao do código, (ii) valores padrões utilizados, por exemplo, um terço, e (iii) valores absolutos muito pequenos tais como 3 e 5. Valores limites menores foram usados para as métricas cuja informação necessária para seu cálculo está disponível no modelo em menor detalhe que no código. Os valores limites associados a cada uma das métricas são apresentados na Tabela 2. Extrapola os 109 ESELAW’09 VI Experimental Software Engineering Latin American Workshop objetivos deste trabalho realizar os estudos empíricos necessários para ajustar os valores utilizados. 4.4. Análise e Interpretação No contexto deste trabalho, as medidas de acurácia, precisão e recall são definidas da seguinte forma: a acurácia representa o grau com o qual as estratégias de detecção para modelo classificaram as entidades no design de forma semelhante às suas homólogas para código fonte. A precisão corresponde à proporção entre a quantidade de entidades com anomalias identificadas pelas estratégias para modelo e pelas correspondentes para código, e o total de entidades com anomalias identificadas no modelo. Finalmente, o recall representa a proporção entre a quantidade de entidades de design com anomalias identificadas pelas estratégias para modelo e pelas correspondentes para código, e o total de entidades com anomalias identificadas no código. Para o cálculo destas medidas foi necessário categorizar as entidades classificadas pelas estratégias em cada sistema da seguinte forma: Falsos Positivos (FP), incluem todos os suspeitos revelados no modelo que não foram detectados no código; Falsos Negativos (FN), referem-se a todas as entidades que não foram classificadas como suspeitas no modelo, porém, foram identificadas no código; Verdadeiros Positivos (VP), incluem todos os suspeitos no modelo que foram detectados também no código; e Verdadeiros Negativos (VN), referem-se às entidades não identificadas no modelo nem no código. Sendo assim, a acurácia, precisão e recall podem ser calculadas da seguinte forma: Acurácia = VP VN VP VN FP FN Precisão = VP VP e Recall = VP FP VP FN Os resultados da aplicação das estratégias de detecção nos sistemas avaliados estão resumidos na Error! Reference source not found.3. A tabela apresenta os graus de acurácia, precisão e recall das estratégias para modelos em cada um dos nove sistemas. Tabela 3 - Resultado das estratégias de detecção propostas Shotgun Surgery Sistemas Acurácia S1 S2 S3 S4 S5 S6 S7 S8 S9 96% 98% 95% 95% 98% 98% 98% 98% 99% God Package Misplaced Class Precisão Recall Acurácia Precisão Recall Acurácia Precisão Recall 100% 0% 0% 0% 0% 33% 100% 100% 100% 66% 100% 100% 100% 100% 100% 87% 85% 83% 100% 100% 100% 100% 93% 100% 100% 90% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 50% 100% 100% 33% 100% 96% 100% 100% 100% 100% 100% 97% 100% 100% 33% 100% 100% 100% 100% 100% 50% 100% 100% 100% 100% 100% 100% 100% 100% 50% 100% 100% A estratégia de detecção Shotgun Surgery apresentou bons resultados de precisão apenas nos sistemas em que os modelos foram gerados mediante engenharia reversa (sistemas S7-S9). Nestes modelos evidenciou-se um aumento dos valores das métricas CCadpt, CMadpt em relação aos outros modelos, acarretando uma quantidade maior de verdadeiros positivos. Isso aconteceu porque, baseadas nas informações disponíveis apenas no código fonte, as ferramentas de engenharia reversa podem gerar relacionamentos entre entidades que normalmente não são incluídos pelos projetistas 110 ESELAW’09 VI Experimental Software Engineering Latin American Workshop como parte do processo de desenvolvimento. Com isto podemos dizer que é difícil alcançar boa precisão na identificação dessa anomalia no modelo, uma vez que ela depende muito de informações disponíveis apenas no código fonte. A estratégia de detecção God Package apresentou a melhor precisão para todas as estratégias analisadas (100% para todos os sistemas avaliados). Isto significa que todos os pacotes classificados como instâncias God Package no modelo foram também detectados no código. Isso permite aos usuários antecipar a correção desta anomalia de design já desde a etapa de modelagem. Porém, não todas as entidades identificadas no código foram identificadas também no modelo o que motivou baixos valores de recall, para alguns dos sistemas, por exemplo, sistemas S5 e S8 (Error! Reference source not found.3). Por fim, o alto grau de acurácia dessa estratégia indicou que ela classifica as entidades de maneira semelhante a sua correspondente para código. Finalmente, a estratégia de detecção Misplaced Class apresentou apenas um caso de falso positivo para os sistemas S1 e S7. Porém, devido ao baixo número de entidades identificadas como esta anomalia, no modelo e no código, os casos de falsos positivos encontrados tiveram alto impacto no cálculo da precisão (sistemas S1 e S7 Error! Reference source not found.3). Por outro lado, algumas das entidades identificadas com anomalias no modelo não foram identificadas como tal no código. Isso pode acarretar que essas entidades sejam tratadas como instâncias dessa anomalia no modelo sem realmente serem e, portanto, contribuem para baixos valores de recall (sistema S7 Error! Reference source not found.3). 4.5. Validação da análise O único aspecto que ameaça a validade de conclusão de nosso estudo é o tamanho da amostra, que é pequeno para o tipo de estudo realizado. Estamos cientes disso e, portanto, consideramos os resultados apenas como preliminares. As ameaças à validade de construção são mínimas porque a computação das estratégias de detecção tanto para modelos como para código foi totalmente automatizada. A principal ameaça à validade interna do estudo está relacionada ao grau de correspondência entre os diagramas e código. Porém, os diagramas dos sistemas S1 a S5 foram gerados pelos próprios desenvolvedores como parte do processo de desenvolvimento e os diagramas dos restantes sistemas foram gerados mediante engenharia reversa automatizada. Consideramos que o fato de apenas um estudante de pós-graduação ter conduzido o estudo não constitui uma ameaça principal já que a condução do estudo foi totalmente automatizada. A principal ameaça à validade externa do nosso estudo é natureza dos sistemas analisados. Para minimizar essa ameaça procuramos usar sistemas de tamanho diferentes e desenvolvidos por pessoas e ambientes (academia e open-source) distintos. Porém estamos cientes que mais estudos experimentais evolvendo sistemas comerciais devem ser realizados no futuro. 5. Discussão As diferenças entre os resultados das duas estratégias de detecção Shotgun Surgery, ocorreram porque as métricas da versão para modelo foram adaptadas de forma a usar menos informações que as correspondentes da versão para código. Por exemplo, uma das cláusulas dessa estratégia diz que, para ser uma Shotgun Surgery, uma classe tem que ter CM > 10 (Seção 2). A métrica CM conta o número de métodos que podem 111 ESELAW’09 VI Experimental Software Engineering Latin American Workshop ser potencialmente afetados por mudanças realizadas na classe avaliada. Essa métrica considera que um método é potencialmente afetado sempre que em seu escopo sejam realizadas chamadas a alguns dos métodos definidos na classe avaliada. No entanto, como no modelo não há informações para determinar as chamadas a métodos da classe avaliada, na métrica CMadpt foram utilizadas as referências a essa classe feitas através de atributos e parâmetros. Por causa disso, algumas referências à classe avaliada foram consideradas no modelo, mas não o foram no código por elas não realizarem chamadas a métodos dessa classe. Isso fez com que algumas classes tiveram valor maior para CMadpt no modelo, e conseqüentemente, fossem classificadas como Shotgun Surgery no modelo e não no código. Os resultados da estratégia de detecção God Package também foram afetados pelas adaptações realizadas às métricas. Por exemplo, uma das cláusulas dessa estratégia diz que, para ser um God Package, um pacote tem que ter NOCC > 20. A métrica NOCC, definida no contexto de código fonte, conta o número de classes clientes em outros pacotes que um pacote possui. Dentre outras coisas, essa métrica utiliza os acessos a informações de outras classes para determinar a quantidade de clientes que um pacote possui. Estes acessos são determinados por declarações de variáveis, chamadas a métodos e acessos a atributos de outras classes. No entanto, como no modelo não há informações para detectar estes acessos, as classes clientes foram detectadas utilizando apenas as referências realizadas nas declarações de atributos e parâmetros, além de associações, herança e dependências entre classes (NOCCadpt , NOCPadpt e PCadpt Seção 3.2). Por causa disto, algumas classes foram identificadas como clientes no código, mas não o foram no modelo. Isso fez com que alguns pacotes tivessem maior número de classes clientes no código, e conseqüentemente, fossem classificados como God Package no código e não no modelo. Situações semelhantes aconteceram na estratégia de detecção Misplaced Class. Nesta estratégia, duas de suas cláusulas dizem que, para ser uma Misplaced Class uma classe tem que ter NOEDadpt > 6 e DDadpt > 3 (Seção 3.2). Essas métricas correspondem adaptações para modelo de métricas que contam o número de pacotes e classes que uma determinada classe acessa (Seção 2). A ausência de informação no modelo para determinar esses acessos acarretou que essas métricas apresentaram menores valores que suas correspondentes para código. Isso fez com que algumas classes fossem classificadas como Misplaced Class no código e não no modelo, o que contribuiu para alguns casos de falsos negativos. 6. Conclusões e Trabalhos Futuros Neste artigo apresentamos três estratégias de detecção para a identificação de anomalias de design associadas com interdependências indesejáveis em diagramas de classes, com objetivo de ajudar os projetistas a diminuir a quantidade de correções de defeitos em etapas posteriores. A aplicação automatizada destas estatrégias de detecção foi apoiada pela ferramenta QCDTool apresentada em [Macia et al., 2008]. Realizamos um estudo experimental (Seção 4) para verificar o grau com o qual cada estratégia para modelos detecta as mesmas classes que sua estratégia correspondente para código. Embora preliminares, os resultados do estudo mostraram que a estratégia Shotgun Surgery depende muito de informações disponíveis apenas no código fonte o que torna difícil alcançar uma boa precisão na identificação dessa anomalia no modelo. As estratégias 112 ESELAW’09 VI Experimental Software Engineering Latin American Workshop para detectar God Package e Misplaced Class no modelo apresetaram bons graus de acurácia, precisão e recall. Isso indica que essas estratégias podem ser utilizadas para avaliar modelos de modo a construir software com menos retrabalho inútil e menos defeitos remanescentes. Pretendemos no futuro realizar esse um estudo mais aprofundado envolvendo um maior número de sistemas e participantes. Referências BAEZA, R.; RIBEIRO, B. Modern Information Retrieval. Addison Wesley Longman, 1999. BRYKCZYNSKI, B.; MEESON, R.; WHEELER, D.A. Software Inspection: Eliminating Software Defects; Sixth Annual Software Technology Conference; 1994 EA. Enterprise Architecture. Disponível em <http://www.sparxsystems.com.au/>. FOWLER, M.; BECK, K.; BRANT, J., OPDYKE, W.; ROBERTS, D. Refactoring: Improving the Design of Existing Code. Addison-Wesley, 1999. GENERO, M.; PIATTINI, M.; CALERO, C. Empirical validation of class diagram metrics. In Proceedings of 2002 International Symposium on Empirical Software Engineering, Nara, Japan, 2002, pages 195–203. JHotdraw. Disponível em <http://www.jhotdraw.org/>. Acceso em: maio 2008 LANZA, M.; MARINESCU, R. Object-Oriented Metrics In Practice. Using Software Metrics to Characterize, Evaluate, and Improve the Design of Object-Oriented Systems. Berlin, Alemanha: Springer, 2006 MACIA, I.; SANT’ANNA, C.; STAA, A. Detectando Problemas de Design em Diagramas de Classes: Um Estudo Experimental. V Experimental Software Engineering Latin American Workshop (ESELAW’2008), 2008. MetricView 2005. Disponível em: <http://www.win.tue.nl/empanada/metricview/>. Acesso em: Abril 2008. MUNRO, M. J. Product Metrics for Automatic Identification of “Bad Smells” Design Problems in Java Source-Code. IEEE International Conference, 2005. PRESSMAN, R.S. Software Engineering – A Practitioner’s Approach, 2001. SAHRAOUI, H.; BOUKADOUM, M.; LOUNIS, H. Building Quality Estimation models with Fuzzy Threshold Values. L’Objet, 17(4), 2001, pages 535-554. SAPSOMBOON, B. “Shared Defect Detection : The Effects of Annotations in Asynchronous Software Inspection,” PhD thesis, University of Pittsburgh, 2002. SDMetrics. Disponível em: <http://www.sdmetrics.com/> . Acesso em: maio 2008. WOHLIN, C.; RUNESON, P.; HOST, M.; OHLSON, M.; REGNELL, B.; Wesslen, A. Experimentation in Software Engineering: An Introduction, Kluwer Academic Publishers, 2000. ZHOU, Y.; BAOWEN, X. Measuring structure complexity of UML class diagrams. Journal of Electronics, China, 20(3), 2003, pages 227-231. 113 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Reutilização de Conjuntos de Teste: Um Estudo no Domı́nio de Algoritmos de Ordenação Diogo Nascimento Campanha1 , Simone do Rocio Senger Souza1 , Otávio Augusto Lazzarini Lemos1 , Ellen Francine Barbosa1 e José Carlos Maldonado1 Departamento de Sistemas de Computação Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo (USP) Caixa Postal: 668 – 13560-970 - São Carlos - SP 1 {diogonc,srocio,oall,francine,jcmaldon}@icmc.usp.br Resumo. De acordo com resultados anteriores, um conjunto de teste (T) adequado para o critério Análise de Mutantes (AM) – AM-adequado – para um programa P não é adequado para um programa Q, equivalente a P . Por outro lado, apesar de T não ser 100% adequado para o teste de Q, é possı́vel que na prática ele seja próximo ao adequado, motivando sua reutilização. Neste artigo apresenta-se um experimento que busca avaliar o nı́vel de adequação de Ts AMadequados para programas de referência em outros programas equivalentes. O estudo é realizado no domı́nio de algoritmos de ordenação. Foram construı́dos Ts AM-adequados para 6 algoritmos diferentes de ordenação, conjuntos estes que foram executados contra 22 implementações diferentes construı́das por alunos de graduação. Para verificar a similaridade das médias das coberturas atingidas pelos diferentes Ts, foram realizados testes estatı́sticos de análise de variância. Resultados indicam que não há diferença significativa entre as coberturas atingidas pelos diferentes Ts, o que motiva a sua reutilização. Além disso um segundo teste indicou que essas coberturas são superiores às obtidas por um T aleatório. 1. Introdução Para reduzir os custos da atividade de teste de software, muitas vezes se torna interessante reutilizar conjuntos de (casos de) teste criados anteriormente. Isso ocorre particularmente no caso de programas semanticamente semelhantes (ou equivalentes), ou seja, programas que implementam a mesma funcionalidade, porém de forma diferente. Em outras palavras, dado que se tem disponı́vel um conjunto de teste T adequado para o teste de um programa P , e se quer testar um programa Q semanticamente semelhante a P , T pode ser utilizado como ponto de partida para se testar Q. Apesar de tal afirmação ser intuitiva, é importante verificar na prática o nı́vel de adequação do conjunto de teste reutilizado, pois isso pode depender diretamente da funcionalidade implementada e da forma como o conjunto de teste foi gerado (isto é, do tipo de critério de adequação adotado). Este artigo apresenta um estudo experimental sobre esse problema, no contexto da reutilização de casos de teste criados a partir do critério Análise de Mutantes (AM) para programas equivalentes que implementam diferentes algoritmos de ordenação. O critério AM [DeMillo et al. 1978] é considerado custoso, o que torna esse tipo de experimento importante para a obtenção de indı́cios sobre a viabilidade da reutilização de conjuntos de teste nesse contexto. De acordo com o axioma da antiextensionalidade de critérios de teste definido por Weyuker [Weyuker 1986] tem-se que: dado dois programas P e Q, tal que P é equivalente a Q, um conjunto de teste T adequado a P não é necessariamente adequado a Q. A mesma autora demonstra teoricamente que essa propriedade se aplica ao critério AM. Isso 114 ESELAW’09 VI Experimental Software Engineering Latin American Workshop é claramente observado, já que o critério AM leva em conta a sintaxe do programa, ou seja, os mutantes gerados e, consequentemente, os casos de teste, dependem diretamente de como o programa é implementado. Entretanto, apesar de T não ser necessariamente adequado a Q – ou seja, não atingir 100% de cobertura para o critério AM –, é possı́vel que ele seja próximo do adequado, o que motivaria a sua reutilização. Em um trabalho anterior [Maldonado et al. 1995], verificou-se indı́cios de que os escores de mutação são de fato similares quando se utiliza conjuntos de teste de referência aplicados a diversos programas que implementam algoritmos de ordenação. Entretanto, nesse primeiro estudo foi utilizada apenas uma implementação de cada algoritmo de ordenação, desenvolvida pelos próprios autores. Além disso, estudos indicam que o critério AM é bastante eficaz para revelar diversos tipos de defeitos [Mathur and Wong 1993]. No entanto, a sua aplicação em geral é custosa devido à grande quantidade de mutantes gerados que precisam ser analisados e executados contra os conjuntos de teste [Maldonado et al. 1995]. Dessa forma, estudos que indiquem que a reutilização de conjuntos de teste é efetiva para esse critério são importantes para viabilizar, por exemplo, a criação de bases de conjuntos de teste para diferentes funcionalidades que podem ser reutilizados pelos desenvolvedores. Tais práticas poderiam compensar o alto custo de aplicação do critério, já que ofereceriam um ponto de partida no teste de diferentes aplicações. O estudo apresentado neste artigo procura avaliar os mesmos resultados atingidos por Maldonado et al. [Maldonado et al. 1995], porém, neste caso com um número maior de implementações desenvolvidas por programadores diferentes e com análises estatı́sticas dos resultados obtidos. Comparou-se, ainda, a cobertura atingida pelos conjuntos de teste gerados a partir da utilização do critério AM com a cobertura obtida por conjuntos de teste gerados aleatoriamente, para verificar a utilidade dos conjuntos gerados sistematicamente. O estudo experimental envolveu 28 implementações de algoritmos de ordenação, sendo 22 desenvolvidas por alunos de graduação do curso de Engenharia de Computação – divididas em implementações do bubble sort, do selection sort e do insertion sort – e 6 implementações-referência de diferentes algoritmos de ordenação (bubble sort, insertion sort, selection sort, shell sort, merge sort e quick sort). Conjuntos de teste adequados para o critério AM foram gerados para os programas-referência. A partir daı́, executou-se os conjuntos de referência em todos os programas, coletando a cobertura atingida. Para verificar se a média das coberturas atingidas foi de fato alta e similar para todos os programas, aplicou-se a ANOVA [Wohlin et al. 2000] (ANalysis Of VAriance). O mesmo teste foi aplicado uma segunda vez, considerado um conjunto de teste gerado aleatoriamente. Os resultados atingidos indicam que casos de teste gerados a partir do critério AM para programas que implementam algoritmos de ordenação podem ser efetivamente reutilizados em programas semanticamente semelhantes. Além disso, demonstra-se que o conjunto de teste aleatório obtém cobertura significativamente mais baixa, o que indica que a utilização dos conjuntos de teste gerados sistematicamente é interessante nesse contexto. O restante do artigo está organizado como segue. Na Seção 2 apresentam-se conceitos gerais sobre o critério AM e o axioma definido por Weyuker. Na Seção 3 descreve-se o estudo experimental, mostrando sua definição e planejamento, e na Seção 4 apresenta-se a análise dos resultados alcançados e discussões. Por fim, na Seção 5 apresentam-se as conclusões e trabalhos futuros. 115 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 2. Critério Análise de Mutantes e Axiomatização 2.1. Análise de Mutantes O critério Análise de Mutantes (AM) utiliza informações sobre os defeitos cometidos frequentemente por programadores ou projetistas durante o desenvolvimento do software para definir os requisitos de teste [DeMillo et al. 1978]. Com base nos defeitos que se deseja evidenciar, pequenas modificações sintáticas são realizadas sobre o código-fonte, gerando programas ligeiramente alterados denominados mutantes. Assim, o objetivo do critério é gerar casos de testes que demonstrem que o programa não possui os defeitos representados pelos mutantes, observando-se a saı́da durante a execução do programa original e dos mutantes gerados. Um mutante é considerado morto quando a saı́da gerada por ele difere da saı́da gerada pelo programa original. Mutantes equivalentes são aqueles que geram a mesma saı́da que o programa original para qualquer valor de entrada contido no domı́nio de entrada. A medida de cobertura do critério AM é o escore de mutação, calculado como a razão entre o número de mutantes mortos sobre o número de mutantes não equivalentes. O escore de mutação pode variar de 0 a 1 e quanto mais próximo de 1 maior é a qualidade do conjunto de casos de testes aplicado. Diversos estudos foram realizados com o objetivo de avaliar o critério AM e os resultados indicam que esse critério possui uma alta eficácia para revelar defeitos quando comparado com outros critérios [Maldonado et al. 2007]. Entretanto, um problema que compromete o seu uso é o alto custo de aplicação. Mesmo para pequenos programas o número de mutantes gerados e que precisam ser analisados é bastante elevado. Desse modo, diversas estratégias foram propostas visando reduzir o custo de aplicação sem prejudicar a sua eficácia. Dentre elas, destacam-se estratégias para realização de mutação seletiva [Offutt et al. 1993], mutação aleatória [Acree et al. 1979] e geração de conjunto seletivo de operadores [Barbosa et al. 1998]. Além disso, dada a relevância desse critério para a atividade de teste, iniciativas visando automatizar sua aplicação podem ser identificadas. Nesse contexto, destaca-se a ferramenta Proteum, desenvolvida por Delamaro [Delamaro 1993], que apóia a aplicação do critério AM para programas na linguagem C. A ferramenta é guiada por sessões de teste, sendo que em cada sessão o usuário pode criar mutantes para o programa a ser testado a partir de um conjunto de 71 operadores, criar casos de testes e executá-los com o programa original e com os mutantes e analisar os resultados. A ferramenta disponibiliza relatórios estatı́sticos, mostrando a quantidade de mutantes que cada caso de teste matou, quantos mutantes ainda estão vivos, dentre outras informações. 2.2. Axiomatização de Critérios de Teste Existem diversas técnicas e critérios definidos para auxiliar a atividade de teste. Weyuker [Weyuker 1986] procurou identificar um conjunto de caracterı́sticas desejáveis em um critério de teste. Tais caracterı́sticas foram organizadas em axiomas e alguns critérios foram avaliados teoricamente em relação aos axiomas definidos. No contexto deste trabalho, foca-se no axioma da antiextensionabilidade que afirma que: “dado dois programas P e Q, onde P é equivalente a Q e T o conjunto de casos de teste adequado a P , T não é necessáriamente adequado a Q”. Programas equivalentes são aqueles para os quais todo valor de entrada x contido no domı́nio de entrada de P e Q obtém a mesma saı́da nos dois programas, ou seja, P (x) = Q(x). Por meio de estudos teóricos sobre as caracterı́sticas do critério AM, Weyuker [Weyuker 1986] constatou que o axioma da antiextensionalidade é satisfeito por esse critério. Isso significa que programas com semelhança semântica exigem conjuntos de casos de testes diferentes para esse critério de teste. A autora fundamenta sua argumentação 116 ESELAW’09 VI Experimental Software Engineering Latin American Workshop no fato do critério ser fortemente relacionado com a implementação dos programas e não com a sua especificação. Ela afirma que “dois programas que realizam a mesma função de forma diferente terão um conjunto de mutantes diferentes gerados que irão exigir, portanto, um conjunto de casos de testes diferente para distingui-lo do programa original”. Apesar desse fato, é importante avaliar a cobertura atingida por conjuntos de teste adequados para um programa P em programas Q semanticamente semelhante. Isso porque a cobertura pode não ser de 100%, mas se for estatisticamente semelhante à cobertura do conjunto adequado no programa de referência, motivar-se-ia sua reutilização. 3. Descrição do Estudo Realizado Nesta seção são descritas as caracterı́sticas da condução do experimento, seguindo o processo definido por Wohlin et al (2000). 3.1. Planejamento Definição: Avaliação na prática do axioma de antiextensionabilidade de Weyuker [Weyuker 1986] em relação ao critério AM. Em outras palavras, avaliar o quanto um conjunto de casos de teste adequado a um programa de referência é adequado para testar versões alternativas ou evoluções desse programa. Contexto: Avaliação de programas no domı́nio de ordenação de vetores, implementados em C por alunos de graduação em uma disciplina introdutória (Introdução à Ciência da Computação I) do curso de Engenharia de Computação do ICMC/USP. Definição de um conjunto de programas de referência, também referentes ao domı́nio de ordenação, implementados com base na literatura [Ziviani 2005, Cormen et al. 2001]. Esses programas de referência são implementados e testados (usando a ferramenta Proteum), por dois alunos de pós-graduação. Hipóteses: Deseja-se avaliar as seguintes hipóteses: • • • • Hipótese Nula H1.0: Dados vários programas que implementam algoritmos de ordenação (ou seja, programas equivalentes) e T um conjunto de casos de teste adequado a um programa-referência P para o critério AM, T obtém cobertura semelhante1 quando executado sobre todos os programas. Hipótese Alternativa H1.1: Dados vários programas que implementam algoritmos de ordenação (ou seja, programas equivalentes) e T um conjunto de casos de teste adequado a um programa-referência P para o critério AM, T não obtém cobertura semelhante quando executado sobre todos os programas. Hipótese Nula H2.0: Dados vários programas que implementam algoritmos de ordenação (ou seja, programas equivalentes), T1 um conjunto de casos de teste adequado a um programa-referência P para o critério AM, e T2 um conjunto gerado aleatoriamente, T1 e T2 obtêm coberturas semelhantes quando executados sobre todos os programas. Hipótese Alternativa H2.1: Dados vários programas que implementam algoritmos de ordenação (ou seja, programas equivalentes), T1 um conjunto de casos de teste adequado a um programa-referência P para o critério AM, e T2 um conjunto gerado aleatoriamente, T1 e T2 não obtêm coberturas semelhantes quando executados sobre todos os programas. 1 Definem-se coberturas semelhantes àquelas que, em média, são estatisticamente semelhantes (ou seja, não apresentam diferença significativa quando testadas a partir de um nı́vel de confiança de 99%). 117 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Variáveis Independentes: critério AM, ferramenta Proteum, especificação dos programas e programas de referência. Variáveis Dependentes: casos de testes construı́dos para os programas de referência, programas implementados pelos alunos, complexidade dos programas, mutantes gerados, mutantes equivalentes identificados e escore de mutação obtido. Participantes: 60 alunos da disciplina de Introdução à Ciência da Computação I do curso de Engenharia de Computação do ICMC/USP, os quais desenvolveram versões de programas para serem avaliados. Dois alunos de Pós-Graduação que geraram conjuntos de teste adequados a um grupo de programas de referência. Descrição do experimento: Na primeira parte do experimento os alunos foram treinados a respeito de métodos de ordenação com a apresentação dos algoritmos de 3 métodos: bubble sort, insertion sort e selection sort. Durante a parte prática, os 60 alunos foram separados em 30 duplas. Cada dupla ficou responsável por implementar um dos métodos de ordenação (considerando os três algoritmos vistos), totalizando 10 implementações de cada método de ordenação. Essa atividade foi realizada em horário de aula prática e os alunos levaram em torno de 1 hora para implementação dos programas. Em paralelo a essa atividade, dois alunos de Pós-Graduação envolvidos com o estudo, implementaram, com base nos algoritmos disponı́veis em [Ziviani 2005, Cormen et al. 2001], 6 métodos de ordenação: bubble sort, insertion sort, selection sort, quick sort, merge sort e shell sort. Esses programas foram testados pelos alunos de pósgraduação com o auxı́lio da ferramenta Proteum e, para cada programa, um conjunto de casos de testes adequado foi gerado. Na segunda parte do experimento, as implementações dos alunos de graduação foram analisadas e os programas incorretos foram excluı́dos do experimento. Dos 30 programas implementados 22 seguiram para a próxima etapa do experimento. Os 8 programas descartados não foram utilizados pois continham erros de codificação, o que prejudicaria a análise do experimento. O escore de mutação é valido somente para programas corretos, pois a distinção entre um mutante vivo e um mutante morto é avaliada comparando a saı́da gerada pelo mutante com a saı́da do programa original. Para cada um desses 22 programas foram identificados os mutantes equivalentes levando em consideração os 71 operadores da Proteum. Foram coletadas algumas métricas relacionadas à complexidade dos programas e ao critério análise de mutantes, sendo elas: Linhas de Código (LOC), Complexidade de McCabe[McCabe 1976], quantidade de mutantes gerados e quantidade de mutantes equivalentes identificados. Essas métricas também foram coletadas dos programas de referência com o objetivo de verificar se existe alguma relação entre os diferentes métodos de ordenação testados. Para a automatização dos testes utilizou-se a interface de scripts da Proteum. Foi implementado um conjunto de instruções que automatizou três atividades importantes: criar a sessão de teste, criar um conjunto de casos de testes e marcar os mutantes como equivalentes. A execução dos casos de testes contra os mutantes e a verificação do escore de mutação atingidos foi feita utilizando a interface gráfica da ferramenta. Foi verificada também a cobertura obtida pelos casos de testes adequados aos programas de referência, sobre os próprios programas de referência. Esses dados foram coletados com o objetivo de avaliar se a complexidade dos programas interfere de alguma forma no escore de mutação atingido. Esses dados são importantes pois o conjunto de programas de referência contém métodos de ordenação mais complexos como o quick sort, o merge sort e o shell sort. Para avaliar as hipóteses levantadas, foram realizados testes estatı́sticos aplicando o método ANOVA (analysis of variance) e os resultados obtidos 118 ESELAW’09 VI Experimental Software Engineering Latin American Workshop podem ser vistos na Seção 4. Validade: Os aspectos de validade do experimento são divididos em validade interna e externa: A validade interna busca identificar quais aspectos podem influenciar a relação entre a causa e o efeito durante a realização do experimento. As ameaças a validade interna identificadas foram: Implementações idênticas pelos alunos de graduação: Foram tomados alguns cuidados durante a execução do experimento para que os alunos não se comunicassem enquanto implementavam os algoritmos. Além disso, os códigos foram analisados individualmente e não foram identificadas evidências de plágio. Aprendizado em relação à construção de casos de testes pelos alunos de pósgraduação: Como os casos de testes foram construı́dos por apenas dois alunos, estes podem ter aprendido com os primeiros programas a construir casos de testes mais eficazes, ou até mesmo aproveitar os casos de testes construı́dos para programas anteriores, o que poderia influenciar o escore de mutação obtido. Como tratamento a essa ameaça, a ordem de construção de casos de testes para os programas de referência foi selecionada de forma aleatória. Além disso os testes foram construı́dos seguindo sistematicamente o critério AM, ou seja, cada caso de teste foi construı́do com o objetivo de matar um mutante especı́fico relativo a uma determinada implementação. Simplicidade dos programas testados: Pode-se supor que devido à simplicidade do domı́nio de programas escolhido, qualquer conjunto de casos de testes, seria suficiente para alcançar um escore de mutação satisfatório. O tratamento relativo a essa ameaça foi a utilização de um conjunto de casos de testes aleatórios. Esse conjunto obteve resultados inferiores aos obtidos pelos casos de testes dos programas de referência, como pode ser visto na Seção 3.2. A validade externa do experimento refere-se à capacidade de generalização dos resultados obtidos. Como os programas estudados foram especı́ficos do domı́nio de ordenação, não se pode generalizar os resultados obtidos para outros domı́nios de programas. Como trabalhos futuros pretende-se realizar o mesmo experimento em outros domı́nios e assim obter resultados mais genéricos em relação às hipóteses estudadas. 3.2. Resultados obtidos Na Tabela 1 são apresentadas as métricas coletadas de cada um dos programas implementados pelos alunos de graduação. Nas linhas estão listados os programas que não apresentaram erros. A tabela foi quebrada ao meio e na primeira coluna é apresentada a identificação dos programas seguida da quantidade de linhas de código (LOC) e da complexidade ciclomática (McCabe) [McCabe 1976]. Nas duas últimas colunas são apresentadas as métricas relativas ao critério AM: a quantidade de mutantes gerados e a quantidade de mutantes equivalentes identificados. Pode-se observar que apesar dos programas serem baseados em três métodos diferentes as métricas obtidas foram muito próximas, não havendo diferenças significativas entre os métodos. Esse resultado já era esperado pois apesar de serem métodos distintos, trata-se de programas semelhantes em relação à forma de ordenar os números. É interessante comparar a complexidade desses programas com os programas de referência, pois esses possuem menos semelhanças em relação ao método de ordenação. As métricas relativas aos programas de referência são apresentados na Tabela 2. Observa-se que os três últimos programas (shell, merge e quick) apresentaram valores mais altos em todas as métricas coletadas, com exceção da quantidade de mutantes 119 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Tabela 1. Métricas coletadas dos graduação Programas LOC McCabe Mutantes B1 23 7 478 B2 22 7 462 B3 24 7 456 B4 20 7 514 B5 24 7 444 B6 27 7 568 B9 24 7 482 I1 23 7 491 I2 23 7 495 I3 23 7 473 I4 21 6 779 programas implementados pelos alunos de ME 34 41 44 41 43 37 51 20 20 19 39 Programas LOC McCabe Mutantes ME I5 19 7 473 18 I7 23 7 473 21 I8 23 7 414 17 I9 23 7 473 20 I10 21 7 473 18 S1 26 7 517 44 S2 22 7 493 41 S4 25 7 561 42 S5 24 7 530 37 S7 24 7 542 55 S10 25 7 560 39 LOC McCabe Mutantes ME Média 23,14 6,95 506,86 33,68 Tabela 2. Métricas coletadas dos programas de referência Programas LOC McCabe Mutantes ME bubble sort 20 7 489 42 insertion sort 25 6 451 50 selection sort 23 7 511 70 shell sort 27 9 667 48 merge sort 50 12 1715 70 quick sort 38 9 674 14 Média 30,50 8,33 751,17 49,00 equivalentes (que foi a menor de todas no quick sort). Os resultados mais altos podem ter ocorrido devido ao fato dos três métodos de ordenação adicionais serem mais complexos e adotarem estratégias diferentes em relação aos programas anteriores. Para cada programa de referência foi criado um conjunto de casos de testes adequado à sua implementação. Foi gerado, também, um conjunto de casos de teste aleatório, independente de qualquer método de ordenação. Cada um desses conjuntos de casos de testes foi então aplicado aos 22 programas implementados pelos alunos de graduação. Nas tabelas 3, 4 e 5 podem ser observados o escore de mutação para os métodos bubble, insertion e selection respectivamente. Nas linhas estão representados os casos de testes adequados a cada um dos programas de referência e nas colunas os programas implementados pelos alunos de graduação Tabela 3. Escore de mutação obtido para o método bubble sort implementados pelos alunos de graduação Referência B1 B2 B3 B4 B5 B6 B9 Média CT bubble 1,000 1,000 1,000 1,000 1,000 0,996 1,000 0,999 CT insertion 1,000 1,000 1,000 1,000 1,000 0,996 1,000 0,999 CT selection 1,000 1,000 1,000 1,000 1,000 0,994 1,000 0,999 CT shell 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 CT merge 0,995 0,995 0,995 0,993 0,995 0,990 0,995 0,994 CT quick 0,995 0,995 0,995 0,993 0,995 0,990 0,995 0,994 CT aleatório 0,961 0,959 0,958 0,968 0,965 0,967 0,967 0,964 De acordo com as tabelas, pode-se observar que os resultados obtidos foram semelhantes entre os três métodos implementados. Além disso, os casos de teste adequados aos 120 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Tabela 4. Escore de mutação obtido para o método insertion sort implementados pelos alunos de graduação Referência I1 I2 I3 I4 I5 I7 I8 I9 I10 Média CT bubble 0,998 0,998 0,998 1,000 0,998 0,998 1,000 0,998 0,998 0,998 CT insertion 0,998 0,998 0,998 1,000 0,998 0,998 1,000 0,998 0,998 0,998 CT selection 0,998 0,998 0,998 1,000 0,998 0,998 0,997 0,998 0,998 0,998 CT shell 0,998 0,998 0,998 1,000 0,998 0,998 1,000 0,998 0,998 0,998 CT merge 0,994 0,994 0,993 0,999 0,993 0,993 0,995 0,993 0,993 0,994 CT quick sort 0,996 0,996 0,996 0,999 0,996 0,996 0,995 0,996 0,996 0,996 CT aleatório 0,970 0,962 0,960 0,984 0,960 0,960 0,965 0,960 0,960 0,965 Tabela 5. Escore de mutação obtido para o método selection sort implementados pelos alunos de graduação Referência S1 S2 S4 S5 S7 S10 Média CT bubble 0,994 0,996 0,987 0,990 0,994 0,987 0,991 CT insertion 0,996 1,000 0,990 0,992 0,996 0,985 0,993 CT selection 0,998 0,998 0,996 0,998 0,998 0,996 0,997 CT shell 0,992 0,991 0,990 0,992 0,992 0,988 0,991 CT merge 0,996 0,993 0,992 0,994 0,994 0,996 0,994 CT quick sort 0,996 0,993 0,992 0,994 0,994 0,996 0,994 CT aleatório 0,964 0,967 0,961 0,963 0,963 0,962 0,963 programas de referência atingiram, em todos os casos, escores maiores do que 0,99 obtendo a média de 0,996. Em contrapartida, o conjunto de casos de teste gerados de forma aleatória, apesar de também obter um escore de mutação relativamente alto, ficou sempre abaixo de qualquer um dos outros conjuntos de casos de teste. Ainda em relação aos resultados, não foi possı́vel identificar, de forma preliminar, uma relação entre o método utilizado e o escore de mutação obtido, já que os resultados foram muito próximos. Não parece existir também uma relação com a complexidade do método, visto que não houve diferenças significativas entre o escore obtido pelos casos de teste adequados aos 3 primeiros algoritmos e aqueles adequados aos algoritmos mais complexos. Foi verificado também a adequação dos conjuntos de teste de cada programa de referência para os demais programas de referência. Dessa forma pode-se analisar se o conjunto de casos de teste adequado a um programa mais simples como o bubble sort também é adequado a programas mais complexos como shell, merge e quick sort. Os resultados obtidos podem ser vistos na Tabela 6. Tabela 6. Escore de mutação obtido para os programas de referência Referência bubble insertion selection shell merge quick Média CT bubble 1,000 0,997 0,995 0,993 0,969 0,980 0,989 CT insertion 1,000 1,000 0,990 0,993 0,994 0,935 0,986 CT selection 0,997 1,000 1,000 0,991 0,969 0,993 0,992 CT shell 1,000 1,000 0,995 1,000 0,975 0,993 0,994 CT merge 0,993 0,997 0,995 0,995 1,000 0,993 0,995 CT quick sort 0,993 0,997 0,995 0,995 0,989 1,000 0,995 CT aleatorio 0,959 0,960 0,963 0,964 0,984 0,965 0,966 Em relação ao conjunto de casos de teste aleatório, os resultados ficaram próximos dos obtidos para os programas implementados pelos alunos de graduação. Observouse, porém, que a média obtida foi mais baixa, principalmente devido ao menor escore alcançado para os programas mais complexos, chegando a atingir um mı́nimo de 0,935 para o conjunto de casos de teste adequado ao insertion sort aplicado no quick sort. Na Seção 4 esses resultados são análisados estatisticamente e discutidos. 121 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 4. Análise e Discussão Para analisar estatisticamente se os diferentes conjuntos de casos de teste gerados para os programas de referência obtêm, em média, cobertura alta e semelhante quando executados sobre todas as implementações de ordenação de vetores, decidiu-se realizar a análise de variância (analysis of variance, ou ANOVA). A ANOVA oferece um teste estatı́stico que verifica se as médias de diferentes grupos são iguais, generalizando o teste t de Student quando se tem mais de dois grupos. No caso do estudo em questão, aplica-se a ANOVA para verificar as hipóteses formuladas na Seção 3. Para que o teste seja rigoroso, assume-se o nı́vel de confiança de 99% (portanto, p-valor = 0,01). A ANOVA é aplicada duas vezes: uma para verificar se as coberturas obtidas para todos os programas são igualmente altas em média, quando se permuta os conjuntos de casos de teste de referência; e outra para verificar se, caso a semelhança seja evidenciada no primeiro caso, o mesmo não ocorre quando se considera as coberturas atingidas pelos casos de teste aleatórios. O segundo teste é realizado para verificar o quanto os casos de teste gerados aleatoriamente se aproximam daqueles gerados sistematicamente a partir do critério AM. A ausência de diferença significativa nesse caso é um indı́cio de que não faz sentido utilizar casos de teste gerados sistematicamente nesse contexto (principalmente devido ao pequeno porte dos programas analisados). O primeiro teste estatı́stico evidenciou que não há diferença significativa entre as coberturas obtidas pelos conjuntos de casos de teste gerados para os programas de referência, quando executados sobre todos os programas (note-se que também se considera o conjunto de casos de teste referência aplicado ao próprio programa utilizado para a geração do conjunto). Como o p-valor foi avaliado em 0,6809 – ou seja, consideravelmente maior do que 0,01 – não se obteve evidência suficiente para se rejeitar a hipótese nula H1.0 de que as médias das coberturas obtidas são semelhantes. Além disso, essas mesmas médias encontram-se entre 0,99 e 1, ou seja, praticamente 100%. Esse resultado é uma evidência da efetividade de se reutilizar casos de teste gerados para uma dada implementação de ordenação em outras implementações equivalentes utilizando o critério AM. Entretanto, quando se considera o conjunto aleatório de casos de teste, a diferença obtida é significativa. O p-valor nesse caso foi muito menor do que 0,01 (2.2 × 10−16 ), ou seja, uma forte evidência para se rejeitar a hipótese nula H2.0 de que as médias das coberturas são semelhantes, quando se considera o conjunto aleatório. Para se ter uma idéia visual dos resultados, a Figura 1 apresenta o boxplot das coberturas obtidas por cada conjunto de casos de teste, incluindo o aleatório, executados em todos os programas (riscos em negrito representam as médias). Note-se que o número de outliers não é significativo e, além disso, a semelhança entre as coberturas obtidas pelos casos de teste gerados para os programas de referência é claramente visı́vel nos valores mais à direita no gráfico. A cobertura é claramente menor para os casos de teste gerados aleatoriamente, como pode ser visto nos valores mais à esquerda no gráfico (a média das coberturas se encontra entre 0,96 e 0,97). 5. Conclusões Neste artigo foi apresentado um estudo sobre a reutilização de conjuntos de teste adequados para o critério AM em programas equivalentes. O estudo foi realizado no domı́nio de algoritmos de ordenação. Os resultados obtidos indicam que os conjuntos de teste gerados para programas de referência obtêm a mesma cobertura, em média (entre 99% e 100%), quando aplicados aos 22 programas implementados pelos alunos e aos próprios programas de referência. A análise estatı́stica indicou que não houve diferenças significativas entre as coberturas obtidas pelos conjuntos de teste. Em contrapartida, o conjunto de casos de testes aleatórios obteve cobertura significativamente mais baixa, o que indica que 122 0.97 0.94 0.95 0.96 cobertura 0.98 0.99 1.00 ESELAW’09 VI Experimental Software Engineering Latin American Workshop aleatório bubble insertion merge quick selection shell referência Figura 1. Boxplot dos dados obtidos no estudo. a utilização dos conjuntos de teste gerados sistematicamente é interessante. Esses resultados oferecem indı́cios de que a reutilização de casos de teste gerados a partir do critério AM em programas equivalentes pode ser de fato efetiva. Trabalhos futuros incluem estudos similares em outros domı́nios, para que os resultados possam ser generalizados. Referências Acree, A. T., Budd, T. A., DeMillo, R. A., Lipton, R. J., and Sayward, F. G. (1979). Mutation analysis. Technical Report GIT-ICS-79/08, Georgia Institute of Technology, Atlanta, GA. Barbosa, E. F., Vincenzi, A. M. R., and Maldonado, J. C. (1998). Uma contribuição para a determinação de um conjunto essencial de operadores de mutação no teste de programas C. In XII Simpósio Brasileiro de Engenharia de Software (SBES 98), pages 103–120, Maringá, PR. Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2001). Introduction to Algorithms. MIT Press and McGraw-Hill. Delamaro, M. E. (1993). Proteum: Um ambiente de teste baseado na análise de mutantes. Master’s thesis, ICMC-USP, São Carlos, SP. DeMillo, R. A., Lipton, R. J., and Sayward, F. G. (1978). Hints on test data selection: Help for the practicing programmer. IEEE Computer, 11(4):34–43. Maldonado, J. C., Delamaro, M. E., and Souza, S. R. S. (1995). Análise de mutantes: Uma avaliação empı́rica do axioma de antiextensionalidade. In Anais do Workshop de Qualidade de Sofware (em conjunto com o SBES 1995), pages 136–140, Recife. Maldonado, J. C., Souza, S. R. S., Fabbri, S. C. P. F., Barbosa, E. F., Chaim, M. L., Vincenzi, A. M. R., Delamaro, M. E., and Jino, M. (2007). Introdução ao teste de software. chapter Estudos Teóricos e Experimentais. Campus / Elsevier, 1st edition. Mathur, A. P. and Wong, W. E. (1993). Evaluation of the cost of alternative mutation strategies. In VII Simpósio Brasileiro de Engenharia de Software (SBES 93), pages 320–335, Rio de Janeiro, RJ. McCabe, T. (1976). A complexity measure. IEEE Transactions on Software Engineering, 2(4):308–320. Offutt, A. J., Rothermel, G., and Zapf, C. (1993). An experimental evaluation of selective mutation. In 15th International Conference on Software Engineering (ICSE 93), pages 100–107, Baltimore, MD. Weyuker, E. J. (1986). Axiomatizing software testing data adequacy. IEEE Transactions on Software Engineering, 12(12):1128–1138. Wohlin, C., Runeson, P., Host, M., Ohlsson, M. C., Regnell, B., and Wesslén, A. (2000). Experimentation in software engineering: an introduction. Kluwer Academic Publishers. Ziviani, N. (2005). Projeto de Algoritmos com Implementações em Pascal e C. Thomson, 2nd. edition. 123 ESELAW’09 VI Experimental Software Engineering Latin American Workshop WDP-RT: Uma técnica de leitura para inspeção de usabilidade de aplicações Web Marcos Gomes1, Davi Viana1, Lennon Chaves1, Andreza Castro1, Verônica T. Vaz2, Altigran Soares1, Guilherme H. Travassos2, Tayana Conte1 1 Departamento de Ciência da Computação Universidade Federal do Amazonas (UFAM) – Manaus, AM - Brasil 2 PESC – COPPE/UFRJ, Cx Postal 68.511, CEP 21945-970, Rio de Janeiro, RJ, Brasil {marcos.sgomes, davi.viana, lennon.correach, andreza.dy}@gmail.com , {alti, tayana}@dcc.ufam.edu.br, [email protected], [email protected] Abstract. Some available technologies can be usually used by software engineers in detecting usability defects, such as ad-hoc, Heuristic Evaluation and the checklist based technique WDP (Web Design Perspective-based Inspection). However, usability inspections still represent a challenge concerned with effort, efficiency and efficacy in software engineering. This paper describes a controlled study to evaluate the feasibility of the WDP-RT (Web Design Perspective-based Inspection – Reading Technique), an evolution of WDP represented by a reading technique for usability inspection, specific for inspection of Web applications. Results from an experimental study indicated that WDP-RT can be feasible and possibly presenting better efficacy and similar efficiency when compared to WDP. Resumo. Algumas tecnologias disponíveis podem ser utilizadas pelos engenheiros de software na detecção de defeitos de usabilidade, tais como adhoc, Avaliação Heurística e a técnica baseada em checklist WDP (Web Design Perspective-Based Inspection). No entanto, as inspeções de usabilidade ainda representam um desafio em relação ao esforço, eficiência e eficácia em engenharia de software. Este trabalho apresenta um estudo controlado para avaliar a viabilidade da WDP-RT (Web Design PerspectiveBased Inspection - Reading Technique), uma evolução da WDP para uma técnica de leitura, específica para a inspeção de aplicações web. Resultados de um estudo experimental indicaram que WDP-RT pode ser viável, possivelmente apresentando melhor eficácia e eficiência semelhante quando comparada à WDP. 1. Introdução Assim como testes funcionais são importantes para validar a implementação frente aos requisitos do software, a avaliação de interface é importante para analisar a qualidade de uso de um software. O conceito geral de qualidade de uso está estreitamente relacionado à capacidade e facilidade de os usuários atingirem suas metas com eficiência e satisfação (PRATES et al., 2003). O conceito de qualidade de uso mais amplamente utilizado é a usabilidade. 124 ESELAW’09 VI Experimental Software Engineering Latin American Workshop A usabilidade tem como objetivo elaborar interfaces capazes de permitir uma interação fácil, agradável, com eficácia e eficiência. Ela deve capacitar a criação de interfaces transparentes de maneira a não dificultar o processo, permitindo ao usuário pleno controle do ambiente sem se tornar um obstáculo durante a interação. Devido à relevância da usabilidade para as aplicações Web, a indústria de desenvolvimento de software está investindo em técnicas e ferramentas para projetos e avaliações que ajudem a melhorar esse quesito de qualidade em suas aplicações Web (MATERA et al. 2006). Técnicas de avaliação de usabilidade específicas para aplicações Web, tais como CWW (BLACKMON et al. 2002), MiLE+ (BOLCHINI e GARZOTTO, 2007) e WDP (CONTE et al. 2009b), estão sendo desenvolvidas. A WDP (CONTE et al., 2007b) é uma técnica de inspeção baseada em checklist, onde os inspetores recebem uma lista de verificação que os ajudam a encontrar os defeitos. A técnica WDP foi definida e aperfeiçoada utilizando uma abordagem baseada em evidência para definição de novas tecnologias de software apresentada em (MAFRA et al. 2006), uma extensão da metodologia proposta em (SHULL et al. 2001) para a introdução de tecnologias de software na indústria, que se baseia em estudos experimentais como forma de determinar o que funciona ou não na aplicação da tecnologia proposta. A técnica WDP foi proposta com base no resultado de estudos secundários (CONTE et al. 2005) e até o presente momento foi avaliada através de dois estudos de viabilidade (CONTE et al. 2007a, CONTE et al. 2007b), um estudo de observação (CONTE et al. 2009b) e dois estudos de caso em ambiente industrial (VAZ et al. 2008). Os resultados do estudo de observação indicaram que a evolução da WDP para uma técnica de leitura ajudaria os inspetores novatos na detecção de problemas de usabilidade. Uma técnica de leitura proporciona foco, que é usado para guiar um inspetor durante a atividade de detecção de problemas de usabilidade, fornecendo orientação mais estrita, visando reduzir as dificuldades de inspeção dos inspetores com menor conhecimento sobre avaliação de usabilidade (CONTE, 2009). Com o intuito de auxiliar os inspetores novatos na avaliação de interfaces, este trabalho apresenta a WDP-RT (Web Design Perspectives-based Inspection – Reading Technique), extensão da técnica WDP para uma técnica de leitura. Para apoiar a definição e o aprimoramento da técnica proposta, também está sendo utilizada a abordagem experimental apresentada em (SHULL et al., 2001). Este artigo apresenta o estudo controlado realizado para avaliar a viabilidade da versão inicial técnica proposta. No processo de avaliação e evolução da técnica WDP, foi executado um estudo de viabilidade (CONTE et al., 2007b) que comparava a eficiência e eficácia da mesma com o método Avaliação Heurística (a base para a definição da WDP). De maneira análoga, o presente estudo de viabilidade teve como objetivo responder a questão de pesquisa: “A técnica WDP-RT é eficiente e eficaz para inspeções de usabilidade?” em comparação com a técnica WDP. O restante deste artigo está estruturado da seguinte forma. A seção 2 descreve a técnica WDP, que foi utilizada como base para a nova técnica de inspeção. A seção 3 apresenta a definição da primeira versão da WDP-RT. A seção 4 discorre sobre o estudo de viabilidade realizado para avaliar a WDP-RT. Por fim, a seção 5 conclui o artigo. 2. WDP – Web Design Perspective-based Usability Evaluation 125 ESELAW’09 VI Experimental Software Engineering Latin American Workshop A técnica WDP (CONTE et al, 2007a) é uma extensão ao método de Avaliação Heurística. Esta técnica utiliza as heurísticas de NIELSEN (1994) como base, direcionando a avaliação de usabilidade através de perspectivas específicas para a representação de aplicações Web: apresentação, conceituação e navegação. A usabilidade em relação à perspectiva apresentação preocupa-se com a consistência das informações apresentadas ao usuário. Sob esta perspectiva, a usabilidade é satisfatória caso a programação visual e o layout da interface permitam ao usuário realizar suas tarefas de maneira eficaz, eficiente e agradável. A pergunta chave para avaliação desta perspectiva é: “Estou vendo?”. A usabilidade em relação à perspectiva conceituação preocupa-se com a clareza e a concisão dos elementos do domínio do problema. Sob essa perspectiva, a usabilidade é satisfatória se o sistema utilizar representação facilmente compreendida pelo usuário, não levando o usuário a cometer erros por causa de termos ambíguos, inconsistentes ou desconhecidos. As perguntas chaves para a perspectiva conceituação são: “Eu compreendo? Eu entendo?”. Em relação à perspectiva navegação, a usabilidade preocupa-se com a acessibilidade das funcionalidades do sistema pelos diferentes tipos de usuários. Sob essa perspectiva, a usabilidade é satisfatória caso as opções de navegação do sistema permitam a todos os tipos de usuários realizarem suas tarefas de maneira eficaz, eficiente e agradável. A pergunta chave desta perspectiva é: “Eu alcanço?”. A Tabela 1 mostra o relacionamento das heurísticas propostas por NIELSEN (1994) com as perspectivas de Projeto Web na WDP v5. Tabela 1: Heurísticas x Perspectivas da WDP v5 Perspectivas x Heurísticas Relacionadas com as perspectivas de: Heurística Apresentação Conceituação Navegação Visibilidade do estado do sistema A.1 C.1 Concordância entre o sistema e o mundo real A.2 C.2 Controle e liberdade ao usuário N.3 Consistência e padrões A.4 C.4 Prevenção de erros A.5 N.5 Reconhecer ao invés de lembrar A.6 C.6 Flexibilidade e eficiência de uso A.7 N.7 Projeto minimalista e estético A.8 Reconhecimento, diagnóstico e recuperação de erros A.9 C.9 N.9 Ajuda e documentação A.10 C.10 N.10 A Figura 1 mostra um extrato da técnica, apresentando os itens de verificação (itens do checklist) para o par A.5. O texto completo da versão v5 está disponível em (CONTE 2009). Figura 1 - Par Heurística x Perspectiva A.5. 126 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 3. Proposta inicial da técnica WDP-RT (Web Design Perspectives-based Inspection – Reading Technique) Por ser uma técnica de inspeção baseada em checklist, a WDP se adéqua facilmente ao uso por inspetores com alguma experiência em inspeções de usabilidade, onde eles têm a liberdade de executar a inspeção da forma mais conveniente, e contam com a ajuda do checklist para verificação de características pontuais na aplicação Web. A abstração das heurísticas e o acréscimo das perspectivas tornam a avaliação de usabilidade mais simples, porém, como apresentado no estudo de observação da WDP (CONTE, 2009b), isto ainda não é suficiente para ajudar inspetores novatos na execução desta atividade. Inspetores novatos precisam de direcionamento, um procedimento a ser seguido para executar a inspeção. A WDP fornece as diretrizes para a avaliação, porém não informa aos inspetores em que ordem estas diretrizes ou mesmo as perspectivas de projeto WEB devem ser aplicadas. A WDP-RT se baseia em um conjunto de instruções que devem ser executadas para a verificação da usabilidade da aplicação. Com o propósito de aumentar a cobertura de avaliação da WDP, as instruções da WDP-RT foram definidas através da análise das características de usabilidade de outros dois conjuntos de características a serem consideradas em avaliações de usabilidade, os “requisitos não funcionais de usabilidade” (FERREIRA E LEITE, 2003), e o conjunto de “características funcionais de usabilidade” (JURISTO et. al., 2007). Foi feita uma análise de equivalência entre os conjuntos de recomendações propostos por (FERREIRA e LEITE 2003; JURISTO et al. 2007) e o conjunto de itens a serem verificados propostos pela WDP, com base nas heurísticas de (NIELSEN, 1994). Foi realizada uma análise detalhada das características destes conjuntos de usabilidade, relacionando os três conjuntos, sua relevância para aplicações Web em geral e verificando cada uma de suas recomendações. Com base nesta análise, foi elaborado o conjunto base de recomendações para a WDP-RT e seu conjunto de instruções. As instruções da WDP-RT estão agrupadas de acordo com as três perspectivas de projeto Web, sendo executadas primeiramente as instruções para a verificação da usabilidade em relação à perspectiva Apresentação, seguida das instruções referentes à perspectiva Conceituação, e por fim, à perspectiva Navegação. A Figura 2 apresenta uma visão da primeira versão da WDP-RT (WDP-RT v1). O texto completo da WDP-RT v1 está disponível em (GOMES e CONTE, 2009). Figura 2 - Extrato da WDP-RT v1 127 ESELAW’09 VI Experimental Software Engineering Latin American Workshop 4. Estudo de viabilidade 4.1. Planejamento do estudo De acordo com a metodologia proposta por SHULL et al. (2001), o primeiro estudo que deve ser realizado para a avaliação de uma nova tecnologia é um estudo de viabilidade, que visa avaliar se a nova tecnologia é viável e se o tempo empregado é bem utilizado. Para podermos responder a estas perguntas, foi realizada uma inspeção de usabilidade utilizando-se as técnicas WDP e WDP-RT. Esta inspeção ocorreu em Junho de 2009, no âmbito da disciplina de Engenharia de Software, do curso de graduação em Ciência da Computação da Universidade Federal do Amazonas. A Figura 3 apresenta o objetivo deste estudo, de acordo com o paradigma GQM (BASILI e ROMBACH, 1988). Figura 3 – Objetivos do estudo de viabilidade. Os participantes deste estudo foram os alunos matriculados na disciplina, além de duas desenvolvedoras de software de uma instituição de pesquisa. Os alunos puderam optar por participar ou não do estudo. Ao todo, 18 alunos concordaram inicialmente em participar do estudo. Todos os participantes assinaram um Termo de Consentimento Livre e Esclarecido e preencheram um formulário de caracterização que continha perguntas que deveriam ser respondidas em uma escala de 1 (nenhuma experiência prática) a 5 (experiência em vários projetos industriais) sobre a experiência dos participantes em relação ao seu conhecimento sobre usabilidade, avaliações e inspeções de software e em desenvolvimento de software web. As respostas dos formulários de caracterização permitiram classificar os participantes e dividi-los em dois grupos de dez inspetores (equipes WDP e WDP-RT) com níveis de experiência balanceados. A Tabela 2 apresenta a caracterização da experiência dos inspetores. A aplicação inspecionada foi o portal da Sociedade Brasileira de Computação (SBC), para o qual foi definido um roteiro com oito atividades básicas a serem desempenhadas no portal: informar-se sobre o POSCOMP, associar-se a SBC, informar-se sobre alunos destaques, realizar o download do modelo de artigo da SBC, informar-se sobre o secretário regional, informar-se sobre a diretoria atual da SBC, cadastrar-se no portal e informar-se sobre o Simpósio Brasileiro de Engenharia de Software (SBES, 2009). O treinamento dos grupos foi realizado separadamente, sendo que cada grupo de participantes recebeu um treinamento com duração de uma hora. Cada treinamento incluía conceitos sobre usabilidade, além da técnica específica que o grupo deveria utilizar para realizar a inspeção. Apesar de cada treinamento apresentar uma técnica de inspeção distinta, os exemplos de problemas de usabilidade apresentados foram os mesmos para ambas as turmas. Ao término de cada treinamento, cada participante recebeu o roteiro com as atividades a serem avaliadas, a técnica de inspeção estudada no treinamento impressa, uma planilha para a anotação das discrepâncias encontradas, além 128 ESELAW’09 VI Experimental Software Engineering Latin American Workshop da própria apresentação do treinamento. Além disso, eles também receberam um questionário de avaliação da técnica estudada. Cada inspetor pode realizar a detecção individual no horário que lhe fosse mais conveniente, respeitando-se apenas o prazo de dois dias. 4.2.Execução da Inspeção No prazo estipulado, dezesseis inspetores (nove do grupo WDP e sete do grupo WDPRT) enviaram as suas planilhas de anotação de discrepâncias e o questionário de avaliação da técnica. Uma destas planilhas, proveniente de um inspetor do grupo WDPRT, teve que ser descartada, pois o inspetor não seguiu o roteiro pré-estabelecido para a inspeção. Outras três planilhas, provenientes de inspetores do grupo WDP também foram descartadas, pois estes não informaram o tempo de inspeção. Desta forma, foram analisadas seis planilhas do grupo WDP e seis do grupo WDP-RT. As listas de discrepâncias individuais foram então integradas a uma única lista, retirando-se a referência do inspetor e da técnica utilizada por ele. Uma equipe de três pesquisadores em Engenharia de Software realizou uma reunião para decidir quais dessas discrepâncias eram únicas e quais eram duplicatas (discrepâncias equivalentes apontadas por mais de um inspetor). A reunião de discriminação, que visa verificar se as discrepâncias são defeitos reais, contou com a participação dos três pesquisadores que elaboraram a coleção das duplicatas e de um diretor da SBC, que atuou como responsável pelo portal. Nesta reunião, as interações avaliadas foram re-executadas, sendo assim possível verificar inloco cada discrepância relatada. Após a discussão da equipe, o diretor da SBC classificava a discrepância em defeito ou falso-positivo. 4.3. Resultados obtidos Para verificar a viabilidade da WDP-RT, temos que verificar se ela alcança o seu objetivo de detectar defeitos. Para isso, medimos o número de defeitos encontrados por cada inspetor na avaliação do portal da SBC. A Tabela 2 mostra os diferentes níveis de experiência e o resultado de cada inspetor e o resultado por técnica. Ao analisar a Tabela 2 podemos verificar que a WDP-RT ajudou os inspetores a detectarem mais defeitos na inspeção. Os inspetores que utilizaram a WDP-RT detectaram mais que o dobro de defeitos que os inspetores que utilizaram a WDP (127 x 55). Isto é um indício de que a técnica WDP-RT cumpre com o seu propósito. Tabela 2: Resultados por inspetor Técnica/ Experiência Experiência Experiência # # # 1 2 3 Tempo Inspetor Usabilidade Inspeções Desenvolvimento Disc. FP Def. 10 Médio Médio Nenhum 10 3 7 110 11 Médio Médio Médio 11 0 11 45 13 Médio Médio Baixo 13 3 10 140 WDP 14 Baixo Médio Baixo 11 2 9 60 17 Médio Médio Baixo 16 4 12 50 18 Alto Médio Médio 8 2 6 38 WDP 20 Médio Médio Baixo 11 1 10 90 -RT 21 Nenhum Médio Nenhum 16 1 15 200 22 Alto Alto Alto 33 2 31 240 23 Médio Médio Alto 26 4 22 120 24 Baixo Médio Médio 34 6 28 180 Baixo Médio Nenhum 24 3 21 200 25 129 1 – número de discrepâncias, 2 – número de falso-positivos, 3 – número de defeitos Def./ Hora 3,82 14,67 4,29 9,00 14,40 9,47 6,00 4,50 7,75 11,00 9,33 6,30 Total Defeitos 55 127 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Um dos indicadores medidos neste estudo, o indicador eficácia, está diretamente relacionado ao apoio da técnica em encontrar os defeitos. Para analisar a eficácia, é necessário conhecer o número de defeitos únicos encontrados (sem a contabilização das duplicatas). Considerando-se ambas as técnicas, foi encontrado um total de 73 defeitos únicos. A eficácia então é definida como a razão entre o número de defeitos únicos detectados pela técnica e o número total de defeitos únicos que nós conhecemos. A Tabela 3 compara a eficácia das técnicas. Tabela 3: Comparativo de eficácia Defeitos únicos Total de defeitos únicos Eficácia WDP 46 73 63,01% WDP-RT 66 90,41% Além disso, foi feita uma análise estatística utilizando o teste Anova (análise de variância), conforme apresentado na Figura 4. Este teste confirmou que a técnica WDPRT influenciou positivamente para encontrar mais defeitos do que a técnica WDP. 35 Defeitos Total 30 25 20 15 10 5 WDP WDP-RT Tecnica Each Pair Student's t 0.05 Figura 4 - Análise do Total de Defeitos por Técnica utilizando Anova Para responder a segunda pergunta referente a este estudo (“o tempo é bem empregado?”), precisamos analisar a eficiência da técnica. Para esta análise, é necessário considerar todos os defeitos (únicos e duplicatas) encontrados. A eficiência então é definida como a razão entre o número total de defeitos e o tempo gasto na inspeção. A Tabela 4 mostra o comparativo de eficiência para ambas as técnicas. Tabela 4: Comparativo de eficiência Total de Defeito Defeitos por Inspetor Média de tempo (hora) Média de Defeitos /hora Desvio Padrão (Defeitos por Inspetor) % Desvio Padrão (Defeitos por Inspetor) WDP 55 9,16 1,23 7,44 2,31 25,27% WDPRT 127 21,16 2,86 7,39 7,83 37% As Tabelas 3 e 4 apontam que a WDP-RT foi mais eficaz que a WDP, encontrando 90,41% dos defeitos únicos conhecidos do sistema, além de apresentar eficiência semelhante à WDP. 130 ESELAW’09 VI Experimental Software Engineering Latin American Workshop Para avaliar os dados qualitativos, foi desenvolvido um questionário baseado no Modelo de Aceitação de Tecnologia - TAM (DAVIS, 1989), para verificar a opinião dos inspetores em relação à facilidade de uso e a utilidade da técnica WDP-RT. Além disso, foram acrescidas perguntas especificas em relação à WDP-RT, como a facilidade de compreensão das instruções e das perspectivas. A análise qualitativa ainda está sendo realizada. Como resultado preliminar, a análise destes questionários aponta que os inspetores consideram a WDP-RT útil para inspeções de usabilidade e de fácil utilização. Ainda consideraram as perspectivas de projeto Web e as instruções da WDPRT fáceis de compreender. Entretanto, metade dos inspetores também ressaltou o alto tempo de inspeção, como pode ser verificado na Tabela 2. 4.4. Ameaças a validade do estudo Em todos os estudos experimentais existem ameaças que podem afetar a validade dos resultados. As ameaças relacionadas a este estudo são apresentadas a seguir, classificadas em quatro categorias: validade interna, validade externa, validade de conclusão e validade de constructo. Validade Interna: foram consideradas três principais ameaças que representavam um risco de interpretação imprópria dos resultados: (1) efeitos de treinamento, (2) classificação de experiência e (3) medição de tempo. Em relação à primeira ameaça, poderia haver um efeito causado pelo treinamento, caso o treinamento da técnica WDP tivesse qualidade inferior ao treinamento da WDP-RT. Este risco foi controlado preparando treinamentos equivalentes com os mesmos exemplos de problemas detectados aplicando WDP ou WDP-RT. Em relação à classificação de experiência dos participantes, ela foi uma auto-classificação, com base em número e tipo de experiências anteriores (experiência na indústria, experiência acadêmica). Finalmente, sobre a medição do tempo, foi solicitado aos participantes que eles fossem muito precisos nas suas medições, porém não há garantia que o tempo relatado foi realmente medido cuidadosamente. Validade Externa: três questões foram consideradas: (1) provavelmente estudantes não são bons substitutos para inspetores da indústria; (2) normalmente ambientes acadêmicos não simulam totalmente as condições existentes em um ambiente de desenvolvimento industrial; e (3) validade do portal SBC como representante de aplicações Web. Sobre a questão (1), a maior parte dos estudantes possuía experiência em engenharia de sistemas em ambiente industrial. Mesmo os estudantes que não possuem experiência em aplicações na indústria podem apresentar habilidades similares a inspetores menos experientes. Adicionalmente, CARVER et al. (2003) apontam uma série de benefícios que pesquisadores podem obter de estudos experimentais com alunos como participantes. Em relação à questão (2), o objeto da inspeção (portal SBC) é uma aplicação Web real. Sobre a questão (3), não é possível afirmar que o portal SBC represente todo tipo de aplicação Web, uma vez que são várias as categorias de aplicações (KAPPEL et al. 2006). Validade de Conclusão: o maior problema é o tamanho da amostra, com um número pequeno de data points, não ideal do ponto de vista estatístico. Devido a este fato, há limitação nos resultados, sendo estes considerados não conclusivos, e sim indícios. Validade de Constructo: referente a este tipo de ameaça de validade, considerou-se a definição dos indicadores. Os indicadores adotados neste estudo - Eficiência e Eficácia - são comumente utilizados em estudos que investigam técnicas de detecção de defeitos 131 ESELAW’09 VI Experimental Software Engineering Latin American Workshop e estes indicadores foram medidos utilizando a mesma abordagem proposta por DENGER e KOLB (2006) e aplicada em (CONTE et al. 2007a). 5. Conclusões e trabalhos futuros Este artigo apresentou uma técnica de leitura para inspeção de usabilidade de aplicações Web, a WDP-RT, baseada na extensão da técnica WDP. O desenvolvimento da técnica está sendo de acordo com uma metodologia baseada em experimentação. No primeiro estudo experimental realizado, um estudo de viabilidade, os resultados obtidos apontam que a WDP-RT é viável e possivelmente mais eficaz e tão eficiente quanto a WDP. No entanto, devido à pequena amostra, não é possível considerar este resultado conclusivo, sendo necessário repetir este estudo com um maior número de participantes. Como trabalhos futuros, temos a evolução da WDP-RT para uma nova versão, considerando os resultados quantitativos e qualitativos obtidos neste estudo, a fim de tornar a inspeção menos cansativa e mais ágil. Seguindo a metodologia experimental, será realizado um estudo de observação, já com a nova versão da WDP-RT. Este estudo visa coletar dados de como os inspetores aplicam a técnica, com o propósito de responder a segunda questão da metodologia: “Os passos do processo fazem sentido?”. É preciso investigar se a WDP-RT oferece maior apoio aos inspetores novatos, fato que não pode ser constatado neste estudo. Pretende-se também verificar as causas da diferença no resultado individual dos inspetores utilizando a WDP-RT (ver Tabela 2), onde podemos verificar que o inspetor com melhor desempenho, considerando-se a média de defeitos por hora, teve um desempenho quase três vezes melhor que o inspetor com pior desempenho (11 defeitos/hora x 4,5 defeitos/hora). Agradecimentos Os autores agradecem a todos que participaram do estudo experimental e ao CNPq, FAPERJ, à FAPEAM e à Trópico Telecomunicações Avançadas pelo apoio financeiro. Referências Bibliográficas BLACKMON, M. H., POLSON, P. G., KITAJIMA, M., LEWIS, C., 2002. "Cognitive walkthrough for the web". In: Proceedings of the SIGCHI conference on Human factors in computing systems: Changing our world, changing ourselves, v. 5 (1), pp. 463 - 470, Minneapolis, Minnesota, USA. BOLCHINI, D., GARZOTTO, F., 2007. "Quality of Web Usability Evaluation Methods: An Empirical Study on MiLE+". In: International Workshop on Web Usability and Accessibility (IWWUA) WISE 2007 Workshops, v. LNCS 4832, pp. 481 - 492, Nancy, France. CARVER, J., JACCHERI, L., MORASCA, S., SHULL, F., 2003. "Issues in Using Students in Empirical Studies in Software Engineering Education". In: Proceedings of the 9th International Symposium on Software Metrics (METRICS’03), pp. 239 – 249, Sydney, Australia. CONTE, T., MENDES, E., TRAVASSOS, G. H., 2005. "Processos de Desenvolvimento para Aplicações Web: Uma Revisão Sistemática". In: Proceedings of the 11th Brazilian Symposium on Multimedia and Web (WebMedia 2005), v. 1, pp. 107 - 116, Poços de Caldas. November 2005. CONTE T., MASSOLAR, J., MENDES, E., TRAVASSOS, G., 2007a. “Web Usability Inspection Technique Based on Design Perspectives”. SBES 2007, João Pessoa, PB, Brasil. CONTE, T., MASSOLLAR, J., MENDES, E., TRAVASSOS, G. H., 2007b. "Usability Evaluation Based on Web Design Perspectives". In: Proceedings of the First International Symposium on Empirical Software Engineering and Measurement (ESEM 2007), Madrid, Spain. September 2007. 132 ESELAW’09 VI Experimental Software Engineering Latin American Workshop CONTE, T., 2009. “Técnica de Inspeção de Usabilidade Baseada em Perspectivas de Projeto Web”. Rio de Janeiro: UFRJ/COPPE 194 p. Tese (Doutorado) – UFRJ/ COPPE/ Programa de Engenharia de Sistemas e Computação. CONTE, T., MASSOLAR, J., MENDES, E., TRAVASSOS, P. G. H., 2009a. “Web Usability Inspection Technique Based on Design Perspectives.” IET Software Journal, v. 3, n. 2, pp. 106-123. CONTE, T., VAZ, V., MASSOLAR, J., MENDES, E., TRAVASSOS, G. H., 2009b "Improving a Web Usability Inspection Technique using Qualitative and Quantitative Data from an Observational Study". In: XXIII Simpósio Brasileiro de Engenharia de Software SBES 2009 (accepted for publication), Fortaleza, Brazil. DAVIS, F., 1989. "Perceived usefulness, perceived ease of use, and user acceptance of information technology." MIS Quarterly, v. 13, n. 3, pp. 319-339. DENGER, C., KOLB, R., 2006. "Testing and inspecting reusable product line components: first empirical results". In: Proceedings of the 2006 ACM/IEEE international symposium on Empirical software engineering (ISESE 2006), pp. 184 – 193, Rio de Janeiro, Brazil. September 2006. GOMES, M., CONTE, T., 2009. “WDP-RT: Uma técnica de leitura para inspeções de usabilidade de aplicações Web”. Relatório técnico RT-DCC-ES001/2009. DCC/ UFAM. ISO/IEC 9126-1, International Organization for Standardization. “Information Technology – Software Product Quality. Part 1: Quality Model”. 1999. JURISTO, N., MORENO, A., SANCHEZ-SEGURA, M.-I., 2007. “Guidelines for Eliciting Usability Functionalities”. IEEE Transactions on Software Engineering, v. 33, n. 11, pp. 744-758. FERREIRA, S. B. L., LEITE, J. C. S. P., 2003. “Avaliação da Usabilidade em Sistemas de Informação: O Caso do Sistema Submarino”. Revista de Administração Contemporânea RAC, Curitiba, PR, v. 7, n. 3, p. 115-136. KAPPEL, G., PRÖLL, B., REICH, S., RETSCHITZEGGER, W., 2006. "An Introduction to Web Engineering".In: Kappel, G., Pröll, B., Reich, S., Retschitzegger, W. (eds), Web Engineering: The Discipline of Systematic Development of Web Applications, John Wiley \ & Sons. MAFRA, S., BARCELOS, R., TRAVASSOS, G. H., 2006. “Aplicando uma metodologia Baseada em Evidência na Definição de Novas Tecnologias de Software”. In: Proceedings of the 20th Brazilian Symposium on Software Engineering (SBES 2006), v. 1, pp. 239 – 254, Florianopolis. MATERA, M., RIZZO, F., CARUGHI, G. T., 2006. “Web Usability: Principles and Evaluation Methods”. In: Mendes, E., Mosley, N. (eds), Web Engineering, Chapter 5, New York, Spinger Verlag. NIELSEN, J., 1993. “Usability Engineering”. Academic Press, Cambridge, MA. NIELSEN, J., 1994. “Heuristic evaluation”. In: Jacob Nielsen, Mack, R. L. (eds), Usability inspection methods, Heuristic Evaluation, New York, NY, John Wiley & Sons, Inc. NIELSEN, J.,1999. “Design Web Usability”. New Riders Publish, Indianapolis, Indiana, USA. PRATES, R. O., BARBOSA, S. D. J., (2003). “Avaliação de Interfaces de Usuário - Conceitos e Métodos”. In: Coello, J. M. A., Fabbri, S. C. P. F. (eds), Jornada de Atualização em Informática do Congresso da Sociedade Brasileira de Computação, Capítulo 6, Campinas. PREECE, J.; ROGERS, Y.; SHARP, E. (2002) “Interaction Design: Beyond Human-computer Interaction”. New York, NY: John Wiley & Sons. 2002. SHULL, F., CARVER, J., TRAVASSOS, G. H., 2001. “An empirical methodology for introducing software processes”. ACM SIGSOFT Software Engineering Notes, v. 26, n. 5, pp. 288-296. TRAVASSOS, G. H., SHULL, F., FREDERICKS, M., BASILI, V., 1999. “Detecting defects in object-oriented designs: using reading techniques to increase software quality.” ACM SIGPLAN Notices, v. 34, n. 10, pp. 47-56. 133