| Tipo | Sigla | Descrição | Critério |
|---|---|---|---|
| Livros | Livros | Número total de livros | Livros com valores (coletânea, obra única) no atributo "Natureza da Obra" e valores (capítulo, obra completa) no campo "Tipo da Contribuição na Obra" |
| Classificação periódicos | |||
| A1 | Artigos com qualis A1 | ||
| A2 | Artigos com qualis A2 | ||
| B1 | Artigos com qualis B1 | ||
| B2 | Artigos com qualis B2 | ||
| B3 | Artigos com qualis B3 | ||
| B4 | Artigos com qualis B4 | ||
| B5 | Artigos com qualis B5 | ||
| C | Artigos com qualis C | ||
| outros | Artigos sem classificação | ||
| sem_issn | Artigos sem ISSN | ||
| Discentes | |||
| M-troca de Nível com defesa | Discentes com mudança de nível com defesa | ||
| M-troca de Nível sem defesa | Discentes com mudança de nível sem defesa | ||
| M-Titulado | Alunos de mestrado titulado | ||
| M-Matriculado | Alunos de mestrado matriculados | ||
| M-Abandonou | Alunos de mestrado que abandonaram | ||
| M-desligado | Alunos de mestrado desligados | ||
| D-Matriculado | Alunos de doutorado matriculados | ||
| D-Titulado | Alunos de doutorado titulados | ||
| D-Abandonou | Alunos de doutorado que abandonaram | ||
| D-desligado | Alunos de doutorado desligados | ||
| Docentes | |||
| Permanente | Docente permanente | ||
| Colaborador | Docente colaborador | ||
| Visitante | Docente visitante | ||
| Teses aprovadas | D | Teses aprovadas | |
| Dissertações aprovadas (Mestrado) | M | Dissertações aprovadas | |
| Dissertações aprovadas (Mestrado Profissional) | F | Dissertações aprovadas |
Os dados das produções foram obtidos do antigo Coleta - Capes, que esteve em funcionamento até 2012, e de seu sucessor, Sucupira, de onde foram extraídos os dados a partir de 2013. Mais detalhes na documentação geral.
Como o Coleta era uma aplicação desktop, os dados são exatamente os mesmos que foram enviados à Capes. No caso do Sucupira, no entanto, não há ainda uma forma totalmente automática de obter os dados. O nosso procedimento de obtenção destes dados segue os passos abaixo:
É importante ressaltar duas fragilidades deste processo: o passo manual é naturalmente sujeito a erros; e a extração dos dados se baseia na identificação de textos e não de códigos, então é necessário fazer uma interpretação -- mesmo que automática -- destes textos para que possam ser usados pelo sistema.
No final dos anos 1990 havia o Coleta. Um aplicativo desktop desenvolvido pela Capes para que os programas de pós-graduação do Brasil inteiro registrassem toda a sua produção acadêmica de forma estruturada e depois enviassem para a Capes. Era bem semelhante ao programa de declaração de imposto de renda que já existia na época.
Na mesma época a PUC-Rio tinha um sistema Web chamado RPA@PUC que os departamentos usavam para o mesmo fim que o Coleta (com duas vantagens: funcionava o ano todo e era multi-usuário). A CCPA fez então uma engenharia reversa e conseguiu produzir um arquivo de backup do Coleta pré-preenchido com os dados do RPA@PUC. Assim os programas de pós-graduação passavam o ano cadastrando aos poucos a produção no RPA@PUC e no início do ano seguinte (quando era a época de preenchimento do Coleta), eles exportavam esses dados e faziam os ajustes direto no Coleta.
Esse processo funcionava muito bem, mas alguns dados de última hora e certos ajustes só ficavam registrados no Coleta, pois ninguém tinha a disciplina de voltar ao RPA@PUC para registrar essas coisas. Então foi desenvolvida uma ferramenta para importar os dados enviados para a Capes (o resultado da exportação final do Coleta) para dentro de uma outra base de dados. Essa base é uma cópia quase idêntica do banco do Coleta e acumula os dados de todos os programas da PUC desde 2004.
2012 foi o último ano de uso do Coleta e, a partir de 2013, os mesmos dados passaram a ser registrados na Plataforma Sucupira, uma espécie de equivalente ao Lattes dos programas de pós-graduação. Como o Sucupira não tem nenhuma forma de exportar os dados e naquela época havia problemas seríssimos com este sistema, a CCPA desenvolveu uma ferramenta para extrair os dados do Sucupira e importá-los na nossa base. Inicialmente esta ferramenta foi usada para alertar os programas sobre problemas no preenchimento e depois ela passou a ser usada para importar estes dados na nossa base de dados do Coleta. Em 2015 foi desenvolvida uma interface Web para consulta de totais dos dados dessa base.
A arquitetura geral é divida em duas partes distintas: a extração dos dados do Sucupira e a importação dos dados para a nossa base do Coleta.
Até 2015 o Sucupira não oferecia nenhuma forma estruturada de obter os dados cadastrados. A interface pública oferece um meio ineficiente para se obter os dados automaticamente, pois a página é muito mutável. Além disso, esta interface se mostrou, durante algum tempo, muito pouco confiável, pois não exibia todos os dados cadastrados internamente. A interface de acesso restrito oferece os dados no mesmo formato e ainda exige uma senha, o que dificulta a automação; sua única vantagem é na qualidade dos dados.
As duas interfaces oferecem uma tela de especificação de consulta aos dados e exibem, como resultado, uma lista de ítens em HTML, cada um com um link para uma página (também em HTML) que exibe todo o detalhamento do cadastro. Esta primeira listagem tem que ser gerada manualmente, mas a ferramenta de extração consegue interpretar o HTML e obter os links e os conteúdos automaticamente. O resultado deste processo de parsing é um objeto Lua que contém os dados separadamente.
A nova extração de dados a partir da planilha deve substituir esta camada de software para que a camada de importação seja aproveitada.
A nossa base do Coleta inclui todas as tabelas originais do Coleta. Temos um documento da Capes impresso com a descrição dessas tabelas, mas, em linhas gerais temos o seguinte:
g_col_tipo_col_r_col_Dentre as tabelas de dados, há alguns grupos importantes:
col_pessoalcol_docentes, col_discentes e col_outros. Estes cadastros são referenciados em todas as outras tabelas importantes para indicar autores e outros participantes das atividades acadêmicas.col_projetoscol_r_projetos_agencias, por exemplo), mas os dados estão todos aqui.col_tesescol_r_teses_banca_examinadora e col_r_teses_orientadores, mas o dados estão aqui.col_periodicos_*col_producaocol_r_producao_autor, por exemplo), ela não guarda todos os dados da produção. Para cada tipo de produção (os tipos estão em col_tipo_producao) há uma lista de dados que podem ser cadastrados (estes estão em col_tipo_producao_detalhe). Os dados efetivos de cada produção ficam guardados na tabela col_producao_detalhamento, que tem como chave: o ano base (esta chave ocorre em todas as tabelas), o identificador do programa de pós-graduação (esta chave ocorre em todas as tabelas), o identificador da produção e o identificador do dado (chave da tabela col_tipo_producao_detalhe).Em 2016 o Sucupira passou a oferecer uma forma de exportar os dados da produção em uma planilha (formato XLSX), então a equipe da CCPA está desenvolvendo uma ferramenta para substituir o antigo importador do Sucupira.