O que é o Págico?
O Págico é uma avaliação conjunta na área de recolha de informação em português que tem por objectivo avaliar sistemas que encontrem respostas não triviais a necessidades de informação complexas, em língua portuguesa.
De certa forma vem no seguimento do GikiCLEF, aproveitando a experiência obtida, mas mudando completamente o foco, de acordo com as reflexões provocadas pelo GikiCLEF: em vez de se concentrar em questões especialmente geográficas e enfatizar o multilinguismo e a recuperação cruzada entre línguas e coleções em língua diferente, o Págico concentra-se no que em traços largos se pode considerar temas de cultura lusófona, e oferece apenas tópicos em português.
A razão da organização do Págico é uma tentativa de aplicar os vários sistemas e tarefas que os membros da comunidade do processamento computacional do português desenvolvem a uma tarefa com inegável interesse prático e cultural: responder de forma automática a necessidades que exigem o folheamento de muitas páginas de informação numa enciclopédia, e que não são portanto praticamente realizáveis em pouco tempo por um ser humano.
Embora estejamos bem conscientes de que a informação na wikipédia em português não é sempre fidedigna ou completa, pensamos que esta iniciativa poderá mesmo contribuir para a melhorar ou pelo menos para identificar criticamente as suas forças e fraquezas.
Existe uma página mais detalhada de motivação do Págico.
Chamada à participação
O Págico é organizado de forma a que o seu encontro final coincida com o PROPOR, ou seja, a apresentação das abordagens seguidas pelos seus participantes constituirá um satélite do Propor 2012, que se realizará em Coimbra de 17 a 20 de Abril de 2012.
Os participantes com sistemas automáticos foram convidados a registar-se no Págico até 30 de Julho de 2011. Foram por essa altura enviadas instruções detalhadas assim como tópicos de exemplo e respostas de exemplo.
A avaliação propriamente dita terá lugar de 21 de Outubro até 20 de Novembro para os participantes humanos e de 21 de Outubro a 4 de Novembro para os participantes automáticos. Os resultados serão publicitados antes do fim do ano, de forma a que os autores tenham tempo para refletir sobre a sua participação e os seus resultados e esse trabalho possa ser devidamente apresentado no Encontro do Págico.
Planeamos publicar, em português, um livro dedicado ao Págico descrevendo a avaliação e seus resultados, em conjunto com a Universidade de Coimbra e os organizadores do PROPOR.
Ao contrário das anteriores avaliações conjuntas organizadas pela Linguateca, decidimos desta vez também aceitar participantes humanos, ou seja, um participante pode tentar a sua sorte registando-se como pessoa e não como sistema.
Nesse caso, aceitamos registos até à data da própra avaliação: Registo de participantes humanos no Págico
Quem organiza o Págico?
O Págico é organizado pela Linguateca, na sua vertente de promover e fomentar a avaliação conjunta como meio de progresso na área.
Mais especificamente, dentro da equipa da Linguateca, os principais organizadores do Págico são Cristina Mota, Alberto Simões, Cláudia Freitas, Luís Costa e Diana Santos.
Deve de qualquer maneira ser mencionado que o Págico é desenvolvido a partir do SIGA, que foi desenhado e criado por Luís Miguel Cabral para o GikiCLEF.
Em que consiste a tarefa?
Dada uma necessidade de informação formulada através de um tópico, pretendemos obter as páginas da wikipédia que são a resposta a esse tópico. Eis alguns exemplos de tópicos e algumas das respectivas respostas:
- Que outros resistentes associados a movimentos de libertação privaram com Amilcar Cabral durante a vida deste?
Agostinho_Neto - Que cientistas ou avanços da ciência podem ser direta ou indiretamente relacionados com os jesuítas da escola de Coimbra?
Nónio
Pedro_Nunes_(matemático) - Que gramáticos brasileiros se pronunciaram sobre a questão da “língua brasileira”?
Antenor_Nascentes - Quais os jogadores de futebol de língua portuguesa que passaram por mais de três países estrangeiros na sua vida profissional?
Bebeto
Além de fornecer as respostas, é necessário encontrar as páginas da wikipédia que justificam a escolha de uma dada resposta. Por exemplo, será necessário identificar a página http://pt.wikipedia.org/wiki/Pedro_Nunes_(matemático) como a justificação de que o nónio é uma avanço relacionado com os jesuítas da escola de Coimbra.
As páginas, no entanto, são escolhidas de uma versão estática da wikipédia criada pela Linguateca para o Págico.
Mais informação sobre a participação automática e sobre a participação humana encontra-se na página de perguntas já respondidas sobre o Págico.
Referências
Alguns artigos que dão uma panorâmica sobre o GikiP e GikiCLEF, precursores do Págico:
Santos et al. (2009)Diana Santos, Nuno Cardoso, Paula Carvalho, Iustin Dornescu, Sven Hartrumpf, Johannes Leveling & Yvonne Skalban. “GikiP at GeoCLEF 2008: Joining GIR and QA forces for querying Wikipedia”. In Carol Peters, Tomas Deselaers, Nicola Ferro, Julio Gonzalo, Gareth J.F.Jones, Mikko Kurimo, Thomas Mandl, Anselmo Peñas & Viviane Petras (eds.), Evaluating Systems for Multilingual and Multimodal Information Access 9th Workshop of the Cross-Language Evaluation Forum, CLEF 2008, Aarhus, Denmark, September 17-19, 2008, Revised Selected Papers 2009, Springer, pp. 894-905, pdf.Santos et al. (2010)Diana Santos, Luís Miguel Cabral, Corina Forascu, Pamela Forner, Fredric Gey, Katrin Lamm, Thomas Mandl, Petya Osenova, Anselmo Peñas, Alvaro Rodrigo, Julia Schulz, Yvonne Skalban & Erik Tjong Kim Sang. “GikiCLEF: Crosscultural issues in multilingual information access”. In Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner & Daniel Tapias (eds.), Proceedings of the International Conference on Language Resources and Evaluation (LREC 2010) (Valletta, Malta, 17-23 May de 2010), European Language Resources Association, pp. 2346-2353, pdfSantos & Cabral (2010)Diana Santos & Luís Miguel Cabral. “GikiCLEF : Expectations and lessons learned”. In Carol Peters, Giorgio Di Nunzio, Mikko Kurimo, Thomas Mandl, Djamel Mostefa, Anselmo Peñas & Giovanna Roda (eds.), Multilingual Information Access Evaluation, VOL I Setembro de 2010, Springer, pp. 212-222, pdf.
Para obter todas as publicações associadas ao GikiCLEF, basta consultar o catálogo de publicações da Linguateca pedindo publicações com a marca GikiCLEF.