25 February 2021
A Linguateca está a organizar uma nova avaliação conjunta em torno da procura de informação sobre cultura lusófona na wikipédia, o Págico, e pela primeira vez está também a organizar não só a avaliação de sistemas automáticos nessa tarefa, mas a participação humana.

O Págico

O que é o Págico?

O Págico é uma avaliação conjunta na área de recolha de informação em português que tem por objectivo avaliar sistemas que encontrem respostas não triviais a necessidades de informação complexas, em língua portuguesa.

De certa forma vem no seguimento do GikiCLEF, aproveitando a experiência obtida, mas mudando completamente o foco, de acordo com as reflexões provocadas pelo GikiCLEF: em vez de se concentrar em questões especialmente geográficas e enfatizar o multilinguismo e a recuperação cruzada entre línguas e coleções em língua diferente, o Págico concentra-se no que em traços largos se pode considerar temas de cultura lusófona, e oferece apenas tópicos em português.

A razão da organização do Págico é uma tentativa de aplicar os vários sistemas e tarefas que os membros da comunidade do processamento computacional do português desenvolvem a uma tarefa com inegável interesse prático e cultural: responder de forma automática a necessidades que exigem o folheamento de muitas páginas de informação numa enciclopédia, e que não são portanto praticamente realizáveis em pouco tempo por um ser humano.

Embora estejamos bem conscientes de que a informação na wikipédia em português não é sempre fidedigna ou completa, pensamos que esta iniciativa poderá mesmo contribuir para a melhorar ou pelo menos para identificar criticamente as suas forças e fraquezas.

Existe uma página mais detalhada de motivação do Págico.

Chamada à participação

O Págico é organizado de forma a que o seu encontro final coincida com o PROPOR, ou seja, a apresentação das abordagens seguidas pelos seus participantes constituirá um satélite do Propor 2012, que se realizará em Coimbra de 17 a 20 de Abril de 2012.

Os participantes com sistemas automáticos foram convidados a registar-se no Págico até 30 de Julho de 2011. Foram por essa altura enviadas instruções detalhadas assim como tópicos de exemplo e respostas de exemplo.

A avaliação propriamente dita terá lugar de 21 de Outubro até 20 de Novembro para os participantes humanos e de 21 de Outubro a 4 de Novembro para os participantes automáticos. Os resultados serão publicitados antes do fim do ano, de forma a que os autores tenham tempo para refletir sobre a sua participação e os seus resultados e esse trabalho possa ser devidamente apresentado no Encontro do Págico.

Planeamos publicar, em português, um livro dedicado ao Págico descrevendo a avaliação e seus resultados, em conjunto com a Universidade de Coimbra e os organizadores do PROPOR.

Ao contrário das anteriores avaliações conjuntas organizadas pela Linguateca, decidimos desta vez também aceitar participantes humanos, ou seja, um participante pode tentar a sua sorte registando-se como pessoa e não como sistema.

Nesse caso,  aceitamos registos até à data da própra avaliação: Registo de participantes humanos no Págico

Quem organiza o Págico?

O Págico é organizado pela Linguateca, na sua vertente de promover e fomentar a avaliação conjunta como meio de progresso na área.

Mais especificamente, dentro da equipa da Linguateca, os principais organizadores do Págico são Cristina Mota, Alberto Simões, Cláudia Freitas, Luís Costa e Diana Santos.

Deve de qualquer maneira ser mencionado que o Págico é desenvolvido a partir do SIGA, que foi desenhado e criado por Luís Miguel Cabral para o GikiCLEF.

Em que consiste a tarefa?

Dada uma necessidade de informação formulada através de um tópico, pretendemos obter as páginas da wikipédia que são a resposta a esse tópico. Eis alguns exemplos de tópicos e algumas das respectivas respostas:

  • Que outros resistentes associados a movimentos de libertação privaram com Amilcar Cabral durante a vida deste? 
    Agostinho_Neto
  • Que cientistas ou avanços da ciência podem ser direta ou indiretamente relacionados com os jesuítas da escola de Coimbra?
    Nónio
    Pedro_Nunes_(matemático)
  • Que gramáticos brasileiros se pronunciaram sobre a questão da “língua brasileira”?
    Antenor_Nascentes
  • Quais os jogadores de futebol de língua portuguesa que passaram por mais de três países estrangeiros na sua vida profissional?
    Bebeto

Além de fornecer as respostas, é necessário encontrar as páginas da wikipédia que justificam a escolha de uma dada resposta. Por exemplo, será necessário identificar a página http://pt.wikipedia.org/wiki/Pedro_Nunes_(matemático) como a justificação de que o nónio é uma avanço relacionado com os jesuítas da escola de Coimbra.

As páginas, no entanto, são escolhidas de uma versão estática da wikipédia criada pela Linguateca para o Págico.

 

Mais informação sobre a participação automática e sobre a participação humana encontra-se na página de perguntas já respondidas sobre o Págico.

Referências

Alguns artigos que dão uma panorâmica sobre o GikiP e GikiCLEF, precursores do Págico:

Santos et al. (2009)Diana Santos, Nuno Cardoso, Paula Carvalho, Iustin Dornescu, Sven Hartrumpf, Johannes Leveling & Yvonne Skalban. “GikiP at GeoCLEF 2008: Joining GIR and QA forces for querying Wikipedia”. In Carol Peters, Tomas Deselaers, Nicola Ferro, Julio Gonzalo, Gareth J.F.Jones, Mikko Kurimo, Thomas Mandl, Anselmo Peñas & Viviane Petras (eds.),  Evaluating Systems for Multilingual and Multimodal Information Access 9th Workshop of the Cross-Language Evaluation Forum, CLEF 2008, Aarhus, Denmark, September 17-19, 2008, Revised Selected Papers 2009, Springer,  pp. 894-905,  pdf.Santos et al. (2010)Diana Santos, Luís Miguel Cabral, Corina Forascu, Pamela Forner, Fredric Gey, Katrin Lamm, Thomas Mandl, Petya Osenova, Anselmo Peñas, Alvaro Rodrigo, Julia Schulz, Yvonne Skalban & Erik Tjong Kim Sang. “GikiCLEF: Crosscultural issues in multilingual information access”. In Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner & Daniel Tapias (eds.),  Proceedings of the International Conference on Language Resources and Evaluation (LREC 2010) (Valletta, Malta, 17-23 May de 2010), European Language Resources Association,  pp. 2346-2353,  pdfSantos & Cabral (2010)Diana Santos & Luís Miguel Cabral. “GikiCLEF : Expectations and lessons learned”. In Carol Peters, Giorgio Di Nunzio, Mikko Kurimo, Thomas Mandl, Djamel Mostefa, Anselmo Peñas & Giovanna Roda (eds.),  Multilingual Information Access Evaluation, VOL I Setembro de 2010, Springer,  pp. 212-222,  pdf.

 

Para obter todas as publicações associadas ao GikiCLEF, basta consultar o catálogo de publicações da Linguateca pedindo publicações com a marca GikiCLEF.

Também poderá gostar

Sem comentários