NFDI4DS | UHH-SEMS - Publication Details

Pedro Henrique Martins

ORCID: 0000-0002-8038-9073

Publications

Citations

Views

---

Saved

---

About

Contact & Profiles

A5101708734

Research Areas

Topic Modeling
Natural Language Processing Techniques
Multimodal Machine Learning Applications
Domain Adaptation and Few-Shot Learning
Literature, Culture, and Criticism
History, Culture, and Society
Text Readability and Simplification
Brazilian Legal Issues
Advanced Image and Video Retrieval Techniques
Brazilian cultural history and politics
Education and Digital Technologies
Linguistics and Language Studies
Medical Malpractice and Liability Issues
Urban and sociocultural dynamics
Youth, Drugs, and Violence
Explainable Artificial Intelligence (XAI)
Rural Development and Agriculture
History of Colonial Brazil
Academic Research in Diverse Fields
Speech and dialogue systems
Software Engineering Research
Text and Document Classification Technologies
Education Pedagogy and Practices
Translation Studies and Practices
Gender, Sexuality, and Education

Faculdade Pernambucana de Saúde
2021

Faculdade Frassinetti do Recife
2021

University of Lisbon
2019-2021

Universidade Federal de Minas Gerais
2016-2021

Instituto de Telecomunicações
2019-2021

Instituto Superior Técnico
2020

Universidade do Estado de Santa Catarina
2009-2013

Université Sorbonne Nouvelle
2012

University of Minho
2012

The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

OPENALEX - Publications

Sebastian Gehrmann Tosin Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Anuoluwapo Aremu and 51 more

Sebastian Gehrmann, Tosin Adewumi, Karmanya Aggarwal, Pawan Sasanka Ammanamanchi, Anuoluwapo Aremu, Antoine Bosselut, Khyathi Raghavi Chandu, Miruna-Adriana Clinciu, Dipanjan Das, Kaustubh Dhole, Wanyu Du, Esin Durmus, Ondřej Dušek, Chris Chinenye Emezue, Varun Gangal, Cristina Garbacea, Tatsunori Hashimoto, Yufang Hou, Yacine Jernite, Harsh Jhamtani, Yangfeng Ji, Shailza Jolly, Mihir Kale, Dhruv Kumar, Faisal Ladhak, Aman Madaan, Mounica Maddela, Khyati Mahajan, Saad Mahamood, Bodhisattwa...

10.18653/v1/2021.gem-1.10 preprint ID cc-by 2021-01-01

Joint Learning of Named Entity Recognition and Entity Linking

OPENALEX - Publications

Pedro Henrique Martins Zita Marinho André F. T. Martins

Named entity recognition (NER) and linking (EL) are two fundamentally related tasks, since in order to perform EL, first the mentions entities have be detected. However, most approaches disregard mention detection part, assuming that correct been previously In this paper, we joint learning of NER EL leverage their relatedness obtain a more robust generalisable system. For that, introduce model inspired by Stack-LSTM approach. We observe fact, doing multi-task improves performance both tasks...

10.18653/v1/p19-2026 article EN cc-by 2019-01-01

Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation

OPENALEX - Publications

Patrick Fernandes Aman Madaan Emmy Liu António Farinhas Pedro Henrique Martins and 6 more

Abstract Natural language generation has witnessed significant advancements due to the training of large models on vast internet-scale datasets. Despite these advancements, there exists a critical challenge: These can inadvertently generate content that is toxic, inaccurate, and unhelpful, existing automatic evaluation metrics often fall short identifying shortcomings. As become more capable, human feedback an invaluable signal for evaluating improving models. This survey aims provide...

10.1162/tacl_a_00626 article EN cc-by Transactions of the Association for Computational Linguistics 2023-01-01

The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

OPENALEX - Publications

Sebastian Gehrmann Tosin Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Anuoluwapo Aremu and 51 more

We introduce GEM, a living benchmark for natural language Generation (NLG), its Evaluation, and Metrics. Measuring progress in NLG relies on constantly evolving ecosystem of automated metrics, datasets, human evaluation standards. Due to this moving target, new models often still evaluate divergent anglo-centric corpora with well-established, but flawed, metrics. This disconnect makes it challenging identify the limitations current opportunities progress. Addressing limitation, GEM provides...

10.48550/arxiv.2102.01672 preprint EN cc-by arXiv (Cornell University) 2021-01-01

EuroLLM: Multilingual Language Models for Europe

OPENALEX - Publications

Pedro Henrique Martins Patrick Fernandes João Alves Ricardo Rei Ricardo Rei and 10 more

10.1016/j.procs.2025.02.260 article CA Procedia Computer Science 2025-01-01

Sparse Text Generation

OPENALEX - Publications

Pedro Henrique Martins Zita Marinho André F. T. Martins

Current state-of-the-art text generators build on powerful language models such as GPT-2, achieving impressive performance. However, to avoid degenerate text, they require sampling from a modified softmax, via temperature parameters or ad-hoc truncation techniques, in top-k nucleus sampling. This creates mismatch between training and testing conditions. In this paper, we use the recently introduced entmax transformation train sample natively sparse model, avoiding mismatch. The result is...

10.18653/v1/2020.emnlp-main.348 article EN cc-by 2020-01-01

EuroLLM: Multilingual Language Models for Europe

OPENALEX - Publications

Pedro Henrique Martins Patrick Fernandes João Alves Ricardo Rei Ricardo Rei and 10 more

The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite multilingual capable understanding and generating text in all official European Union languages, as well several additional relevant languages. We outline progress made to date, detailing our data collection filtering process, development scaling laws, creation tokenizer, mix modeling configurations....

10.48550/arxiv.2409.16235 preprint EN arXiv (Cornell University) 2024-09-24

Cabo-verdianos em Lisboa: manifestações expressivas e reconstrução identitária

OPENALEX - Publications

Pedro Henrique Martins

Trata-se aqui de abordar, entre imigrantes cabo-verdianos da região Grande Lisboa, Portugal, alguns dos recursos estéticos e identitários empregados como parte estratégia adaptação ao novo contexto. O conceito manifestações expressivas, estéticas que possuem algum caráter identitário, serve suporte para a construção análise do objeto empírico, associado aos pressupostos tradições são inventadas (Hobsbawn), comunidades imaginadas (Anderson) só fazem sentido no quadro social qual emergem...

10.1590/s0104-71832009000100010 article PT cc-by Horizontes Antropológicos 2009-06-01

A deep learning approach for understanding natural language commands for mobile service robots

OPENALEX - Publications

Pedro Henrique Martins Luís Custódio Rodrigo Ventura

Using natural language to give instructions robots is challenging, since understanding still largely an open problem. In this paper we address problem by restricting our attention commands modeled as one action, plus arguments (also known slots). For action detection called intent detection) and slot filling various architectures of Recurrent Neural Networks Long Short Term Memory (LSTM) networks were evaluated, having LSTMs achieved a superior accuracy. As the requested may not fall within...

10.48550/arxiv.1807.03053 preprint EN other-oa arXiv (Cornell University) 2018-01-01

Sparse Text Generation

OPENALEX - Publications

Pedro Henrique Martins Zita Marinho André F. T. Martins

Current state-of-the-art text generators build on powerful language models such as GPT-2, achieving impressive performance. However, to avoid degenerate text, they require sampling from a modified softmax, via temperature parameters or ad-hoc truncation techniques, in top-$k$ nucleus sampling. This creates mismatch between training and testing conditions. In this paper, we use the recently introduced entmax transformation train sample natively sparse model, avoiding mismatch. The result is...

10.48550/arxiv.2004.02644 preprint EN other-oa arXiv (Cornell University) 2020-01-01

A cadeia produtiva da mandioca no Maranhão: desafios, oportunidades e propostas de transformação

OPENALEX - Publications

Antônio José de Araújo Ferreira Cibelle Bezerra Freitas Jadson Pessoa da Silva Dionatan Carvalho Silva Celeste Costa Pinheiro and 3 more

A mandioca é um dos produtos mais populares da alimentação no Brasil, sendo relevante para a segurança alimentar, sobretudo Maranhão em que as áreas produtoras destacam-se pela capacidade elevada de produção, diversidade usos, flexibilidade plantio e colheita, assim como por sua importância sociocultural. Por isso objetiva-se analisar práticas desafios produzida Maranhão, fim subsidiar diálogos oportunidades atinentes ao incremento à inovação dessa cadeia produtiva. Para tanto, procedeu-se...

10.55905/oelv22n12-248 article PT cc-by-nc OBSERVATÓRIO DE LA ECONOMÍA LATINOAMERICANA 2024-12-29

CONTRIBUIÇÕES DA ASSISTÊNCIA FARMACÊUTICA NO ENFRENTAMENTO À COVID-19 EM SOBRAL, CEARÁ

OPENALEX - Publications

Estevam Ferreira da Ponte Neto Tereza Doralúcia Rodrigues Ponte Delano De Sousa Aragão Pedro Henrique Martins

Este estudo relata as contribuições da Coordenadoria Assistência Farmacêutica no enfrentamento Covid-19 município de Sobral, Ceará. Trata-se um relato experiência compreendendo ações executadas período março a outubro 2020, sob o olhar profissionais que vivenciaram processo junto à rede serviços referência para Covid-19, vinculados Secretaria Municipal Saúde. No cenário pandemia assistência farmacêutica despontou com importante papel, assegurando programadas vistas integralidade e...

10.36925/sanare.v20i0.1510 article PT SANARE - Revista de Políticas Públicas 2021-05-11

A persistência das formas urbanas: construção de uma metodologia para a leitura das pré-existências na morfologia da cidade portuguesa

OPENALEX - Publications

Pedro Henrique Martins

A forma da Cidade é feita constante construção, reutilização e sobreposição de uma multiplicidade elementos urbanos, criando no decorrer um tempo longo entidade heterogénea multifacetada, densa paisagem cultural definida por complexa sequência estratos construídos. Pressupondo a construção urbana como acto contínuo produção tecido sobre pré-existências que deixam sua marca nas estruturas subsequentes elas se impõem ou adaptam, os criados sucessivamente reinterpretados em diferentes épocas,...

10.5821/siiu.5907 article PT cc-by-nc-nd V Seminario Internacional de Investigación en Urbanismo, Barcelona-Buenos Aires, junio 2013 2013-06-01

ANTROPOLOGIA E PIONEIRISMO: FRANCISCO E EGON SCHADEN NO IMAGINÁRIO DE SÃO BONIFÁCIO (SC)

OPENALEX - Publications

Pedro Henrique Martins Tânia Welter

ANTROPOLOGIA E PIONEIRISMO: FRANCISCO EGON SCHADEN NO IMAGINÁRIO DE SÃO BONIFÁCIO (SC)

10.11606/issn.2316-9036.v0i92p201-209 article PT cc-by-nc-sa Revista USP 2012-02-28

Sparse And Structured Visual Attention

OPENALEX - Publications

Pedro Henrique Martins Vlad Niculae Zita Marinho André F. T. Martins

Visual attention mechanisms are widely used in multimodal tasks, as visual question answering (VQA). One drawback of softmax-based is that they assign some probability mass to all image regions, regardless their adjacency structure and relevance the text. In this paper, better link with text, we replace traditional softmax mechanism two alternative sparsity-promoting transformations: sparsemax, which able select only relevant regions (assigning zero weight rest), a newly proposed...

10.1109/icip42928.2021.9506028 article EN 2022 IEEE International Conference on Image Processing (ICIP) 2021-08-23

Efficient Machine Translation Domain Adaptation

OPENALEX - Publications

Pedro Henrique Martins Zita Marinho André F. T. Martins

Machine translation models struggle when translating out-of-domain text, which makes domain adaptation a topic of critical importance. However, most methods focus on fine-tuning or training the entire part model every new domain, can be costly. On other hand, semi-parametric have been shown to successfully perform by retrieving examples from an in-domain datastore (Khandelwal et al., 2021). A drawback these retrieval-augmented models, however, is that they tend substantially slower. In this...

10.48550/arxiv.2204.12608 preprint EN cc-by arXiv (Cornell University) 2022-01-01

Direito ao Território Quilombola na Amazônia e a Pandemia

OPENALEX - Publications

Luciana de Carvalho Vercilene Dias Raimundo Magno Cardoso Nascimento Pedro Henrique Martins

O presente artigo apresenta análise a partir da Antropologia do Direito sobre relação entre o ao território e experiência Malungu para defesa dos quilombos Pará durante pandemia de situações casos específicos. A pergunta pesquisa utilizada foi “Quais noções direito foram evidenciadas na atuação política pandemia?”. As autoras estiveram diretamente envolvidas em processos resistência Malungu. se baseou levantamento dados covid19 nos quilombos, relatos experiências levados público atuações...

10.26512/insurgncia.v7i1.35489 article PT InSURgência revista de direitos e movimentos sociais 2021-01-31

$\infty$-former: Infinite Memory Transformer

OPENALEX - Publications

Pedro Henrique Martins Zita Marinho André F. T. Martins

Transformers are unable to model long-term memories effectively, since the amount of computation they need perform grows with context length. While variations efficient transformers have been proposed, all a finite memory capacity and forced drop old information. In this paper, we propose $\infty$-former, which extends vanilla transformer an unbounded memory. By making use continuous-space attention mechanism attend over memory, $\infty$-former's complexity becomes independent length,...

10.48550/arxiv.2109.00301 preprint EN other-oa arXiv (Cornell University) 2021-01-01

Coming Soon ...