LARGE LANGUAGE MODELS FOR INFORMATION RETRIEVAL IN DIGITALIZED DOCUMENTS

a study with the GPT-4 model

Authors

Keywords:

Digitization, Generative artificial intelligence, Information retrieval, Large language models

Abstract

Technological advancements that have expanded access to digital information have driven scientific, technical, artistic, and cultural production. However, the vast amount of available information also presents challenges, particularly in retrieving relevant and accessible information for people with different needs and abilities. Digitized textual documents, common in institutional collections, amplify these challenges as they often lack machine-readable characters. This study investigated the use of the GPT-4 model for information retrieval in digitized documents from institutional repositories. The applied and exploratory research adopted a qualitative and quantitative approach to evaluate character recognition and semantic searches using a customized GPT. Twenty theses from the Federal University of Minas Gerais repository were analyzed using five prompts. The model achieved 98% precise and coherent responses, demonstrating high performance, although technical challenges still limit its large-scale application.

Author Biographies

Daiane Campos Procópio, Escola de Ciência da Informação, Universidade Federal de Minas Gerais (UFMG)

Master's student in Knowledge Management and Organization at the School of Information Science at the Federal University of Minas Gerais.

Patrícia Nascimento Silva, Escola de Ciência da Informação, Universidade Federal de Minas Gerais (UFMG)

Doutora em Gestão e Organização do Conhecimento pela Escola de Ciência da Informação da Universidade Federal de Minas Gerais.

Renato Rocha Souza, Escola de Ciência da Informação, Universidade Federal de Minas Gerais (UFMG)

Doutor em Ciência da Informação pela Escola de Ciência da Informação da Universidade Federal de Minas Gerais.

References

ALAMMAR, Jay; GROOTENDORST, Maarten
2024 Hands-On Large Language Models: language understanding and generation. Sebastopol, CA: O’Reilly, 2024.

ALLAN, James [et al.]
2003 Challenges in information retrieval and language modeling: report of a workshop held at the Center for Intelligent Information Retrieval, University of Massachusetts Amherst, September 2002. ACM SIGIR Forum. [Online]. 37:1 (2003) 31-47. [Retrieved 14 Aug. 2024]. Available at: https://dl.acm.org/doi/10.1145/945546.945549.

ALTOUNIAN, Márcia Martins de Araújo; GOMES, Beatriz Pinheiro de Melo
2016 A Recuperação semântica da informação no contexto do controle externo. Revista do TCU. [Online]. 137 (2016) 31-41. [Retrieved 22 Dec. 2024]. Available at: https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1376/1522.

ÁLVAREZ, Alberto Cáceres
2007 Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. [Online]. São Carlos, 2007. [Retrieved 21 Dec. 2024]. Available at: https://teses.usp.br/teses/disponiveis/55/55134/tde-21062007-144352/pt-br.php. Master dissertation in Computer Sciences and Computational Mathematics - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo.

AMARATUNGA, Thimira
2023 Understanding Large Language Models: learning their underlying concepts and technologies. Nugegoda: Apress, 2023.

ARAÚJO, Carlos Alberto Ávila
2010 O Conceito de informação na Ciência da Informação. Informação & Sociedade: Estudos. [Online]. 20:3 (2010) 95-105. [Retrieved 31 Jul. 2024]. Available at: https://periodicos.ufpb.br/ojs/index.php/ies/article/view/6951/4808.

ARAÚJO, Carlos Alberto Ávila
2009 Correntes teóricas da ciência da informação. Ciência da Informação. [Online]. 38:3 (2009) 192-204. [Retrieved 9 Jan. 2024]. Available at: https://revista.ibict.br/ciinf/article/view/1240.

BACA, Murtha
2016 Introduction. In Introduction to Metadata. Ed. Murtha Baca. 3ª ed. Los Angeles: Getty Publications, 2016.

BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier
2013 Recuperação da informação: conceitos e tecnologia das máquinas de busca. 2nd ed. Porto Alegre: Bookman, 2013.

BAKTASH, Jawid Ahmad; DAWODI, Mursal
2023 Gpt-4: A Review on advancements and opportunities in Natural Language Processing. arXiv. [Online]. 2305.03195v1, 2023. [Retrieved 17 Dec. 2024]. Available at: https://arxiv.org/abs/2305.03195.

BUSH, Vnnevar
1945 As we may think. Atlantic Monthy. [Online]. 176:1 (1945) 101-108. [Retrieved 18 Jan. 2024]. Available at: https://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/.

CHATGPT
2024 Recuperação de informações em digitalizações. Prompts e respostas. [Online]. 2024. [Retrieved 12 Jan. 2025]. Available at:
https://chatgpt.com/share/676f1c17-4430-800d-9e56-05d3f2c5b5da.

CORRÊA, Luiz Nilton
2008 Metodologia científica: para trabalhos acadêmicos e artigos científicos. Florianópolis: Ed. do autor, 2008.

CRESWELL, John W.; CRESWELL, J. David
2021 Projeto de pesquisa: métodos qualitativo, quantitativo e misto. 5ª ed. Porto Alegre: Penso, 2021.

CROW, Raym
2002 The Case for institutional repositories: A SPARC position paper. [Online]. Washington, DC: The Scholarly Publishing and Academic Resources Coalition, 2002. [Retrieved 16 Aug. 2024]. Available at:
https://ils.unc.edu/courses/2014_fall/inls690_109/Readings/Crow2002-CaseforInstitutionalRepositoriesSPARCPaper.pdf.

FALCÃO, Luander Cipriano de Jesus; LOPES, Brenner; SOUZA, Renato Rocha
2022 Absorção das tarefas de processamento de Linguagem Natural (NLP) pela Ciência da Informação (CI): uma revisão da literatura para tangibilização do uso de NLP pela CI. Em Questão. [Online]. 28:1 (2022) 13-34. [Retrieved 12 Jan. 2025]. Available at:
https://doi.org/10.19132/1808-5245281.13-34.

FEIJÓ, Amanda Monteiro; VICENTE, Ernesto Fernando Rodrigues; PETRI, Sérgio Murilo
2020 O Uso das escalas Likert nas pesquisas de contabilidade. Revista Gestão Organizacional. [Online]. 13:1 (2020) 27-41. [Retrieved 7 Jan. 2025]. Available at: https://bell.unochapeco.edu.br/revistas/index.php/rgo/article/view/5112.

FERNEDA, Edberto
2012 Introdução aos modelos computacionais de recuperação de informação. Rio de Janeiro: Ciência Moderna, 2012.

FERNEDA, Edberto
2003 Recuperação de informação: análise sobre a contribuição da Ciência da Computação para a Ciência da Informação. [Online] São Paulo, 2003. [Retrieved 9 Jan. 2024]. Available at: https://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/pt-br.php. PhD thesis in Information Science and Documentation - Escola de Comunicação e Artes, Universidade de São Paulo.

GIL, Antônio Carlos
2023 Como elaborar projetos de pesquisa. 7ª ed. Barueri: Atlas, 2023.

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron
2016 Deep learning. [Online]. Cambridge: MIT Press, 2016. [Retrieved 24 Jan. 2024]. Available at: https://www.deeplearningbook.org/.

INSTITUTO FEDERAL DO RIO GRANDE DO SUL. Centro Tecnológico de Acessibilidade
2018 Ferramentas OCR: entenda o que são e sua relação com a acessibilidade. [Online]. Bento Gonçalves: CTA, 2018. [Retrieved 21 Nov. 2024]. Available at: https://cta.ifrs.edu.br/ferramentas-ocr-entenda-o-que-sao-como-funcionam-e-qual-sua-relacao-com-a-acessibilidade/.

KALLENS, Pablo Contreras; KRISTENSEN-MCLACHLAN, Ross Deans; CHRISTIANSEN, Morten H.
2023 Large Language Models demonstrate the potential of statistical learning in language. Cognitive Science. [Online]. 47:3 (2023). [Retrieved 23 Aug. 2024]. Available at: https://onlinelibrary.wiley.com/doi/epdf/10.1111/cogs.13256.

LARSON, Ray R.
2012 Information Retrieval Systems. In Understanding Information Retrieval Systems: management, types, and standards. Ed. Marcia J. Bates. Boca Raton: CRC Press, 2012.

LUZ, Larissa Pavarini da; CONEGLIAN, Caio Saraiva; SEGUNDO, José Eduardo Santarem
2019 Tecnologias da web semântica para a recuperação da informação no Wikidata. Revista Digital de Biblioteconomia e Ciência da Informação. [Online]. 17:e019003 (2019) 1-20. [Retrieved 9 Jan. 2025]. Available at: https://doi.org/10.20396/rdbci.v17i0.8651791.

MACULAN, Benildes Coura Moreira dos Santos
2020 Ambiguidade e o contexto na representação de informações em domínios de especialidade. Perspectivas em Ciência da Informação. [Online]. 25:número especial (2020) 98-124. [Retrieved 12 Jan. 2025]. Available at: https://periodicos.ufmg.br/index.php/pci/article/view/22284.

MARCONDES, Carlos Henrique
2005 Metadados: descrição e recuperação de informações na web. In Bibliotecas digitais: saberes e práticas. Org. Carlos Henrique Marcondes et al. Salvador: UFBA; Brasília: IBICT, 2005, p. 97-113.

MARCONDES, Carlos Henrique; SAYÃO, Luis Fernando
2002 Documentos digitais e novas formas de cooperação entre sistemas de informação em C&T. Ciência da Informação. [Online]. 31:3 (2002) 42-54. [Retrieved 16 Aug. 2024]. Available at: https://www.scielo.br/j/ci/a/NKhjHgVf63bYGmkHJWQkWhB/?format=pdf&lang=pt.

MARTINS, Júlio Serafim [et al.]
2020 Processamento de linguagem natural. Porto Alegre: SAGAH, 2020.

MATTAR, João; RAMOS, Daniela Karine
2021 Metodologia da pesquisa em educação: abordagens qualitativas, quantitativas e mistas. São Paulo: Almedina Brasil, 2021.

MCCARTHY, John [et al.]
1955 A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. AI Magazine. [Online]. 27:4 (1955) 12. [Retrieved 29 Mar. 2024]. Available at: https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/1904.

MICHAELIS
2025a Dicionário Brasileiro da Língua Portuguesa. [Online]. São Paulo: Melhoramentos, 2025. [Retrieved 15 Jan. 2025]. Available at:
https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/correto/.

MICHAELIS
2025b Dicionário Brasileiro da Língua Portuguesa. [Online]. São Paulo: Melhoramentos, 2025. [Retrieved 15 Jan. 2025]. Available at:
https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/coerente/.

MIRANDA, Tânia Lúcia dos Santos
1995 Estudos com a calicreína urinária humana: A - um novo método para purificação da enzima em larga escala, B - caracterização cinética com substratos sintéticos dos tipos amida e éster, derivados da arginina N-substituída e com os inibidores aprotinina e benzamidina. [Online]. Belo Horizonte, 1995. [Retrieved 9 Jan. 2024]. Available at:
http://hdl.handle.net/1843/BUOS-9NBKNE. PhD thesis in Biochemistry and Immunology - Instituto de Ciências Biológicas, Universidade de Federal de Minas Gerais.

MOOERS, Calvin N.
1951 Zatocoding applied to mechanical organization of knowledge. American Documentation. [Online] 2:1 (1951) 20-32. [Retrieved 21 Nov. 2024]. Available at: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.5090020107.

OPENAI
2024a About. [Online]. 2024. [Retrieved 17 Dec. 2024]. Available at: https://openai.com/about/.

OPENAI
2024b File Uploads FAQ. [Online]. 2024. [Retrieved 17 Dec. 2024]. Available at: https://help.openai.com/en/articles/8555545-file-uploads-faq.

PATIL, Rajvardhan; GUDIVADA, Venkat
2024 A Review of current trends, techniques, and challenges in Large Language Models (LLMs). Applied Sciences. [Online]. 14:5 (2024). [Retrieved 1 Sept. 2024]. Available at: https://www.mdpi.com/2076-3417/14/5/2074.

ROSA, Flávia; GOMES, Maria João
2010 Comunicação científica: das restrições ao acesso livre. In Repositórios institucionais: democratizando o acesso ao conhecimento. Org. Maria João Gomes e Flávia Rosa. Salvador: EDUFBA, 2010, p. 11-34.

SARACEVIC, Tefko
1996 Ciência da informação: origem, evolução e relações. Perspectivas em Ciência da Informação. [Online]. 1:1 (1996) 41-62. [Retrieved 3 Aug. 2024]. Available at: https://periodicos.ufmg.br/index.php/pci/article/view/22308.

SHAHRIAR, Sakib; HAYAWI, Kadhim
2023 Let’s have a chat!; A conversation with ChatGPT: Technology, applications, and limitations. arXiv. [Online]. 2302.13817v4 (2023). [Retrieved 17 Dec. 2024]. Available at: https://arxiv.org/abs/2302.13817?utm_source=chatgpt.com.

SOUZA, Rodrigo Ananias da Silva; RODAS, Cecílio Merlotti
2020 Recuperação da informação em dispositivos móveis. Biblos: Revista do Instituto de Ciências Humanas e da Informação. [Online]. 34:2 (2020) 147-166. [Retrieved 9 Jan. 2025]. Available at: https://doi.org/10.14295/biblos.v34i2.11840.

STATISTA
2024 Volume of data/information created, captured, copied, and consumed world wide from 2010 to 2023, with forecasts from 2024 to 2028: in zettabytes. [Online]. New York: Statista, 2025. [Retrieved 2 Sept. 2025]. Available at: https://www.statista.com/statistics/871513/worldwide-data-created/.

STOCK, Wolfgang G.; STOCK, Mechtild
2013 Handbook of Information Science. Berlin: De Gruyter, 2013.

TOPOL, Eric
2024 Medicina profunda, deep medicine: como a inteligência artificial pode reumanizar os cuidados de saúde. Porto Alegre: Artmed, 2024.

UNIVERSIDADE FEDERAL DE MINAS GERAIS
2024a UFMG em rankings. [Online]. Belo Horizonte, 2024. [Retrieved 29 Aug. 2024]. Available at: https://ufmg.br/a-universidade/apresentacao/ufmg-em-rankings.

UNIVERSIDADE FEDERAL DE MINAS GERAIS. Repositório Institucional
2024b Formulário de contato do RI-UFMG: Dúvida: Comunidade trabalhos acadêmicos, teses, dissertações e TCC digitalizadas, To: campos-daiane@ufmg.br. Belo Horizonte, 11 Dec. 2024. Electronic message.

VAJJALA, Sowmya [et al.]
2020 Practical Natural Language Processing: A Comprehensive guide to building real-world NLP systems. Sebastapol, CA: O’Reilly, 2020.

WEI, Wendy Ran; HUANG, Ling; WANG, Jay Jianqiang
2025 Retrieval-Augmented Generation for LLM applications: transforming search, recommendation, and AI assistants. Sebastopol, CA: O’Reilly, 2025.

Published

2025-07-30

How to Cite

Procópio, D. C., Silva, P. N., & Souza, R. R. (2025). LARGE LANGUAGE MODELS FOR INFORMATION RETRIEVAL IN DIGITALIZED DOCUMENTS: a study with the GPT-4 model. Páginas a&b, 293–313. Retrieved from https://ojstest.xyz/ojsletrasX/index.php/paginasaeb/article/view/14818

Issue

Section

Articles