Análise semântica de sentimento em artigos de opinião

Autores

  • Fátima Silva Faculdade de Letras da Universidade do Porto; Centro de Linguística da Universidade do Porto
  • Purificação Silvano Faculdade de Letras da Universidade do Porto; Centro de Linguística da Universidade do Porto
  • António Leal Faculdade de Letras da Universidade do Porto; Centro de Linguística da Universidade do Porto
  • Fátima Oliveira Faculdade de Letras da Universidade do Porto; Centro de Linguística da Universidade do Porto
  • Pavel Brazdil Faculdade de Economia da Universidade do Porto; Laboratório de Inteligência Artificial e Apoio à Decisão
  • João Cordeiro Universidade da Beira Interior; Laboratório de Inteligência Artificial e Apoio à Decisão
  • Débora Oliveira Faculdade de Economia da Universidade do Porto; Laboratório de Inteligência Artificial e Apoio à Decisão

Resumo

O estudo apresentado realiza-se na interface entre a linguística e as ciências da computação, tendo como objetivo fazer a análise computacional de artigos de opinião na área da economia e finanças, seguindo o quadro teórico da análise de sentimento. Os principais objetivos do trabalho são i) determinar a orientação do sentimento, positivo ou negativo, e a intensidade dessa orientação através da anotação da polaridade do léxico, com incidência nos nomes e adjetivos, nos segmentos em que ocorre a expressão da opinião, e ii) verificar se um léxico específico para a área de economia e finanças tem vantagens na atribuição automática de sentimento sobre um léxico geral. Para atingir esses objetivos, foi selecionado um corpus de 45 textos, analisado em duas fases por anotadores com formação distinta. Primeiro, uma amostra de 10 textos foi obtida e anotada pelos investigadores da área de linguística, coautores deste artigo, com o objetivo de desenvolver um modelo linguístico para determinar a orientação e intensidade da polaridade de termos em artigos de opinião e extrair termos de léxico relevantes para esta área de estudo. Em seguida, um conjunto de 35 textos foi anotado por estudantes universitários, seguindo o método utilizado na primeira amostra. Com base na anotação linguística, a equipa das ciências da computação procurou determinar até que ponto um léxico de sentimento geral para a língua portuguesa – SentiLex - é suficiente para caracterizar o sentimento de uma frase de maneira satisfatória ou se o EconoLex, um léxico específico de sentimento, seria mais eficaz. O léxico específico inclui termos e expressões multipalavra relevantes para o domínio da economia e finanças e para a língua portuguesa, e foi elaborado pelos autores deste estudo. Os dados foram analisados usando uma metodologia mista, qualitativa e quantitativa. Os resultados obtidos permitem-nos considerar os seguintes itens como contributos desta investigação: i) a elaboração do modelo de anotação linguística adotado para a análise da orientação e da intensidade da polaridade do léxico, em especial dos nomes e adjetivos; ii) o papel central, ainda que não exclusivo, dos adjetivos para a determinação da polaridade do sentimento nos segmentos opinativos dos artigos do corpus; iii) o desenvolvimento de um novo léxico de sentimento específico português para a área da economia e finanças; iv) a melhoria do desempenho computacional do EconoLex⨁SentiLex em relação ao SentiLex no que se refere ao desempenho na caracterização automática de sentimento. Apesar destes resultados positivos, há algumas limitações que constituem os elementos a desenvolver na continuidade deste trabalho interdisciplinar, nomeadamente a análise linguística mais detalhada das classes gramaticais estudadas, a consideração de outros elementos/estruturas linguísticas determinantes para a caracterização do sentimento em SN/ frase, o alargamento do corpus, o aumento do léxico específico do domínio e a afinação dos métodos automáticos de identificação de termos de sentimento em textos de opinião e determinação da sua intensidade.

Downloads

Não há dados estatísticos.

Referências

Abalada, S., Cabarrão, V. & Cardoso, A. 2010. Proposta de Classificação Semântica de Unidades Lexicais Multipalavra Nominais. In: Textos Seleccionados do XXV Encontro Nacional da APL. Porto, 81-94.

Adam, J-M. 1997. Unités rédactionnelles et genres discursifs : cadre général pour une approche de la presse écrite. Pratiques, 94: 3-18.

Almatarneh, S. & Gamallo, P. 2018. A Comparative Study of Polarity Lexicons to Identify Extreme Opinions. In: Proceedings of SNAMS 2018, Fifth International Conference on Social Networks Analysis, the Second International Workshop on Advances in Natural Language Processing (ANLP 2018) Management and Security. Valencia, Spain, 296-301.

Antunes, P. 2015. Sentiment Analysis in Financial News. Dissertação de Mestrado. Porto: FEP.

Baccianella, S., Esuli, A. & Sebastiani, F. 2010. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In: Proceedings of the Seventh conference on International Language Resources and Evaluation. Valletta, Malta, 2200-2204.

Benamara, F., Taboada, M. & Mathieu, Y. 2017. Evaluative Language Beyond Bags of Words: Linguistic Insights and Computational Applications. Computational Linguistics. 43(1): 201-264.

Biber D, Finegan E. 1989. Styles of stance in English: lexical and grammatical marking of evidentiality and affect. Text. 9: 93–124.

Calzolari, N. , Fillmore, C. J., Grishman, R., Ide, N., Lenci, A. , MacLeod, C. & Zampolli, A. 2002. Towards Best Practice for Multiword Expressions in Computational Lexicons. In: Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002). Las Palmas, Canary Islands, 1934-1940.

Cambria, E. & Hussain, A. 2015. Sentic computing: a common-sense-based framework for concept-level sentiment analysis. Vol. 1. Dordrecht: Springer.

Carvalho, P. & Silva, M.J. 2015. Sentilex-pt: principais características e potencialidades. In: A. Simões, A. Barreiro, D. Santos, R. Sousa-Silva & S.E.O. Tagnin (Eds.). Linguística, Informática e Tradução: Mundos que se Cruzam. Oslo Studies in Language. 7(1): 425–438.

Carvalho, P., Sarmento, L., Silva, M. J., Oliveira, E. 2009. Clues for Detecting Irony in User-Generated Contents: Oh...!! It’s “so easy” ,-). In: Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion. Hong Kong, China, 53-56.

Charaudeau, P. 2006. Discours journalistique et positionnements énonciatifs. Frontières et derives. Semen, 22. 1-9. Retirado, a 20 de maio de 2017, da Internet: https:// journals.openedition.org/semen/2793.

Cunha, G. X. 2012. A articulação discursiva do gênero artigo de opinião à luz de um modelo modular de análise do discurso. Filologia Linguística Portuguesa. 14(1): 73- 97.

Das, S. & Chen, M. 2001. Yahoo! for Amazon: Extracting market sentiment from stock message boards. In: Proceedings of the 8th Asia Pacific Finance Association Annual Conference (APFA 2001), Bangkok, Thailand.

Dave, K., Lawrence, S. & Pennock, D.M. 2003. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews. In: Proceedings of International Conference on World Wide Web (WWW-2003).

Ekman, P. 1999. Basic emotions. In: T. Dalgleish & M. Power (Eds.). Handbook of cognition and emotion. Chichester: John Wiley & Sons, 45-60.

Ferreira, I. 2013. Para o estudo semântico dos adjetivos adverbiais temporais e aspetuais do Português Europeu. Tese de Doutoramento. Porto: FLUP.

Fiorin, J.L. 2007. Paixões, afetos, emoções e sentimentos. CASA: Cadernos de Semiótica Aplicada. 5 (2), 1-15. Retirado, a 20 de setembro de 2017, da Internet: file:///C:/Users/ Fatima%20Silva/Downloads/541-1486-1-PB%20(1).pdf.

Forte, A.C. & Brazdil, P. 2016. Determining the Level of Clients’ Dissatisfaction from Their Commentaries. In: J. Silva, R. Ribeiro, P. Quaresma, A. Adami & A. Branco (Eds.). Computational Processing of the Portuguese Language. PROPOR 2016. Lecture Notes in Computer Science. Vol. 9727. New York: Springer, 74-85.

Freitas, C. (2013). Sobre a construção de um léxico da afetividade para o processamento computacional do português. Revista Brasileira de Linguística, 13 (4), 1031-1059.

Goldberg, A. & Zhu, J. 2006. Seeing stars when there aren’t many stars: Graph-based semisupervised learning for sentiment categorization. In TextGraphs: HLT/NAACL Workshop on Graph-based Algorithms for Natural Language Processing, 45-52.

Gómez Molina, J. R. 2004. Las unidades léxicas en español. Carabela, 56: 27-50.

Hung, C., & Lin, H-K. 2013. Using objective words in SentiWordNet to improve sentiment classification for word of mouth. IEEE Intelligent Systems. 28(2): 47-54.

Hunston S, Thompson G. 2000. Evaluation: an introduction. In: S. Hunston & G. Thompson (Eds.). Evaluation in Text: Authorial Distance and the Construction of Discourse, Oxford: OUP. 1–27.

Kodratoff, Y. & Michalski, R.S. 2014. Machine learning: an artificial intelligence approach. Vol. 3. Massachusetts: Morgan Kaufmann.

Levin, B. 1993. English Verb Classes and Alternations: A Preliminary Investigation. Chicago: University of Chicago Press.

Li, G. & Liu, F. 2012. Application of a clustering method on sentiment analysis. Journal of Information Science. 38(2), 127–139.

Liu, B. 2012. Sentiment Analysis and Opinion Mining: Synthesis Lectures on Human Language Technologies. California: Morgan & Claypool Publishers.

Liu, B. 2015. Sentiment analysis: Mining opinions, sentiments, and emotions. Cambridge: Cambridge University Press.

Marques-Lucena, M., Sarraipa, J., Fonseca, J., Grilo, A., Jardim-Gonçalves, R. 2015. Framework for customers’ sentiment analysis. In: P. Angelov, K.T. Atanassov, L. Doukovska, M. Hadjiski, V. Jotsov, J. Kacprzyk, N. Kasabov, S. Sotirov, E. Szmidt, S. Zadrożny (Eds.). Intelligent ystems’2014. Advances in Intelligent Systems and Computing. Vol 322. Cham: Springer, 849-860.

Marrafa, P. 2004. Extending WordNets to Implicit Information. In: M. T. Lino, M. F. Xavier, F. Ferreira, R. Costa & R. Silva (Eds.). Proceedings of LREC 2004 - International Conference on Language Resources and Evaluation. Paris: ELRA - European Language Resources Association, 1135-1138 (CD-ROM).

Martin, J.R. & White, P.R.R. (2005). The Language of Evaluation. New York: Palgrave. Mathieu, Y. 2005. Annotation of Emotions and Feelings in Texts. In: J. Tao, T. Tan & R. W. Picard (Eds.). Affective Computing and Intelligent Interaction. First International Conference, ACII 2005, Beijing, China, October 22-24, 2005, Proceedings, 350-357.

McCarthy, M. 1990. Vocabulary. Oxford: Oxford University Press.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S. & Dean, J. 2013. Distributed representations of words and phrases and their compositionality. In: C. Burges, L. Bottou, M. Welling, Z. Ghahramani & K.Q. Weinberger (Eds.). Advances in Neural Information Processing Systems 26 (NIPS 2013), 3111-3119.

Nasukawa, T. & Yi, J. 2003. Sentiment analysis: Capturing favorability using natural language processing. In: Proceedings of the 2nd international conference on Knowledge capture. New York: ACM, 70-77.

Nattinger, J. R., & DeCarrico, J. S. 1992. Lexical phrases and language teaching. Oxford: Oxford University Press.

Neviarouskaya, A., Prendinger, H. & Ishizuka, M. (2009). Semantically distinct verb classes involved in sentiment analysis. In: Weghorn, H. & Isaías, P. (Eds.). Proceedings of the IADIS International Conference on Applied Computing, 27-34. Retirado, a 28 junho de 2017, da Internet: http://www.iadisportal.org/applied-computing-2009- proceedings.

Pang, B. & Lee, L. 2008. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval. 2(1-2): 1-135. Retirado, a 28 junho de 2017, da Internet: http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf.

Pang, B., Lee, L., & Vaithyanathan, S. 2002. Thumbs up?: Sentiment classification using machine learning techniques. EMNLP ‘02 - Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol.10, 79-86.

Pennington, J., Socher, R. & Christopher, M. 2014. Glove: Global vectors for word representation. In: Proceedings of the 2014 conference on empirical methods in natural language processing. Stroudsburg: The Association for Computational Linguistics, 1532-1543.

Polanyi, L. & Zaenen, A. 2006. Contextual valence shifters. In: J.G. Shanahan, Y. Qu, Yan & J. Wiebe (Eds.). Computing attitude and affect in text: Theory and applications. Dordrecht: Springer, 1-10.

Ranchhod, E. M. M. 2003. O Lugar das Expressões Fixas na Gramática do Português. In: I. Castro & I. Duarte (Eds.). Razões e Emoção. Miscelânea de estudos oferecida a Maria Helena Mira Mateus. Lisboa: Imprensa Nacional - Casa da Moeda, 239-254.

Ravi, K. & Ravi, V. 2015. A survey on opinion mining and sentiment analysis: tasks, approaches and applications. Knowledge-Based Systems. 89: 14-46.

Rodrigues, R. H. 2005. Os gêneros do discurso na perspectiva dialógica da linguagem: a abordagem de Bakhtin. In: J. L. Meurer, A. Bonini & D. M. Roth (Eds.). Gêneros: teorias, métodos, debates. São Paulo: Parábola Editorial, 154–183.

Russell, J.A. 1980. A circumplex model of affect. Journal of Personality and Social Psychology. 39: 1161-1178.

Sag, I.A., Baldwin, T., Bond, F., Copestake, A. & Flickinger D. 2002. Multiword Expressions: A Pain in the Neck for NLP. In: Gelbukh A. (Ed.) Computational Linguistics and Intelligent Text Processing. CICLing 2002. Lecture Notes in Computer Science.Vol. 2276. Berlin: Springer, 189-206.

Silva, F, Leal, A., Silvano, P., Ferreira, I. & Oliveira, F. 2018. Crítica cinematográfica: análise linguístico-textual. In: J. Veloso, P. Silvano, J. Guimarães & R. Sousa e Silva (Eds.). A linguística em diálogo: volume comemorativo dos 40 anos do Centro de Linguística da Universidade do Porto. Porto: FLUP / CLUP, 431-458.

Silva, F., Leal, A., Ferreira, I., Oliveira, F. & Silvano, P. 2015. Marcas linguísticas no texto de apreciação crítica. In Literatura e Gramática: um diálogo infinito. Lisboa: Associação de Professores de Português.

Silva, M. J. & Team, R. 2011. Notas sobre a realização e qualidade do twitómetro. Technical report. Lisboa: FCUL/LASIGE.

Silva, M. J., Carvalho, P. & Sarmento, L. 2012. Building a Sentiment Lexicon for Social Judgement Mining. In: H. Caseli, A. Villavicencio, A. Teixeira & F. Perdigão. (Eds.). International Conference on Computational Processing of the Portuguese Language (PROPOR). Berlin: Springer, 218-228.

Silva, M. J., Carvalho, P., Costa, C. & Sarmento, L. 2010. Automatic Expansion of a Social Judgment Lexicon for Sentiment Analysis. Relatório Técnico: DI–FCUL–TR–2010–08. Lisboa: FCUL.

Taboada, M. & Trnavac, R. 2013. Nonveridicality and Evaluation Theoretical, Computational and Corpus Approaches. Brill Academic.

Taboada, M. 2016. Sentiment Analysis: An Overview from Linguistics. Annual Review of Linguistics 2016. 2(1): 325-347.

Taboada, M., Anthony, & Voll, K. 2006. Methods for creating semantic orientation dictionaries. In: N. Calzolari, K. Choukri, A. Gangemi, B. Maegaard, J. Mariani, J. Odijk & D. Tapias (Eds.). Proceedings of Fifth International Conference on Language Resources and Evaluation (LREC 2006). Genoa, Italy, 427-432.

Taboada, M., Brooke, J., Tofiloski, M., Voll, K. & Stede, M. 2011. Lexicon-Based Methods for Sentiment Analysis. Association for Computational Linguistics. 37(2): 267-307.

Thornbury, S. 2007. How to teach vocabulary. Malaysia: Pearson, Longman.

Tong, R. M. 2001. An operational system for detecting and tracking opinions in on- line discussion. In: Working Notes of the SIGIR Workshop on Operational Text Classification. New Orleans, 1-6.

Turney, P. D. 2002. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, 417-424.

Witten, I. H. & Frank, E. 2016. Data Mining: Practical machine learning tools and techniques. San Francisco: Morgan Kaufmann.

Downloads

Publicado

2019-06-03