CLASSIFICATION TREE FOR THE STUDY OF CORRELATION BETWEEN VARIABLES IN LINGUISTIC USAGE DATA: CONSTRIBUTIONS OF ORANGE DATA MINING SOFTWARE

CONTRIBUIÇÕES DO SOFTWARE ORANGE DATA MINING

Authors

  • Monclar Guimarães Lopes Universidade Federal Fluminense

DOI:

https://doi.org/10.47456/4p6bwt61

Keywords:

Classification tree. Predictor and outcome variables. Language Usage.

Abstract

There is a basic prerogative from both the Sociolinguistic and Functionalist perspectives that phenomena undergoing variation and change do not occur randomly, but rather are motivated or conditioned by factors of a social, structural or cognitive nature. In this paper, we aim to show the potential contributions of the classification tree widget, available in the Orange Data Mining Software. The tool serves as a predictive method and, to this end, uses logistic regression calculations for the hierarchical description of how predictor variables potentially condition outcome variables. This statistical resource – also known by the term conditional inference regression tree (cf. Hothorn; Hornik; Zeileis, 2006; Speybroeck, 2012) – presents a user-friendly interface in Orange Data Mining, compared to the R language. As an illustration of the contribution of this tool to research in language usage, we describe the impact of three predictor variables on the instatiation of two linguistic constructions, both formed by the same sequence of elements – preposition sem + verb dicenci –, namely: the hypotactic adverbial negative modal or conditional clause (e.g.: ele saiu sem falar com ninguém); the discourse structuring marker of addition (e.g.: ele faltou hoje. Sem falar que, quando vem, sempre chega atrasado).

References

CUNHA, C. E.; CINTRA, L. F. L. Nova Gramática do Português Contemporâneo. 7ª. Ed. Rio de Janeiro: Lexikon, 2001.

ELY, L; CEZARIO, M. M. [Vai que] e a modalidade: uma análise baseada no uso sobre o domínio condicional. Soletras, n. 45, p. 151-168, 2023.

FIELD, A.; MILES, J.; FIELD, Z. Discovering Statistics Using T. London: Sage Publications Ltd., 2012.

FREITAG, R. M. K.; PINHEIRO, B. F. M. Modelo de árvore de inferência condicional para explicar usos linguísticos variáveis. In: CARVALHO, C. S.; LOPES, N. S.; RODRIGUES, A. (Org.). Sociolinguística e Funcionalismo. Vertentes e Interfaces. Salvador: Eduneb, 2020, p. 317-342.

FURTADO DA CUNHA, M. A. O modelo das motivações competidoras no domínio funcional da negação. Delta, São Paulo, v. 17, n. 1, p. 1-30, 2001.

HOSMER, D. W.; LEMESHOW, S. Applied Logistic Regression, 2nd ed. [S.I.]: New York; Chichester, Wiley, 2000.

HOTHORN, T.; HORNIK, K.; ZEILEIS, A. Unbiased Recursive Partitioning: A Conditional Inference Framework. Journal of Computational and Graphical Statistics 15, p. 651-675, 2006.

LACERDA, P. F. A. C. O papel do método misto na análise de processos de mudança em uma abordagem construcional: reflexões e propostas. Revista Linguística/Revista do Programa de Pós-Graduação em Linguística da Universidade Federal do Rio de Janeiro, Volume Especial, p. 83-101, 2016.

NEVES, M. H. M. A gramática do português revelada em textos. São Paulo: UNESP, 2018.

ROCHA LIMA, C. H. Gramática Normativa da Língua Portuguesa. 1a. Ed. Rio de Janeiro: José Olympio, 1972.

SANTANA, J. C.D. de.; NASCIMENTO, P. B. S. do. A negação no português falado da Matinha/BA: um estudo sociolinguístico. Letra Magna, [S.1], v. 14, p. 1-17, 2011.

SANTOS, M.; CEZARIO, M. M. Estudo cognitivo-funcional da formação da construção [Xque]conect no português. Gallaecia. Estudos de linguística portuguesa e galega. Santiago de Compostela, v. 1, p. 959-974, 2017.

SANTOS SILVA, T.; CEZARIO, M. M. Construcionalização e competição de conectores concessivos e concessivo-condicionais instanciados pelo esquema [Xque] em português. Odisseia, v. 4, n. especial, p. 132-153, 2019.

SPEYPROECK, N. Classification and regression trees. International Journal of Public Health, New York, V. 57, n. 1, p. 243-246, 2012.

TRAUGOTT, E. C. Discourse Structuring Markers in English. Philadelphia: John Benjamins, 2022.

TRAUGOTT, E. C.; DASHER, R. Regularity in Semantic Change. Cambridge: Cambridge University Press, 2002.

YAKOVENCO, L. C.; NASCIMENTO, C. A. R. A negação no português falado em Vitória/ES. (Con)Textos Linguísticos, Vitória, v. 10, n. 17, p. 122-138, 2016.

Published

02-07-2025

How to Cite

CLASSIFICATION TREE FOR THE STUDY OF CORRELATION BETWEEN VARIABLES IN LINGUISTIC USAGE DATA: CONSTRIBUTIONS OF ORANGE DATA MINING SOFTWARE: CONTRIBUIÇÕES DO SOFTWARE ORANGE DATA MINING. PERcursos Linguísticos, [S. l.], v. 15, n. 37, p. 46–67, 2025. DOI: 10.47456/4p6bwt61. Disponível em: https://periodicos.ufes.br/percursos/article/view/46519. Acesso em: 5 dec. 2025.