Artigo completo - Open Access.

Idioma principal | Segundo idioma

Tipografia modulada pela fala: avaliação de um algoritmo de geração de prosódia visual em textos

Speech-modulated typography: evaluation of an algorithm for generating visual prosody in texts

Pataca, Caluã de Lacerda ; Costa, Paula D. Paro ;

Artigo completo:

Ler um texto, mesmo que silenciosamente, depende não só de estruturas cognitivas de processamento de imagens mas, também, daquelas que tipicamente decodificam sons. A partir dessa constatação, estudos recentes têm explorado a representação gráfica na tipografia de elementos da prosódia, gerando novas ferramentas didáticas, tecnologias assistivas ou mesmo possibilidades expressivas inovadoras. Neste artigo descrevemos um modelo computacional capaz de extrair elementos acústicos do áudio de uma fala e representá-los graficamente na tipografia do texto. O artigo também apresenta os resultados de uma avaliação desse modelo em um exercício de card-sorting com 34 leitores onde medimos quão consistentes entre os participantes foram as interpretações dessas representações gráficas de prosódia, especialmente em relação à dedução de emoções da expressão vocal por meio de sua representação indireta na tipografia. Encontramos indícios estatisticamente significantes de que houve coerência nessas interpretações, mas também que os parâmetros (i.e., associação das features acústicas de amplitude, frequência fundamental e duração de sílaba com os atributos tipográficos de peso, inclinação e largura horizontal, respectivamente), na forma como usados no modelo, têm desempenhos desiguais quando considerados diferentes classes de emoção na voz. Sugerimos que estudos futuros investiguem essa assimetria, explorando maneiras de reduzi-la.

Artigo completo:

Reading a piece of text, even when done silently, depends not only on the cognitive structures typically involved in the processing of images but also on those that would typically be involved in the decoding of sounds. From this finding, recent studies have explored ways of representing certain elements of prosody graphically in the typographic form, creating innovative teaching tools, assistive technologies or even new possibilities of expression. In this paper, we describe a computational model capable of extracting acoustic features from a recording of a spoken word performance and representing them graphically in its text’s typography. The article also presents the results of an evaluation of this same model in a card-sorting exercise with 34 readers in which we measured how consistent the participants interpreted these graphic representations of prosody, especially regarding their use for inferring emotions present in the recorded voice through its indirect representation in typography. We found statistically significant evidence that there was consistency in these interpretations, but also that the parameters (i.e., association of acoustic features of amplitude, fundamental frequency and syllable duration with the typographic attributes of weight, inclination and horizontal width, respectively), as used in the model, have differing performances when considering different classes of emotion in the voice. We suggest that future studies investigate these differences, exploring ways to reduce them.

Palavras-chave: prosódia visual, tipografia, computação afetiva, análise de fala, design generativo,

Palavras-chave: visual prosody, typography, affective computing, speech analysis, generative design,

DOI: 10.5151/9cidi-congic-4.0314

Referências bibliográficas
  • [1] Bessemans, A. (2017). Expressive typography to improve communication. Em ATypI Montreal, 2017. Disponível em: .
  • [2] Costa, P. D. P. (2015). Two-Dimensional Expressive Speech Animation. Tese (Doutorado em Engenharia Elétrica e de Computação) — Faculdade de Engenharia Elétrica e de Computação, Universidade Estadual de Campinas. Campinas.
  • [3] Ekman, P. (1970). Universal facial expressions of emotion. Em California Mental Health Research Digest, 8 (4),151-158.
  • [4] Koolagudi, S. G.; Rao, K. S. (2012). Emotion recognition from speech: a review. Em International Journal of Speech Technology, v. 15, n. 2, 6.
  • [5] Microsoft. (2018). OpenType Font Variations Overview. [S. l.], 15 ago. 2018. Disponível em: https://docs.microsoft.com/en-us/typography/opentype/spec/otvaroverview. Acesso em: 29 jun. 2019.
  • [6] Nawaz, A. (2012). A comparison of card-sorting analysis methods. Em The 10th Asia Pacific conference on computer human interaction (APCHI2012). [s.n.]. Disponível em: .
  • [7] Rao, K. S. et al. (2010). Characterization of emotions using the dynamics of prosodic features. Em International conference on speech prosody. Chicago, EUA.
  • [8] Santos, G. (2006). Card sort technique as a qualitative substitute for quantitative exploratory factor analysis. Corporate Communications: An International Journal, Vol. 11 Iss 3 pp. 288 - 302, 2006.
  • [9] Seidenberg, M. (2017). Language at the Speed of Sight: How We Read, Why So Many Can’t, and What Can Be Done About It. 1st. ed. Nova Iorque: Basic Books. Versão Kindle.
  • [10] Wolfel, M.; Schlippe, T.; Stitz, A. (2015). Voice driven type design. Em 2015 International Conference on Speech Technology and Human-Computer Dialogue (SpeD). [S.l.: s.n.].
Como citar:

Pataca, Caluã de Lacerda; Costa, Paula D. Paro; "Tipografia modulada pela fala: avaliação de um algoritmo de geração de prosódia visual em textos", p. 1882-1890 . In: Anais do 9º CIDI | Congresso Internacional de Design da Informação, edição 2019 e do 9º CONGIC | Congresso Nacional de Iniciação Científica em Design da Informação. São Paulo: Blucher, 2019.
ISSN 2318-6968, DOI 10.5151/9cidi-congic-4.0314

últimos 30 dias | último ano | desde a publicação


downloads


visualizações


indexações