Preston So Of Oracle: Enquanto as coisas são melhores para o desenvolvimento de interfaces de voz, ainda há um caminho a seguir para aqueles que os usam

Estou acompanhando a adoção da tecnologia de voz desde que recebi meu primeiro dispositivo de eco em relação ao Dia de Ação de Graças de 2014 e iniciei 20% das minhas frases com «Alexa». E de vez em quando eu gosto de ter convidados se juntando a mim nesta série para ver onde as coisas estão hoje com esses dispositivos e como estão sendo usados. Mas eu realmente não me concentrei em projetar conteúdo de voz antes, e é por isso que fiquei realmente empolgado em falar com Preston So. Preston é diretor sênior de estratégia de produtos da Oracle, mas mais importante para essa conversa, ele também é autor do livro «Conteúdo da voz e usabilidade».

Abaixo está uma transcrição editada de nossa recente conversa ao vivo do LinkedIn. Clique no player do SoundCloud incorporado para ouvir a conversa completa.

Brent Leary: Como a pandemia impactou o papel da voz de um desenvolvimento de conteúdo no contexto da transformação digital?

Preston So: Esta é uma pergunta realmente interessante. Vou responder isso de dois ângulos diferentes. A primeira é que, quando começamos a trabalhar e acabei de perceber que ainda não mencionei este estudo de caso, mesmo sobre isso, no programa é que há 5 ou 6 anos, tive a oportunidade de trabalhar em uma equipe que construiu Askgeorgia.gov, que foi a primeira interface de voz para os moradores do estado da Geórgia. Além disso, foi realmente uma das primeiras interfaces de voz orientadas por conteúdo ou informativas existentes.

As duas razões pelas quais queríamos construir isso e pilotar esse projeto deveriam servir a essa demografia, que mencionei anteriormente são muitas vezes ignoradas por ou muitas vezes não atendidas também pelos sites que construímos. E isso é especialmente imprensa, pois sabemos uma preocupação muito premente no setor público, uma preocupação muito, muito urgente no governo local e nos dois públicos que queríamos servir a palavra número um, idosos georgianos, que talvez não sejam capazes de necessariamente usar um site tão facilmente. Pode não ser necessariamente capaz de usar um computador tão rapidamente e também pode não necessariamente ter a mobilidade de poder viajar para um escritório do governo do condado ou um escritório de agência. Ao mesmo tempo, também queríamos nos concentrar em georgianos com deficiência. Aqueles que podem não ser capazes de usar um site tão rapidamente quanto aqueles que estão usando o site por meio de seu tipo visual de abordagem. E também aqueles que realmente não têm a capacidade também por causa dessas questões de mobilidade, com licença, de viajar para um escritório de agência e responder suas perguntas lá. Ao mesmo tempo, também estávamos lidando naqueles dias, é claro, e ainda continuamos hoje, a falta de orçamento, a natureza das correias de dinheiro da natureza dos governos estaduais e locais hoje, onde os orçamentos estão sendo cortados para a esquerda e direita e, muitas vezes, aquela linha direta Os tempos estavam crescendo e crescendo e crescendo ao telefone.

A razão pela qual eu trouxe este estudo de caso é que acho que a pandemia de coronavírus realmente ampliou como certas audiências enfrentam não apenas esses sistemas muito, muito problemáticos de opressão na sociedade, mas também realmente profundos Barreiras ao acesso às informações, conteúdo e transações de que precisam. E se você pensa, é claro, que foi mais impactado pelo impacto da pandemia e pelos efeitos da pandemia, são aqueles que são pessoas com deficiência ou aqueles que são idosos. E especialmente se você não consegue nem sair de casa, como você realmente obtém as informações necessárias? Então, acho que, de certa forma, é pré-salvo muito do trabalho que está acontecendo agora com a transformação digital hoje, onde muitas organizações estão percebendo agora, e isso está obviamente modulando por muito do trabalho que agora temos Visto no controle remoto, trabalhando em forças de trabalho distribuídas tudo isso, mas também agora a melhor forma de atender os clientes nesse ângulo B para C, como realmente garantirmos que aqueles que são nossos clientes, aqueles que são usuários, aqueles que são nossos dados demográficos reais Pode interagir com nosso conteúdo de maneiras que não exigem que eles possam fazer coisas que os colocam em perigo.

E acho que há várias coisas que aceleraram a esse respeito. O primeiro é ao longo do acesso à voz como vimos, acho que foi no ano passado, Smart Home Systems, vendas de alto-falantes inteligentes passaram pelo telhado. Quero dizer, agora é, 35% dos americanos agora têm um alto-falante inteligente em casa, mas também da mesma forma, também tivemos uma quantidade incrível de crescimento nos fones de ouvido e tecnologias de jogos. Então, fones de ouvido de realidade virtual, dispositivos vestíveis e estes realmente pressagiam, acho que a mudança de conteúdo para longe do meio escrito do meio visual, que estamos realmente acostumados nas últimas décadas em um tipo de contexto muito mais multifacetado, onde Agora, poderíamos estar interagindo com nosso conteúdo através de um Oculus Rifts ou através de nossos smartphones, através de nossa TV Samsung, através de nossos iPhones e nossos iPads, mas também, é claro, através de um Alexa Amazon e isso realmente meio que, para mim, acho que o A maior coisa que aconteceu com a pandemia de coronavírus é que ele realmente acelerou a chegada da época, onde as organizações agora precisam entender que não é mais apenas a web.

Não é apenas móvel, são 15 coisas diferentes. É, todas essas considerações diferentes e, se você está pensando em pensar na web e no celular, já está atrasado.

Progresso até o momento no desenvolvimento de conteúdo de voz

Brent Leary: Estávamos nós, onde você esperava que estivéssemos com a voz sendo um pedaço do canal de interação entre os consumidores e fornecedores?

Preston Então: sim e não. Eu acho que há do ponto de vista do criador, acho que sim. E o que quero dizer com isso é que, como mencionei anteriormente, temos essas ferramentas realmente ótimas que estão por aí, Botsociety essas novas startups que estão desenvolvendo ferramentas realmente amigáveis ​​para designers que permitem que você faça o tipo de antigo Dreamweaver ou Abordagem da primeira página da Microsoft para criar sites. Você leva isso a uma interface de voz e, de repente, não precisa escrever, digamos um código de hardware de nível muito baixo ou escrevendo, digamos processamento de linguagem natural ou entendimento de linguagem natural em um bot. Ao mesmo tempo, eu acho que há muito tempo e acho que não estamos realmente bem onde eu pensei que estaríamos neste momento, mas acho que muito disso também é porque a própria IA não está tão longe Junto como muitas pessoas necessariamente pensavam.

Uma das razões para isso é que estamos experimentando desta vez agora, onde muitas das interfaces de voz que construímos são fundamentalmente ainda claramente digitais automatizadas que realmente não têm um meio real de comunicar de uma maneira que realmente podemos nos ouvir. Um exemplo disso é que você olha para algumas das comunidades bilíngues no sul do Texas ou na cidade de Nova York e ouve pessoas literalmente alternando entre espanhol e inglês no meio de um sentença ou pessoas que sim, exatamente pessoas que estão em Mumbai ou em Nova Délhi que alteraram entre hindi e inglês no meio da frase ou uma mudança entre Marathi e inglês no meio da frase.

E essas são populações que não se ouvem dentro dessas interfaces de voz, muito menos todas as comunidades de cor que também não sentem que podem ouvir seu próprio tipo de dialetos e seu próprio tipo de coloquialismos e seu próprio tipo de maneiras de falar nessas interfaces de voz. Há alguns passos interessantes na direção certa que meio que vão parcialmente lá, mas não na verdade. Quero dizer, o primeiro, é claro, acho que fiquei muito surpreso e feliz com as maneiras que estão fazendo em termos de permitir que você configure as vozes que leem essas declarações como a polícia relatadas com antecedência ou veículo no ombro ou mantenha deixou.

Também há novos serviços que estão surgindo como a Amazon Polly, a Amazon Polly é realmente interessante porque recebe algumas contribuições de textos escritos, como um parágrafo ou uma página ou o que quer que seja, e isso o lerá em um sotaque britânico ou um sotaque sul-africano ou um sotaque americano, uma voz feminina e todo tipo de vários tipos de medidores com os quais você pode torcer e brincar. Mas ainda fundamentalmente, é claro, são textos escritos que não foram necessariamente otimizados para a fala.

Não há maneira algorítmica de transformar textos escritos em algo que está escrito em um estilo mais falado, mas também há esse tipo de grande preocupação que eu tenho, que é quando se trata de interfaces de voz está sendo realmente Ótimo e chegar a esse ponto de excelência que esperamos, de certa forma, acho que é quase impossível. Eu acho que é quase uma afirmação paradoxal dizer que as interfaces de voz estarão nesse nível de comportamento ideal para todos. Porque a maneira como uma interface de voz me parece será muito diferente da maneira como uma interface de voz soa para outra pessoa. Eu acho que isso é realmente gênero pelo fato de que, se você olhar para Alexa, Siri ou Cortana ou Google Home, em geral a voz padrão, a identidade padrão que sai dessa interface de voz é alguém que soa muito como um branco reto cisgênero Mulheres que falam com o dialeto geral americano ou americano médio.

E não há necessariamente muito espaço para pessoas que são falantes de inglês como segunda língua ou pessoas que são comutadores de código. Como mencionei antes, que alternou entre inglês e espanhol, bem no meio da frase ou comunidades trans e não binárias que alternaram entre modos de fala retos e retos em termos de como eles realmente interagem entre si até ouvirmos aqueles que os Tipo de alternar até ouvirmos esse tipo de realidade que refletimos nessas interfaces de voz. Acho que não alcançamos esse objetivo elevado.

O que me preocupa hoje é que estamos enfrentando uma situação sem precedentes com a pandemia onde muitos desses agentes de atendimento ao cliente, muitos desses funcionários de atendimento ao cliente estão perdendo seus empregos em favor de Uma abordagem de interface de voz mais automatizada e mecânica. Mas a maioria dessas pessoas que estão perdendo seus empregos que estão sendo demitidas, que estão sendo substituídas por interfaces de voz nessas empresas, geralmente são pessoas que vivem no sul global, as pessoas geralmente das Filipinas ou da Indonésia Ou a Índia que fala inglês de maneiras que também devem se refletir nas interfaces de voz que temos hoje, se assim o quisermos.

Alguém que é um americano filipino deve poder ouvir uma interface de voz que soa filipina americana e também em uma interface de voz. Então, embora eu pense que, de certa forma, as coisas ficaram realmente ótimas para designers de interface de voz, acho Até pode chegar a esse ponto.

O futuro próximo do design de conteúdo de voz

Brent Leary: como são os próximos dois anos para o design de conteúdo de voz?

Preston Então: eu certamente acho que haverá melhorias em certos aspectos. Definitivamente, haverá melhorias quando se trata do que eu chamo de democratização do design da interface de voz. Se você é alguém que não sabe como criar um site, se você é alguém que não escreve código, se você é alguém que realmente não faz nada relacionado à ciência da computação, você pode hoje Crie uma interface de voz, que é realmente a primeira vez que já fizemos isso antes.

Acho que ainda estamos muito focados na idéia de interfaces de voz como algo que é usado para desligar nossas luzes, quando terminamos com elas para ligar para iniciar e pré-aquecer se você ‘ Tenho um sistema doméstico inteligente. Deixe alguém na porta, que é o comercial mais recente que eu já vi. E outras coisas que não são realmente esse tipo de concierge completo, que as interfaces de voz deveriam ser, certo?

Se você olhar para algumas das mídias mais aspiracionais sobre interfaces de voz, por exemplo, você olha para 2001: um odisseys espacial Hal ou olha para uma estrela, a voz de Majel Barrett em Star Trek, ou se você olhar especialmente alguns dos tipos de episódios de Black Mirror que foram lançados recentemente, não é apenas que queremos um assistente que possa nos conversar sobre fazer essa transação ou essa transação ou fazer essa tarefa em nosso nome.

Também queremos que eles possam agendar potencialmente nosso dia, fazer coisas muito mais complexas e multifacetadas. Por exemplo, não quero apenas comprar ingressos para um filme. Não quero apenas comprar ingressos para ver Cruella ou nas alturas. Eu realmente quero descobrir esse filme. Eu quero descobrir o que foi essa pontuação no Rotten Tomatoes. Eu quero descobrir quem são o elenco e a equipe. E muitas vezes essas interfaces de voz ainda não estão equipadas com esse tipo de capacidade.

Há um paradoxo; Há um conflito realmente interessante aqui, porque agora vimos um pouco de segmentação acontecendo. Por exemplo, se você for, digamos os cinemas da AMC, certo? Ou você vai para a Hilton Hotels ou a Delta Airlines, se quiser perguntar a Delta sobre Hilton, ou perguntar aos cinemas da AMC sobre algum tipo de outra cadeia de teatro, eles não podem ajudá-lo.

O que estamos vendo aqui é esse conflito interessante entre como esses assistentes de voz e interfaces de voz estão tentando competir entre si, para serem cada vez mais amplos em termos de cobertura de informações em todo o Web e transações em toda a web. Mas também o fato de que pediu para onde ir, por exemplo, só responderá às suas perguntas sobre o estado da Geórgia ou tópicos relevantes para os cidadãos da Geórgia, para os moradores da Geórgia. Então é uma pergunta realmente interessante. Acho que veremos algum tipo de fase da próxima fase de interfaces de voz aqui em um futuro muito próximo que tentará lavar algumas dessas linhas na areia entre considerações tópicas e transacionais. E também começaremos a ver muito mais interfaces de voz orientadas por conteúdo.

Isso faz parte da série de entrevistas individuais com líderes de pensamento. A transcrição foi editada para publicação. Se for uma entrevista de áudio ou vídeo, clique no player incorporado acima ou assine via iTunes ou via Stitcher.

Ir arriba