Bryan Catanzaro, da NVIDIA-AI conversacional de certa forma é o desafio da IA ​​final

Muitos de vocês que gostam de jogos ou edição de vídeo sérios conhecem a Nvidia como criadores da principal tecnologia de processamento de gráficos no mercado. Mas a Nvidia também é líder nas áreas de inteligência artificial e aprendizado profundo; Especificamente, na maneira como essas tecnologias podem melhorar a maneira como experimentamos gráficos, síntese de texto e vídeo e IA de conversação.

Alguns de seus trabalhos foram exibidos em uma série de vídeos que eles montaram chamados I Am Ai, que são uma visão convincente do que é (e o que estará) disponível para melhorar a maneira como nós experimente o mundo-e uns aos outros. E, recentemente, tive a oportunidade de ter uma conversa ao vivo do LinkedIn com Bryan Catanzaro, vice-presidente, aplicou pesquisas de aprendizado profundo na Nvidia, para ouvir mais sobre seu trabalho com a IA para reimaginar como experimentamos vistas e sons.

Abaixo está uma transcrição editada de uma parte da nossa conversa. Clique no player do SoundCloud incorporado para ouvir a conversa completa.

Certifique-se de assistir aos clipes incorporados, pois eles ajudam a enquadrar nossa conversa.

Brent Leary: Essa voz naquele vídeo parecia um ser humano real para mim. Você está acostumado a ouvir como Alexa e Siri, e antes disso, era como, você mesmo queremos que não queira falar sobre as vozes antes, mas que realmente soou como um ser humano com, com humano inflexão e alguma profundidade. É isso que estamos olhando quando você fala sobre reinventar gráficos e reinventar a tecnologia de voz e usar a tecnologia mais recente, incluindo IA e aprender profundo não apenas mudar a aparência dos gráficos, mas mudar a sensação e o som de uma máquina para fazê-lo Parece mais com um de nós.

Bryan Catanzaro: Devo garantir que você entenda que, embora essa voz tenha sido sintetizada, ela também foi direcionada de perto. Então, eu não diria que isso era um botão, sistema de síntese de fala. Como você pode usar quando você fala com um assistente virtual. Em vez disso, era uma voz controlável que nossos algoritmos permitem que os produtores do vídeo criem. E uma das maneiras pelas quais eles fazem isso é modelar a inflexão e o ritmo e a energia que desejam uma parte específica do vídeo da narração. E então, então eu diria que não é apenas uma história sobre a IA melhorar, mas também é uma história sobre como os humanos trabalham mais de perto com a IA para construir as coisas e ter a capacidade de fazer vozes sintéticas controláveis ​​dessa maneira.

Acho que isso abre novas oportunidades de síntese de fala em entretenimento e artes, eu acho. Eu acho que é emocionante, mas é algo que você e seu público devem entender que foi realmente muito intimamente dirigido por uma pessoa. Agora, é claro, estamos trabalhando duro em algoritmos capazes de prever toda essa humanidade lá, o ritmo, a inflexão, o tom. E acho que veremos alguns avanços incríveis nisso nos próximos anos, onde podemos ter um botão totalmente, sistema de síntese de fala que tem a inflexão certa para acompanhar o significado do texto, porque quando Você fala muito do significado é transmitido através da inflexão da sua voz, não apenas do significado das palavras que você escolhe.

E, se tivermos modelos capazes de entender o significado dos textos, como alguns desses modelos de linguagem incríveis aos quais eu estava me referindo anteriormente, devemos ser capazes de usá-los para direcionar a síntese de fala de uma maneira que tenha significado. E isso é algo que estou muito empolgado. é interessante.

Sinto que temos um viés cultural, talvez seja específico para os Estados Unidos. Não tenho certeza, mas temos esse viés cultural que os computadores não podem falar de maneira humana. E talvez seja um pouco de Star Trek: a próxima geração em que os dados eram como uma máquina de computação incrível, e ele poderia resolver qualquer problema e inventar novas teorias da física, mas ele nunca poderia falar da mesma maneira que um humano poderia, ou Talvez ele volte para, você sabe.

Brent Leary: Spock, talvez.

Bryan Catanzaro: estava desanimador como a dele, sua voz, como era assustadora, você sabe. E assim temos 50 anos, várias gerações de cultura nos dizendo que um computador não pode falar de maneira humana. E eu realmente acho que não é esse o caso. Acho que podemos fazer um computador falar de uma maneira mais humana e, e, e o faremos. E também acho que os benefícios dessa tecnologia serão ótimos para todos nós.

Brent Leary: a outra coisa que se destacou nisso, naquele clipe foi a Amelia Earhart, com sua foto parecendo ganhar vida. Você pode falar sobre, acho que isso faz parte de reinventar gráficos usando a IA.

Bryan Catanzaro: Sim, está certo. A NVIDIA Research está realmente envolvida em muitas tecnologias para sintetizar basicamente vídeos e sintetizar imagens usando inteligência artificial. E esse é um exemplo, você viu um em que a rede neural estava colorizando uma imagem, meio que nos dando novas maneiras de olhar para o passado. E quando você pensa sobre isso, você sabe, o que está envolvido em colorizar uma imagem. A IA precisa entender o conteúdo da imagem para atribuir possíveis cores a elas, como, por exemplo, a grama é geralmente verde, mas se você não sabe onde está a grama, não deve colorir nada verde e As abordagens tradicionais para colorizar as imagens foram, eu diria um pouco avesso ao risco. Mas à medida que a IA fica melhor para entender o conteúdo de uma imagem e quais objetos existem e como os objetos se relacionam, pode fazer muito melhor para atribuir cores possíveis à imagem que o traz à vida.

Esse é um exemplo, esse problema de colorização da imagem. Mas acho que naquele vídeo, vimos vários outros exemplos em que conseguimos tirar imagens e depois animá-las de várias maneiras.

Síntese condicional visual

Uma das tecnologias em que estamos realmente interessados ​​é, é chamada de síntese de vídeo condicional, onde você pode criar um vídeo baseado em Uma espécie de esboço e, você sabe, pois, para algo assim, o que você faria é se opor ao reconhecimento que analisa a estrutura dos objetos. Por exemplo, um rosto, e aqui estão os olhos e aqui está o nariz e, em seguida, atribui uma espécie de posições ao objeto e tamanhos.

E isso se torna tipo de desenho animado, uma criança pode desenhar com uma figura de bastão. E então o que você faz é enviar isso para outra rotina que anima essa figura e faz a pessoa mover a cabeça ou sorrir ou, ou conversar com textos que queremos animar uma pessoa falando com um determinado texto enquanto podemos fazer um modelo que prevê como o modelo de figura de palito evoluirá como, como a pessoa que está falando. E então, uma vez que temos esse tipo de desenho de figuras animadas, que mostra como a pessoa deve se mover, então o colocamos através de uma rede neural que sintetiza um vídeo disso e, e sai da imagem inicial que tem, A aparência da pessoa e do fundo e assim por diante, e depois a anima através desse tipo de animação de figuras para fazer o vídeo.

E chamamos essa geração de vídeo condicional, porque existem muitos vídeos diferentes que você pode produzir a partir da mesma figura. E assim, o que queremos fazer é escolher um que parece plausível condicionado, em algum tipo de outra informação, como talvez o texto que a pessoa esteja falando, ou talvez algum tipo de animação que queremos criar. E a geração de vídeos condicionais é uma idéia muito poderosa e é algo que eu acho que com o tempo evoluirá para uma nova maneira de gerar gráficos, uma nova maneira de renderizar e criar gráficos.

Brent Leary: Existe até um pedaço desse vídeo em que a pessoa basicamente disse, desenhe isso e realmente começou a ser desenhado.

Bryan Catanzaro: certo. O poder do aprendizado profundo é que é uma maneira muito flexível de mapear de um espaço para outro. E assim, nesse vídeo, estamos vendo muitos exemplos disso. E este é outro exemplo, mas do ponto de vista da tecnologia de IA, eles são todos parecidos, porque o que estamos fazendo é tentar aprender um mapeamento que vai de X a Y. E, neste caso, estamos tentando Para aprender um mapeamento que passa de uma descrição de texto da cena para uma figura de bastão, um desenho animado daquela cena. Digamos que eu disse um lago cercado por árvores nas montanhas. Quero que o modelo entenda que as montanhas vão ao fundo e elas têm a certa forma.

E então, as árvores entram em primeiro plano e depois bem no meio, geralmente haverá um grande lago. É possível treinar um modelo baseado em mil ou um milhão de imagens de paisagens naturais e você tem anotações que mostram: qual é o conteúdo dessas imagens? Então você pode treinar o modelo para seguir para o outro lado e dizer, dado o texto, você pode criar uma espécie de desenho animado da figura de como a cena deve ser? Para onde vão as montanhas? Para onde vão as árvores? para onde vai a agua? E depois que você tem essa figura, você pode enviá-lo para um modelo que elabore isso para uma imagem. E, e assim foi isso que você viu naquele vídeo.

Avatares digitais e chamadas de zoom

Assista a este pequeno vídeo de como essa tecnologia será usada para tornar as chamadas de zoom uma experiência muito melhor no futuro próximo. Esse cenário tem um cara sendo entrevistado para um emprego por meio de uma chamada de zoom.

Brent Leary: O que foi legal nisso é que, no final, ele disse que a imagem dele foi gerada a partir de uma foto dele; E era a voz dele. Você poderia, na tela, poder ver o movimento da boca. A qualidade do áudio é ótima, e ele está sentado em uma cafeteria, que pode haver muito som acontecendo na cafeteria, mas não ouvimos nada desse som.

Bryan Catanzaro: Sim, bem, estávamos realmente orgulhosos dessa demonstração. Devo também observar que a demonstração ganhou o melhor em Show na Conferência Siggraph este ano, que é a maior conferência de gráficos do mundo. Esse modelo era um modelo de síntese de vídeo generalizado. Estávamos conversando mais cedo sobre como você pode tomar uma espécie de representação da figura de vara de uma pessoa e depois animá-la. Bem, uma das limitações dos modelos no passado é que você teve que treinar um modelo totalmente novo para todas as situações. Então, digamos se estou em casa, tenho um modelo. Se estou no café com um histórico diferente, preciso de outro modelo. Ou, se você quer fazer isso sozinho, precisaria de um modelo para si mesmo neste lugar, outro modelo para si mesmo, outro lugar, toda vez que criar um desses modelos, você deve capturar um conjunto de dados nesse local com talvez isso Conjunto de roupas ou óculos em ou qualquer outra coisa, e depois passa uma semana em um supercomputador treinando um modelo, e isso é muito caro, certo? Então a maioria de nós nunca poderia fazer isso. Isso realmente limitaria a maneira como essa tecnologia poderia ser usada.

Acho que a inovação técnica por trás dessa animação em particular foi que eles criaram um modelo generalizado que poderia funcionar com basicamente qualquer pessoa. Você só precisa fornecer uma foto sua, o que é barato o suficiente. Alguém pode fazer isso, certo? E se você for a um novo local ou estiver usando roupas ou óculos diferentes, ou o que for, naquele dia, poderá tirar uma foto. E então o modelo, porque é geral, é capaz de ressyntese sua aparência apenas usando essa foto como referência.

Eu acho isso muito emocionante. Agora, mais tarde naquele vídeo, eles também mudaram para um modelo de síntese de fala. Então, o que ouvimos naquele clipe era realmente o personagem principal falando com sua própria voz, mas mais tarde as coisas no café ficam tão barulhentas que ele acaba mudando para o texto. E então ele está apenas digitando e o áudio está sendo produzido por um de nossos modelos de síntese de fala.

Acho que dar às pessoas a oportunidade de se comunicar de novas maneiras apenas ajuda a aproximar as pessoas.

Brent Leary: AI conversacional, como isso vai mudar a maneira como nos comunicamos e colaboramos nos próximos anos?

Bryan Catanzaro: A principal maneira como os humanos se comunicam é através da conversa como você e eu estamos tendo agora, mas é muito difícil para os humanos ter uma conversa significativa com o computador, por várias razões . Uma é que não parece natural, certo? Como se parecer que você está falando com um robô, essa é uma barreira que inibe a comunicação. Não parece uma pessoa, não reage como uma pessoa e, obviamente, computadores hoje em dia, você sabe, a maioria dos sistemas que você e eu interagimos, não entendemos com o que os humanos podem entender. E, portanto, a IA conversacional, de certa forma, é o desafio final da IA. De fato, você pode estar familiarizado com o teste de Turing, Alan Turing, que é considerado por muitos como pai da inteligência artificial-ele estabeleceu a IA conversacional como o objetivo final da inteligência artificial.

Porque se você tiver uma máquina capaz de conversar de forma inteligente com um humano, basicamente resolveu qualquer tipo de pergunta de inteligência que possa imaginar, porque qualquer informação que os humanos têm, qualquer sabedoria, qualquer idéia Que os humanos criaram nos últimos milhares de anos, todos foram expressos através da linguagem. E isso significa que a linguagem é uma maneira geral o suficiente. É obviamente a única maneira de os humanos realmente comunicar idéias complicadas. E se somos capazes de fazer computadores capazes de entender e se comunicar de maneira inteligente e com baixo atrito, então parece que você está interagindo com a pessoa, então muitos problemas, acho que seremos capazes de resolver .

Acho que a IA conversacional continuará sendo um foco de pesquisa de todo o setor por um longo tempo. Eu acho que é um assunto tão profundo quanto todo o entendimento e conhecimento humano. Se você e eu estávamos tendo um podcast, digamos literatura russa, haveria muitas idéias especializadas que alguém com doutorado na literatura russa seria capaz de falar melhor do que eu, por exemplo, certo? Assim, mesmo entre os seres humanos, nossas capacidades em vários assuntos vão diferir. E é por isso que acho que a IA conversacional será um desafio que continua a nos envolver no futuro próximo, porque é realmente um desafio entender tudo o que os humanos entendem. E não estamos perto de fazer isso.

Isso faz parte da série de entrevistas individuais com líderes de pensamento. A transcrição foi editada para publicação. Se for uma entrevista de áudio ou vídeo, clique no player incorporado acima ou assine via iTunes ou via Stitcher.

Ir arriba