Como os modelos de machine learning podem dar previsões falsas, os pesquisadores geralmente os equipam com a capacidade de dizer a um usuário o quão confiante ele está sobre uma determinada decisão. Isso é especialmente importante em cenários de alto risco, como quando os modelos são usados para ajudar a identificar doenças em imagens médicas ou filtrar candidaturas a empregos.
Mas as quantificações de incerteza de um modelo só são úteis se forem precisas. Se um modelo diz que tem 49 por cento de confiança de que uma imagem médica mostra um derrame pleural, então 49 por cento das vezes, o modelo deve estar certo.
Pesquisadores do MIT introduziram uma nova abordagem que pode melhorar estimativas de incerteza em modelos de machine learning. O método deles não apenas gera estimativas de incerteza mais precisas do que outras técnicas, mas o faz de forma mais eficiente.
Além disso, como a técnica é escalável, ela pode ser aplicada a grandes modelos de aprendizado profundo que estão sendo cada vez mais implantados em assistência médica e outras situações críticas de segurança.
Essa técnica pode fornecer aos usuários finais, muitos dos quais não têm experiência em aprendizado de máquina, melhores informações que eles podem usar para determinar se devem confiar nas previsões de um modelo ou se o modelo deve ser implantado para uma tarefa específica.
“É fácil ver esses modelos se saindo muito bem em cenários em que são muito bons e, então, assumir que serão tão bons quanto em outros cenários. Isso torna especialmente importante impulsionar esse tipo de trabalho que busca calibrar melhor a incerteza desses modelos para garantir que eles se alinhem com as noções humanas de incerteza”, diz o autor principal Nathan Ng, um estudante de pós-graduação na Universidade de Toronto que é um estudante visitante no MIT.
“É fácil ver esses modelos se saindo muito bem em cenários em que são muito bons e, então, assumir que serão tão bons quanto em outros cenários. Isso torna especialmente importante impulsionar esse tipo de trabalho que busca calibrar melhor a incerteza desses modelos para garantir que eles se alinhem com as noções humanas de incerteza”
Nathan Ng
Ng escreveu o artigo com Roger Grosse, professor assistente de ciência da computação na Universidade de Toronto; e a autora sênior Marzyeh Ghassemi, professora associada no Departamento de Engenharia Elétrica e Ciência da Computação e membro do Instituto de Ciências de Engenharia Médica e do Laboratório de Sistemas de Informação e Decisão. A pesquisa será apresentada na Conferência Internacional sobre Aprendizado de Máquina.
Quantificando a incerteza
Os métodos de quantificação de incerteza geralmente exigem cálculos estatísticos complexos que não escalam bem para modelos de machine learning com milhões de parâmetros. Esses métodos também exigem que os usuários façam suposições sobre o modelo e os dados usados para treiná-lo.
Os pesquisadores do MIT adotaram uma abordagem diferente. Eles usam o que é conhecido como princípio do comprimento mínimo de descrição (MDL), que não requer as suposições que podem prejudicar a precisão de outros métodos. O MDL é usado para quantificar e calibrar melhor a incerteza para pontos de teste que o modelo foi solicitado a rotular.
A técnica desenvolvida pelos pesquisadores, conhecida como IF-COMP, torna o MDL rápido o suficiente para ser usado com os tipos de grandes modelos de aprendizado profundo implantados em muitos cenários do mundo real.
MDL envolve considerar todos os rótulos possíveis que um modelo poderia dar a um ponto de teste. Se houver muitos rótulos alternativos para esse ponto que se encaixem bem, sua confiança no rótulo escolhido deve diminuir de acordo.
“Uma maneira de entender o quão confiante um modelo é seria contar a ele algumas informações contrafactuais e ver a probabilidade de ele acreditar em você”, diz Ng.
Por exemplo, considere um modelo que diz que uma imagem médica mostra um derrame pleural. Se os pesquisadores disserem ao modelo que esta imagem mostra um edema, e ele estiver disposto a atualizar sua crença, então o modelo deve estar menos confiante em sua decisão original.
Com MDL, se um modelo estiver confiante ao rotular um ponto de dados, ele deve usar um código muito curto para descrever esse ponto. Se estiver incerto sobre sua decisão porque o ponto pode ter muitos outros rótulos, ele usa um código mais longo para capturar essas possibilidades.
A quantidade de código usada para rotular um ponto de dados é conhecida como complexidade de dados estocásticos. Se os pesquisadores perguntarem ao modelo o quão disposto ele está a atualizar sua crença sobre um ponto de dados dada evidência contrária, a complexidade de dados estocásticos deve diminuir se o modelo for confiante.
Mas testar cada ponto de dados usando MDL exigiria uma quantidade enorme de computação.
Acelerando o processo
Com o IF-COMP, os pesquisadores desenvolveram uma técnica de aproximação que pode estimar com precisão a complexidade de dados estocásticos usando uma função especial, conhecida como função de influência. Eles também empregaram uma técnica estatística chamada escala de temperatura, que melhora a calibração das saídas do modelo. Essa combinação de funções de influência e escala de temperatura permite aproximações de alta qualidade da complexidade de dados estocásticos.
No final, o IF-COMP pode produzir eficientemente quantificações de incerteza bem calibradas que refletem a verdadeira confiança de um modelo. A técnica também pode determinar se o modelo rotulou incorretamente certos pontos de dados ou revelar quais pontos de dados são outliers.
Os pesquisadores testaram seu sistema nessas três tarefas e descobriram que ele era mais rápido e preciso do que outros métodos.
“É realmente importante ter alguma certeza de que um modelo está bem calibrado, e há uma necessidade crescente de detectar quando uma previsão específica não parece muito correta. Ferramentas de auditoria estão se tornando mais necessárias em problemas de aprendizado de máquina, pois usamos grandes quantidades de dados não examinados para fazer modelos que serão aplicados a problemas voltados para humanos”, diz Ghassemi.
O IF-COMP é agnóstico em relação a modelos, então ele pode fornecer quantificações precisas de incerteza para muitos tipos de modelos de machine learning. Isso pode permitir que ele seja implantado em uma gama mais ampla de cenários do mundo real, ajudando, em última análise, mais profissionais a tomar melhores decisões.
“As pessoas precisam entender que esses sistemas são muito falíveis e podem inventar coisas conforme avançam. Um modelo pode parecer altamente confiante, mas há uma tonelada de coisas diferentes nas quais ele está disposto a acreditar, dada a evidência do contrário”, diz Ng.
No futuro, os pesquisadores estão interessados em aplicar sua abordagem a grandes modelos de linguagem e estudar outros possíveis casos de uso para o princípio do comprimento mínimo de descrição.