Fortaleciendo el Maletín de herramientas para la gestión del cumplimiento tributario: Machine learning 1

Intuitivamente

Aun cuando nos hayamos formado y especializado en materias de administración tributaria, análisis de riesgos tributarios, o materias de la tributación internacional o en prácticas especiales de evasión en sectores económicos específicos, como el turismo o la minería, o en la gestión de procesos para la administración de impuestos, incluyendo auditorias de campo muy rigurosas, quizás lo primero que se nos puede venir en mente al escuchar conceptos como Inteligencia Artificial o Machine learning son nociones sobre películas de ciencia ficción o futuristas, algunas bastantes oscuras en que los humanos son dominados o aniquilados por robots, y otras incluso divertidas en que usualmente somos congraciados y normalmente superados en labores y actividades de diferente envergadura intelectual o manual.

En un terreno más concreto, habrás escuchado y leído en varias fuentes de información sobre diferentes servicios y utilidades basados en la explotación de artefactos tecnológicos diseñados y construidos con la ayuda de técnicas de ‘Machine learning’, incluyendo rutinas que clasifican tus correos electrónicos como ‘spam’ o ‘no spam’, o que analizan imágenes para sugerir que tienes una alta -ojalá baja- probabilidad de alguna anomalía de salud o utilidades tecnológicas que simplemente te van sugiriendo anticipadamente palabras y expresiones en la medida que vas escribiendo algún documento. Sin duda en la actualidad existe una larga lista de ejemplos. Así, es posible que en el ámbito de la administración tributaria hayas escuchado ideas como ‘la clasificación de riesgo personal estima la disposición a cumplir las obligaciones tributarias de parte de los 5 millones de contribuyentes del sistema tributario’, o ‘la solución tecnológica que interactúa con los contribuyentes en base a algoritmos de aprendizaje equivale al trabajo de 350 personas’, o ‘el modelo de análisis de riesgo predice los potenciales casos de fraude tributario permitiendo tratar la cadena del IVA antes de la ocurrencia de esos fraudes’ o ’el sistema de imágenes reconoce bienes de alto valor dentro de una propiedad lo que permite una valoración del bien raíz y habilita cálculos de impuestos más acertados’.  Estos ejemplos son llamativos, interesantes, sugieren un desempeño novedoso o imperativo en el ámbito tributario, lo que incluso te puede entusiasmar – u obligar- a iniciar un proyecto en el corto plazo que utilice técnicas de Machine learning y componentes relacionados como la digitalización, la automatización, blockchain y nubes, entre otros.

No pretendo entregar una definición del concepto y menos sobre sus posibles alcances – hay buenos especialistas para ello- aunque se puede observar que el Machine learning consiste en:

Procesar muchos datos de experiencias pasadas originados en una actividad o práctica relevante (un proceso tributario) para alimentar y entrenar modelos de algoritmos estadístico matemáticos o de aprendizaje que permitan predecir un resultado o desempeño futuro (de ese proceso tributario) obteniendo mejoras en esa actividad o práctica (y nuevos datos que a su vez se vuelven a utilizar para volver a alimentar-entrenar tales modelos, generando nuevas ganancias de información) en un proceso iterativo permanente.

 

Tomando de base esa observación, una segunda intuición es que el Machine learning puede mirarse como un concepto técnico, tan técnico como el concepto de ‘Establecimiento permanente’ en los convenios para evitar la doble tributación internacional, o el ‘Ajuste correlativo’ en materias de precios de transferencia, o como los métodos aceptados de valoración de activos y empresas, tales como ‘Múltiplos de empresas’ u ‘Opciones’, o las ‘Matrices de procesos tributarios’. Entonces Machine learning involucra técnicas tanto o más rigurosas que esas disciplinas precisamente por su corazón estadístico matemático. Asimismo, Machine learning no debería equipararse a conceptos tales como digitalización o automatización, aunque se puede valer de esos componentes (y viceversa) y otros relacionados para poder explotar esas predicciones en las diferentes etapas del proceso tributario.

Una intuición adicional es que esta diferencia de disciplinas técnicas no obsta a que el administrador tributario le eche un vistazo a los usos que pueden darse a las diferentes posibilidades técnicas que serían factibles a contar del uso de Machine learning, aumentando con ello las capacidades que contiene su Maletín de herramientas para la gestión del cumplimiento tributario.

En el pasado, ese Maletín de herramientas para la gestión del cumplimiento tributario  se ha ido nutriendo gracias al trabajo de los colaboradores y capital humano con modelos de riesgos, artefactos digitalizados y automatizados de facturación electrónica, de retención electrónica del IVA, o con mecanismos de trazabilidad de impuestos especiales al consumo basados en marcas o estampillas e incluso con artefactos tecnológicos que permiten ofrecer a los contribuyentes una propuesta prellenada de IVA o de Renta, todo lo cual constituye una amplia gama de posibilidades y capacidades para influenciar de manera estructural en los niveles de cumplimiento tributario del país.

Otra intuición dice relación con saber si estos artefactos basados en Machine learning que permitirían predecir resultados futuros y mejorar los desempeños a contar de ello están funcionando a nivel global. Sin duda las jefaturas máximas de la Administración Tributaria necesitan respaldos para embarcarse en una proeza técnica como ésta. Si bien hay numerosos reportes de la OECD y el CIAT que soplan cualitativamente con viento a favor, parece atingente comentar algunos casos reales de uso basados en Machine learning que pueden orientar las diferentes posibilidades de explotación que pueden hacer las administraciones tributarias.

Algunos ejemplos de uso
Modelo de analítica avanzada profunda con sistema de comunicación con contribuyentes
La Administración tributaria de Australia (ATO) ha logrado implementar un colectivo de herramientas alineadas con técnicas de Machine learning para analizar en tiempo real el sistema tributario, detectar anomalías y tratarlas con herramientas automatizadas que interactúan con los contribuyentes. Esto supone entonces que las técnicas y posibilidades comprenden las etapas de análisis de riesgo, la selección del tratamiento y la comunicación y mitigación de riesgos o brechas a distancia con los contribuyentes.

En efecto, en lo referente al análisis de riesgos el kit tecnológico de la ATO utiliza modelos de análisis supervisados con algoritmos tipo ‘k- nearest neighbor’ (vecinos más próximos) y ‘redes neuronales’ que detectan anomalías, lo que caracteriza el comportamiento de los contribuyentes, predice casos de riesgo y los propone para un tratamiento.  Para ejecutar el tratamiento remoto o virtual, el kit empuja a los contribuyentes a hacer elecciones, por ejemplo, afirmar que sus costos o créditos se encuentran correctos o dentro de un rango aceptable.

Una aplicación concreta de lo anterior se ha reportado por la ATO sobre los gastos declarados para fines del impuesto a la renta.  Sólo por el año tributario 2017, en base a robots interactivos de negocio y de soporte, se analizó a los “vecinos cercanos” de 3.3 millones de contribuyentes y de ellos se conminó a 230 mil contribuyentes a revisar la razonabilidad de los gastos deducidos en la declaración de renta.
Modelo para predicción de ingresos y deducciones en el impuesto a la renta
En 2017 el SKATT de la Administración tributaria de Noruega desarrolló una ‘Prueba de concepto’ para generar automáticamente propuestas virtuales para la deducción de impuestos usando Machine Learning.

El modelo consideró un dataset tradicional de la administración tributaria y el desarrollo de una rutina de Machine learning que permite predecir (o estimar) el nivel de ingresos, su composición, el nivel de deudas y la situación familiar del contribuyente individual a objeto de establecer la procedencia de las deducciones legales en la declaración anual de impuesto a la renta.

Este artefacto de Machine Learning contempló además la utilización de modelos de clasificación basados en ‘sentimen analyisis algorithms’, o ‘algoritmos de análisis de sentimientos’ que realizan análisis de texto y el procesamiento del lenguaje natural disponibles en redes sociales para clasificar las palabras o frases como positivas, negativas o neutrales.

Durante el desarrollo de la prueba de concepto se utilizaron diferentes algoritmos típicos de Machine learning:

  • Regresión lineal: Si bien se anticipaba su falta de certeza al tratarse de datos que no siguen un patrón conocido, igualmente se destinaron recursos para su ejecución.
  • Árbol de decisiones con random forest: Se reporta una implementación rápida, con buenos niveles de confianza a la rama de los ingresos pero bajos resultados para clasificar y predecir las ramas relacionadas a las deducciones.
  • Neural Networks: Si bien se consideró que era el modelo más potente de los disponibles, la cantidad de recursos e iteracciones de modelamiento que requiere hicieron inviable su consideración dentro del plazo acotado de la prueba de concepto.

Un aprendizaje reportado fue que el uso separado de estos modelos fue descartado tempranamente dado que los resultados individuales no habrían sido satisfactorios debido al alto nivel de exactitud que se requiere al tratarse de obligaciones tributarias nominadas.

Por ello, el SKATT de Noruega se avocó a crear un ‘modelo ensamblado’ in house con dos focos concretos: Uno orientado a predecir quien tiene derecho a las deducciones y otro para establecer el monto de las deducciones.  Con este modelo ensamblado se habría logrado reducir el impacto de las variables con baja presencia en los dataset, particularmente las relacionadas a deducciones. El modelo ensamblado consideró utilidades de algoritmos de ‘neural network’, ‘random forest’, ‘gausiann processes’ y ‘two stage random forest’.

Una de las alertas que dejó esta prueba de concepto fue que no hubo manera de establecer que sucedía al interior del modelo ensamblado, es decir, un funcionario por sí solo no fue capaz de monitorear y explicar los resultados que arrojaba el mismo. La prueba de concepto permitió establecer que el modelo predecía correctamente el nivel de ingresos en el 86% de los casos y en el caso de las deducciones en un 76%.
Modelo para detectar cambios de residencia y jurisdicción
También en 2017 la SKATT de Noruega formuló un modelo de Machine learning para que de manera automática detectará a los residentes de Noruega, que habían emigrado del país sin notificar a la administración tributaria y al gobierno central.

Usualmente los controles migratorios son manuales y es casi imposible controlar la situación tributaria de los emigrantes, lo que resulta relevante para poder aplicar el principio de renta mundial y los convenios para evitar la doble tributación, incluyendo la mitigación de potenciales esquemas de abuso, todo ello en un contexto del derecho de la comunidad europea y sus cuatro libertades.

Para el desarrollo de la prueba se consideraron bases de datos de SKATT, bases de datos del Registro nacional de personas, bases de datos de deudas y un modelo de Machine learning hecho en casa con la ayuda de una empresa externa. El proceso del modelo arroja un listado de personas que deben ser indagadas con mayor profundidad en diferentes canales de comunicación.

En total, se establecieron cerca de 200 variables anonimizadas para preprocesamiento, de las cuales estas cuatro tuvieron la mayor ponderación según el algoritmo de árboles de decisión:

El modelo de la prueba logra una confianza de 68% para identificar a quienes si dejaron Noruega (positivos verdaderos) y un 99.5% a quienes no la han dejado (negativos verdaderos). Esta prueba de concepto finalizó con una lista de 23 mil personas en que el modelo estima que habrían dejado Noruega sin pagar sus impuestos anuales.

 

– Modelo para estimar el valor de bienes raíces
Se trata de un modelo de tasación del valor de mercado de los bienes raíces para un condado o departamento que posee unas 400 mil propiedades con altas tasas de urbanización de nuevos proyectos habitacionales, educacionales e industriales, en que la capacidad humana de actualización del valor de los bienes raíces sobre la base de modelos tradicionales se ve excedida por el explosivo crecimiento de dicho territorio.

El proceso considera le entrega, sobre base diaria, de datasets desde el condado a la empresa externa para que el modelo de Machine learning señale el valor estimado de las propiedades.  Ello supone que los diferentes procesos municipales, inmobiliarios, notariales, comerciales, bancarios están aportando información la que es limpiada, catalogada y pre procesada sobre base diaria en base a rutinas automatizadas.

Una de las vistas que genera el modelo consiste en un mapa georeferenciado que permite visualmente determinar que propiedades muestran un valor que estaría fuera de rango considerando los inputs de datos diarios recibidos.  Ello permite entonces ejercer análisis más profundos o desplegar alguna acción de tratamiento preventiva sobre tales propiedades.

Si bien este ejemplo no está directamente relacionado con el desempeño de las administraciones tributarias, sirve para evidenciar los posibles usos en la gestión de los impuestos, por ejemplo, en el cálculo de los impuestos especiales a las grandes fortunas o sobre los bienes raíces de alto valor, lo que resulta interesante considerando las presiones habituales sobre estos segmentos que ejercen grupos sociales ciudadanos.

Todavía hay más que comentar

Considero altamente recomendable que los artefactos basados en Machine learning comiencen a ser vistos en las administraciones tributarias de la región como un tipo más de acciones de análisis, de tratamiento y de comunicación con los contribuyentes de manera análoga a los ejemplos resumidos en los casos de uso anteriores.

En efecto, en estos tiempos de la cuarta revolución es un deber personal de los directivos de la administración tributaria conocer y precisar de qué manera se puede fortalecer el Maletín de herramientas para la gestión del cumplimiento tributario utilizando diferentes recursos como el Machine learning y componentes tecnológicos relacionados, materias que seguiremos comentando en blogs adicionales.

1,792 total views, 20 views today

3 comentarios

  1. María Eugenia Torres Respuesta

    Excelente Victir

    Me hace recordar un caso en el que en un mismo edificio existían unidades clasificadas en un estrato diferente. El estrato influye en las tarifas de pago del impuesto predial y de pago de servicios. Simplemente algunos propietarios hacían que su estrato se modificara por medios non santos y así pagaban mucho menos que sus vecinos.

  2. Victor Respuesta

    Hola Maria Euguenia
    Son enormes las posibilidades a contar del uso de este tipo de herramintas. El caso que indicas es una de tantas situaciones relacionadas a los bienes raíces. Por citar otras, los casos de ventas de esos bienes sin reportar la información a las autoridades registrales, ocultando las ganancias; predios forestales que no generan ingresos afectos aun cuando sus vecinos más cercanos lo hacen de manera regular, etc. Pero no sugiero apresurarse en probar estas herramientas, hay que habilitar algunas capacidades previas, materia que trataré en un próximo blog. Saludos.

  3. Norman Williams Respuesta

    Gracias Victor !!. Estas herramientas, como indicas, serán las que posibiliten predecir los comportamientos de los ciudadanos y sus implicancias tributarias. Saludos.

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Suscripciones CIAT

Navega en el sitio sin restricciones. Consulta y descarga los contenidos.

Suscríbete a nuestros boletines electrónicos:

  • Blog
  • Oferta Académica
  • Informativo
  • Publicaciones
  • Alerta de Noticias

Activar suscripción

Miembros CIAT

Representantes, Corresponsales y Personas autorizadas (AT)