Hatebase cataloga el discurso de odio del mundo en tiempo real para que no tenga que hacerlo – TechCrunch


Vigilar el discurso de odio es algo con lo que casi todas las plataformas de comunicación en línea luchan. Porque para vigilarlo, debes detectarlo; y para detectarlo, debes entenderlo. Hatebase es una compañía que ha hecho de la comprensión del discurso del odio su misión principal, y proporciona esa comprensión como un servicio, uno cada vez más valioso.

Esencialmente, Hatebase analiza el uso del lenguaje en la web, estructura y contextualiza los datos resultantes, y vende (o proporciona) la base de datos resultante a empresas e investigadores que no tienen la experiencia para hacerlo ellos mismos.

La compañía canadiense, una operación pequeña pero creciente, surgió de la investigación en el Proyecto Sentinel para predecir y prevenir atrocidades basadas en el análisis del lenguaje utilizado en una región plagada de conflictos.

"Lo que descubrió Sentinel fue que el discurso de odio tiende a preceder a la escalada de estos conflictos", explicó Timothy Quinn, fundador y CEO de Hatebase. “Me asocié con ellos para construir Hatebase como un proyecto piloto, básicamente un léxico del discurso de odio multilingüe. Lo que nos sorprendió fue que muchas otras ONG [non-governmental organizations] comenzamos a usar nuestros datos para el mismo propósito. Luego comenzamos a obtener muchas entidades comerciales que utilizan nuestros datos. Así que el año pasado decidimos lanzarlo como una startup ".

Tal vez piense: "¿qué tiene de difícil detectar un puñado de insultos étnicos y frases de odio?" Y claro, cualquiera puede decirle (tal vez de mala gana) los insultos más comunes y las cosas ofensivas que decir, en su idioma … que ellos sepan. Hay mucho más para odiar el discurso que solo un par de palabras feas. Es un género completo de jerga, y la jerga de un solo idioma llenaría un diccionario. ¿Qué pasa con la jerga de todos los idiomas?

Un léxico cambiante

Como Victor Hugo señaló en Les Miserables, la jerga (o "argot" en francés) es la parte más mutable de cualquier idioma. Estas palabras pueden ser "solitarias, bárbaras, a veces horribles … Argot, siendo el idioma de la corrupción, se corrompe fácilmente. Además, como siempre busca el disfraz tan pronto como percibe que se entiende, se transforma a sí mismo ".

No solo la jerga y el discurso de odio son voluminosos, sino que también cambian constantemente. Entonces, la tarea de catalogarlo es continua.

Hatebase utiliza una combinación de procesos humanos y automatizados para raspar la web pública para el uso de términos relacionados con el odio. “Salimos a varias fuentes, la más grande, como se puede imaginar, es Twitter, y lo incorporamos todo y lo entregamos a Hatebrain. Es un programa de lenguaje natural que pasa por la publicación y devuelve verdadero, falso o desconocido ".

Verdadero significa que es bastante seguro que se trata de un discurso de odio; como puede imaginar, hay muchos ejemplos de esto. Falso significa que no, por supuesto. Y desconocido significa que no puede estar seguro; tal vez sea sarcasmo, o charla académica sobre una frase, o alguien que usa una palabra que pertenece al grupo e intenta reclamarla o reprender a otros que la usan. Esos son los valores que salen a través de la API, y los usuarios pueden elegir buscar más información o contexto en la base de datos más grande, incluida la ubicación, la frecuencia, el nivel de ofensiva, etc. Con ese tipo de datos, puede comprender las tendencias globales, correlacionar la actividad con otros eventos o simplemente mantenerse al tanto del mundo en rápido movimiento de los insultos étnicos.

El discurso de odio se está señalando en todo el mundo: estos fueron detectados hoy, junto con la latitud y longitud de la IP de la que provienen.

Sin embargo, Quinn no pretende que el proceso sea mágico o perfecto. "Hay muy pocos 100 por ciento saliendo de Hatebrain", explicó. “Varía un poco del enfoque de aprendizaje automático que otros usan. ML es genial cuando tienes un conjunto de entrenamiento inequívoco, pero con un discurso humano y un discurso de odio, que puede ser tan matizado, es cuando tienes un sesgo flotando. Simplemente no tenemos un corpus masivo de discurso de odio, porque nadie puede ponerse de acuerdo sobre qué es el discurso de odio ".

Eso es parte del problema que enfrentan empresas como Google, Twitter y Facebook: no puede automatizar lo que no se puede entender automáticamente.

Afortunadamente, Hatebrain también emplea inteligencia humana, en forma de un cuerpo de voluntarios y socios que autentican, adjudican y agregan los puntos de datos más ambiguos.

“Tenemos un grupo de ONG que se asocian con nosotros en regiones lingüísticamente diversas de todo el mundo, y acabamos de lanzar nuestro programa de 'lingüistas ciudadanos', que es un brazo voluntario de nuestra empresa, y están constantemente actualizando, aprobando y limpiando definiciones ", dijo Quinn. "Ponemos un alto grado de autenticidad en los datos que nos proporcionan".

Esa perspectiva local puede ser crucial para comprender el contexto de una palabra. Dio el ejemplo de una palabra en Nigeria, que cuando se usa entre miembros de un grupo significa amigo, pero cuando es usado por ese grupo para referirse a otra persona significa sin educación. Es poco probable que alguien que no sea nigeriano pueda decírtelo. Actualmente, Hatebase cubre 95 idiomas en 200 países, y se suman a eso todo el tiempo.

Además, hay "intensificadores", palabras o frases que no son ofensivas por sí mismas pero que sirven para indicar si alguien está enfatizando el insulto o la frase. También intervienen otros factores, algunos de los cuales un motor de lenguaje natural puede no ser capaz de reconocer porque tiene muy pocos datos sobre ellos. Por lo tanto, además de mantener las definiciones actualizadas, el equipo también trabaja constantemente para mejorar los parámetros utilizados para clasificar los encuentros de Hatebrain del habla.

Construyendo una mejor base de datos para ciencia y ganancias

El sistema acaba de ingerir su millonésimo avistamiento de discurso de odio (de quizás diez veces más que tantas frases evaluadas), que suena simultáneamente como mucho y poco. Es un poco porque el volumen de discurso en Internet es tan vasto que uno espera que incluso la pequeña proporción de discurso de odio sume millones y millones.

Pero es mucho porque nadie más ha creado una base de datos de este tamaño y calidad. Un conjunto de palabras y frases revisadas de un millón de puntos de datos clasificadas como discurso de odio o no es un bien valioso por sí solo. Es por eso que Hatebase lo proporciona de forma gratuita a los investigadores e instituciones que lo utilizan con fines humanitarios o científicos.

Pero las empresas y organizaciones más grandes que buscan externalizar la detección de discurso de odio con fines de moderación pagan una tarifa de licencia, que mantiene las luces encendidas y permite que exista el nivel gratuito.

“Creo que tenemos cuatro de las diez redes sociales más grandes del mundo que extraen nuestros datos. Tenemos a la ONU obteniendo datos, ONG, los hiperlocales que trabajan en áreas de conflicto. Hemos estado obteniendo datos para el LAPD durante los últimos dos años. Y estamos hablando cada vez más con los departamentos gubernamentales ", dijo Quinn.

Tienen una serie de clientes comerciales, muchos de los cuales están bajo NDA, señaló Quinn, pero el más reciente en unirse lo hizo públicamente, y ese es TikTok. Como puede imaginar, una plataforma popular como esa tiene una gran necesidad de moderación rápida y precisa.

De hecho, es una especie de crisis, ya que hay leyes que entran en juego que penalizan a las empresas enormes cantidades si no eliminan rápidamente el contenido ofensivo. Ese tipo de amenaza realmente afloja los hilos del bolso; Si una multa pudiera ser de decenas de millones de dólares, pagar una fracción significativa de eso por un servicio como el de Hatebase es una buena inversión.

"Estos grandes ecosistemas en línea necesitan sacar estas cosas de sus plataformas, y necesitan automatizar un cierto porcentaje de su moderación de contenido", dijo Quinn. "Nunca pensamos que podremos deshacernos de la moderación humana, ese es un objetivo ridículo e inalcanzable; Lo que queremos hacer es ayudar a la automatización que ya está implementada. Cada vez es menos realista que cada comunidad en línea bajo el sol vaya a construir su propia base de datos masiva de discurso de odio multilingüe, su propia IA. De la misma forma en que las empresas ya no tienen su propio servidor de correo, usan Gmail o no tienen salas de servidores, usan AWS, ese es nuestro modelo, nos llamamos a nosotros mismos discursos de odio como un servicio. Aproximadamente la mitad de nosotros ama ese término, la otra mitad no, pero ese es realmente nuestro modelo ".

Los clientes comerciales de Hatebase han hecho que la empresa sea rentable desde el primer día, pero "no están acumulando efectivo de ninguna manera".

"No teníamos fines de lucro hasta que nos separamos, y no nos estamos alejando de eso, pero queríamos autofinanciarnos", dijo Quinn. Después de todo, confiar en la amabilidad de los ricos desconocidos no es una forma de mantenerse en el negocio. La compañía está contratando e invirtiendo en su infraestructura, pero Quinn indicó que no está buscando impulsar el crecimiento ni nada, solo asegúrese de que los trabajos que necesitan tener alguien que los haga.

Mientras tanto, a Quinn y a todos los demás les parece claro que este tipo de información tiene un valor real, aunque rara vez es simple.

"Es realmente un problema realmente complicado. Siempre lidiamos con eso, ya sabes, en términos de, bueno, ¿qué papel juega el discurso de odio? ¿Qué papel juega la desinformación? ¿Qué papel juegan los socioeconómicos? ”, Dijo. "Hay un gran artículo que salió de la Universidad de Warwick, estudiaron la correlación entre el discurso de odio y la violencia contra los inmigrantes en Alemania, quiero decir, 2015 a 2017. Lo grafican. Y es pico por pico, ya sabes, válido para Valley. Es asombroso. No hacemos muchos análisis, somos un proveedor de datos ".

"Pero ahora tenemos casi 300 universidades que extraen los datos, y ellos hacer ese tipo de ese tipo de análisis. Así que eso es muy valioso para nosotros ".

Puede obtener más información sobre Hatebase, unirse a Citizen Linguists o una asociación de investigación, o ver avistamientos recientes y actualizaciones de la base de datos en el sitio web de la empresa.