Iniciado por
doonga
Estoy haciendo un trabajo (una entretención, en realidad), respecto al análisis comparativo de textos escritos en español.
Me pareció adecuado utilizar un libro suficientememnte extenso, y que tuviese traducciones interesadamente sesgadas.
Y qué libro más apropiado que las traducciones de la biblia al español.
Tienen más de 30.000 versículos,
Más de 700.000 palabras, que se reducen a más de 25.000 lexemas (o palabra distintas), y cerca de 7.000 fonemas (o palabras que suenan parecido).
Interesante que una biblia se analiza léxicamente en 3 segundos. Pensé que sería más demorado: en 9 segundos, las tres biblias están leídas, analizadas y memorizadas.
Ahora me encuentro estudiando algunos tópicos de AI, útiles para el análisis y comparación de textos, que se denomina Deep Learning (aprendizaje profundo)
Recién voy en el desarrollo de los andamios, la infraestructura básica, y, en eso, en el análisis léxico y fonético para realizar búsquedas, ya que este es el primer paso necesario para cualquier análisis informático de esta naturaleza.
Para iniciar, he descargado tres versiones en español:
La Reina Valera Antigua, la biblia de Jerusalén, de 1976, y la TNM (traducción el nuevo mundo).
Porqué solamente tres: para el estudio inicial es suficiente.
Porqué esas tres: porque fueron las primeras que encontré listas para la descarga en un formato apto para ser procesado sin mayor obstáculo.
La idea es utilizar una de ellas como pivote (es decir, asumiendo que es la correcta, y las restantes, una desviación), y encontrar las diferencias de las otras respecto a la primera.
Luego utilizar otra como pivote, y finalmente quedar con tres extractos: en qué se diferencian las otras de ésta, para luego comenzar a trabajar sobre los tes extractos.
Bueno, el deep learning se suele utilizar en los análisis llamados "big data", donde hay muchas opiniones sobre pocos tópicos (pocos es un decir).
Aquí el problema es diferente: hay tres opiniones sobre muchos tópicos, lo que significa que se enfrenta un problema diferente, pero semejante en el hecho que los diversos tópicos (versículos, en este caso), deben ser contextualizados, primero internamente, estableciendo una red de afirmaciones (o verdades) internas no contradictorias e internas contradictorias, y luego correlacionar esto con las contradicciones externas.
Las coincidencias no interesan, excepto para un resumen estadístico.
No se vislumbra muy trivial, pero no deja de ser un desafío interesante.
Estoy invocando el espíritu de chomsky, mientras chomsky viva.