87 lines
2.7 KiB
Python
87 lines
2.7 KiB
Python
#!/usr/bin/env python3
|
|
import re
|
|
|
|
def corregir_texto_gallego(input_file, output_file):
|
|
"""Aplica correcciones de gallego a español al archivo de transcripción"""
|
|
|
|
# Correcciones más comunes de gallego a español
|
|
correcciones = {
|
|
"xeo": "yo",
|
|
"non": "no",
|
|
"hai": "hay",
|
|
"entóns": "entonces",
|
|
"máis": "más",
|
|
"tamén": "también",
|
|
"sempre": "siempre",
|
|
"verdade": "verdad",
|
|
"cousa": "cosa",
|
|
"xente": "gente",
|
|
"tempo": "tiempo",
|
|
"lingua": "lengua",
|
|
"pode": "puede",
|
|
"xamón": "shogun",
|
|
"xomón": "shogun",
|
|
"unha": "una",
|
|
"dunha": "de una",
|
|
"nunha": "en una",
|
|
"xeral": "general",
|
|
"xeraria": "jerarquía",
|
|
"ximéas": "temas",
|
|
"ximeas": "temas",
|
|
"ronquera": "reunión",
|
|
"xocalizar": "juntar",
|
|
"oanxacular": "juntar",
|
|
"xocal": "junto",
|
|
"lúmulo": "grupo",
|
|
"lúmido": "grupo",
|
|
"lúmada": "grupos",
|
|
"nulunxación": "reunificación",
|
|
"xotalipa": "capitalista",
|
|
"crente": "gente",
|
|
"enxucar": "juntar",
|
|
"agora": "ahora",
|
|
"cando": "cuando",
|
|
"temos": "tenemos",
|
|
"habíamos": "habíamos",
|
|
"era": "era",
|
|
"había": "había",
|
|
"existía": "existía",
|
|
"también": "también",
|
|
"vamos": "vamos",
|
|
"teníamos": "teníamos",
|
|
"vimos": "vimos",
|
|
"estaba": "estaba",
|
|
"estaban": "estaban",
|
|
"podía": "podía",
|
|
"podemos": "podemos",
|
|
"somos": "somos"
|
|
}
|
|
|
|
with open(input_file, 'r', encoding='utf-8') as f:
|
|
lines = f.readlines()
|
|
|
|
corrected_lines = []
|
|
for line in lines:
|
|
corrected_line = line
|
|
# Aplicar correcciones
|
|
for gallego, espanol in correcciones.items():
|
|
corrected_line = corrected_line.replace(gallego, espanol)
|
|
|
|
# Normalizar espacios múltiples
|
|
corrected_line = re.sub(r'\s+', ' ', corrected_line)
|
|
|
|
# Eliminar líneas que son solo repeticiones de "e" o "¿no?"
|
|
if corrected_line.strip() and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+(e\s+)+\s*$', corrected_line) and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+¿no\?\s*$', corrected_line):
|
|
corrected_lines.append(corrected_line)
|
|
|
|
with open(output_file, 'w', encoding='utf-8') as f:
|
|
f.writelines(corrected_lines)
|
|
|
|
print(f"Archivo corregido guardado en: {output_file}")
|
|
print(f"Líneas procesadas: {len(lines)}")
|
|
print(f"Líneas finales: {len(corrected_lines)}")
|
|
|
|
if __name__ == "__main__":
|
|
input_file = "downloads/1_5134218813469886295.txt"
|
|
output_file = "downloads/1_5134218813469886295_corregido.txt"
|
|
corregir_texto_gallego(input_file, output_file) |