Initial commit
This commit is contained in:
87
corregir_gallego.py
Normal file
87
corregir_gallego.py
Normal file
@@ -0,0 +1,87 @@
|
||||
#!/usr/bin/env python3
|
||||
import re
|
||||
|
||||
def corregir_texto_gallego(input_file, output_file):
|
||||
"""Aplica correcciones de gallego a español al archivo de transcripción"""
|
||||
|
||||
# Correcciones más comunes de gallego a español
|
||||
correcciones = {
|
||||
"xeo": "yo",
|
||||
"non": "no",
|
||||
"hai": "hay",
|
||||
"entóns": "entonces",
|
||||
"máis": "más",
|
||||
"tamén": "también",
|
||||
"sempre": "siempre",
|
||||
"verdade": "verdad",
|
||||
"cousa": "cosa",
|
||||
"xente": "gente",
|
||||
"tempo": "tiempo",
|
||||
"lingua": "lengua",
|
||||
"pode": "puede",
|
||||
"xamón": "shogun",
|
||||
"xomón": "shogun",
|
||||
"unha": "una",
|
||||
"dunha": "de una",
|
||||
"nunha": "en una",
|
||||
"xeral": "general",
|
||||
"xeraria": "jerarquía",
|
||||
"ximéas": "temas",
|
||||
"ximeas": "temas",
|
||||
"ronquera": "reunión",
|
||||
"xocalizar": "juntar",
|
||||
"oanxacular": "juntar",
|
||||
"xocal": "junto",
|
||||
"lúmulo": "grupo",
|
||||
"lúmido": "grupo",
|
||||
"lúmada": "grupos",
|
||||
"nulunxación": "reunificación",
|
||||
"xotalipa": "capitalista",
|
||||
"crente": "gente",
|
||||
"enxucar": "juntar",
|
||||
"agora": "ahora",
|
||||
"cando": "cuando",
|
||||
"temos": "tenemos",
|
||||
"habíamos": "habíamos",
|
||||
"era": "era",
|
||||
"había": "había",
|
||||
"existía": "existía",
|
||||
"también": "también",
|
||||
"vamos": "vamos",
|
||||
"teníamos": "teníamos",
|
||||
"vimos": "vimos",
|
||||
"estaba": "estaba",
|
||||
"estaban": "estaban",
|
||||
"podía": "podía",
|
||||
"podemos": "podemos",
|
||||
"somos": "somos"
|
||||
}
|
||||
|
||||
with open(input_file, 'r', encoding='utf-8') as f:
|
||||
lines = f.readlines()
|
||||
|
||||
corrected_lines = []
|
||||
for line in lines:
|
||||
corrected_line = line
|
||||
# Aplicar correcciones
|
||||
for gallego, espanol in correcciones.items():
|
||||
corrected_line = corrected_line.replace(gallego, espanol)
|
||||
|
||||
# Normalizar espacios múltiples
|
||||
corrected_line = re.sub(r'\s+', ' ', corrected_line)
|
||||
|
||||
# Eliminar líneas que son solo repeticiones de "e" o "¿no?"
|
||||
if corrected_line.strip() and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+(e\s+)+\s*$', corrected_line) and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+¿no\?\s*$', corrected_line):
|
||||
corrected_lines.append(corrected_line)
|
||||
|
||||
with open(output_file, 'w', encoding='utf-8') as f:
|
||||
f.writelines(corrected_lines)
|
||||
|
||||
print(f"Archivo corregido guardado en: {output_file}")
|
||||
print(f"Líneas procesadas: {len(lines)}")
|
||||
print(f"Líneas finales: {len(corrected_lines)}")
|
||||
|
||||
if __name__ == "__main__":
|
||||
input_file = "downloads/1_5134218813469886295.txt"
|
||||
output_file = "downloads/1_5134218813469886295_corregido.txt"
|
||||
corregir_texto_gallego(input_file, output_file)
|
||||
Reference in New Issue
Block a user