본문 바로가기
귀펀치토끼는 부서지지 않는다.
주소(D)
카테고리 없음

[PYTHON] 텍스트파일에 있는 특정문자 제거하기

import os
import re

# 입력 디렉토리와 출력 디렉토리 설정
input_directory = '/Users/BlackPaw/Downloads/ai-python-sample-master/sound/txt'  # 원본 텍스트 파일이 있는 디렉토리 경로
output_directory = '/Users/BlackPaw/Downloads/ai-python-sample-master/sound/outtext'  # 결과 파일을 저장할 디렉토리 경로

# 출력 디렉토리가 존재하지 않으면 생성
if not os.path.exists(output_directory):
    os.makedirs(output_directory)

# 입력 디렉토리에 있는 모든 텍스트 파일을 처리
for filename in os.listdir(input_directory):
    if filename.endswith('.txt'):
        file_path = os.path.join(input_directory, filename)
        encodings_to_try = ['utf-8', 'euc-kr', 'cp949']
        text = None
        
        for encoding in encodings_to_try:
            try:
                with open(file_path, 'r', encoding=encoding) as file:
                    text = file.read()
                break  # 올바른 인코딩으로 열리면 루프 종료
            except UnicodeDecodeError:
                continue
        
        if text is None:
            print(f"파일을 열 수 없음: {filename}")
            continue

        # 정규 표현식을 사용하여 알파벳, 슬래시, 플러스, 별표 모두 제거
        cleaned_text = re.sub(r'[a-zA-Z/+\*]', '', text)
        
        # 결과 파일을 출력 디렉토리에 저장
        output_filename = os.path.join(output_directory, filename)
        with open(output_filename, 'w', encoding='utf-8') as file:
            file.write(cleaned_text)
완료
내 컴퓨터