잡담 텍스트 파일에 중국어 원문하고 한글번역 교대로 나오는 것 중국어부분만 지우는 방법 있음?
페이지 정보
본문
한자만 지울수있는 방법 아시는분 계시면 좀 가르쳐주세요
댓글목록



포투뭐였는데님의 댓글
import re
input_file = "input.txt"
output_file = "output.txt"
# 한자 범위 (CJK 통합 한자)
hanja = re.compile(r'[\u4E00-\u9FFF]')
with open(input_file, "r", encoding="utf-8") as f:
lines = f.readlines()
# 모든 줄에서 한자 제거
cleaned_lines = [hanja.sub('', line) for line in lines]
with open(output_file, "w", encoding="utf-8") as f:
f.writelines(cleaned_lines)
파이썬에서 해당 코드 작성해서 삭제 할수 있다고 함. 챗gpt 최고임. 이런거 물어보면 진짜 하나 하나 잘 가르쳐줌.



아루잔님의 댓글
노트패드 기준으로 찾기- 바꾸기
찾을 내용에 [一-龥] 복사해서 붙여넣고 / 아래 찾기 모드에서 정규 표현식 클릭 / 바꿀 내용에는 그냥 공백 그대로
그리고 모두 바꾸기 하면
한자는 전부 지워지는데 문제는 이게 문장뒤에 . ! 같은 기호랑 괄호안에 있었던거면 () 이렇게 남게되는데
이거는 하나하나 지우던지 위에 방법처럼 똑같이 모두바꾸기로 지워야함
또 이거말고도 찾기 - 책갈피 에서 찾을내용에 [一-龥] 복사해서 넣고
똑같이 아래 찾기모드에 정규 표현식 체크하고 모두 찾기 누르면
한자가 들어가있는 줄에 전부 책갈피가 될거임
거기서 찾기- 책갈피 책갈피 된 줄 지우기 하면 전부 삭제될텐데
이건 문제가 괄호안에 있는 한자도 당연히 포함이라
예를들면 "유성이 떨어지지도 않았고 칠성연주(七星連珠) 현상도 없었다. " 라는 문장처럼 한글인데 괄호안에 한자가 들어가있는 문장들도 전부 체크되서 지워지니까
조심해서 써야함
