본문 바로가기

토이프로젝트4

PDF자동번역기(3) - 완성 # 경과 사실 처음에 생각했던 것이 100 정도 된다면, 완성품(?)이라고 말하기는 애매하지만 이건 한 20~30 정도 되는 것 같다. 그럼에도 불구하고 마무리를 지은 것은, 더 고급으로 만드려면 애로사항이 많기 때문이다. PDF 포맷이 가지는 한계. 그리고 그것을 구글 번역 유료 API를 쓰지 않은 것의 한계가 겹쳐져서 많은 문제가 생겼기 때문이다. 일반적인 한글문서처럼 모든 텍스트가 깔끔하게 연결되어 있는 것도 아니고, 그래프나 표, 이미지 등 각종 요소들이 들어가 있을 수 있다는 점 때문에 텍스트를 정확하게 체크해서 꺼낼 수 없었고 그 텍스트를 번역한 것이 또 원하는만큼의 정확도로는 번역되지 않았다. # 결과물 최종 결과물은 다음과 같다. 시간이 나고, 기술적으로 더 좋아지면 + 돈이 좀 더 생긴다.. 2018. 2. 16.
파이썬으로 지뢰찾기 만들기 파이썬을 공부하던 도중, 파이썬으로 지뢰찾기를 상당히 간단하게 구현할 수 있을 것 같다는 생각이 들었다. 일단 지뢰찾기의 맵을 구현해야하는데, 파이썬의 tkinter 라이브러리로 간단한 기능들을 구현하는 것에는 무리가 없어보였다. 또, 지뢰찾기의 내부 알고리즘이 그렇게 어렵지 않을 것이라 생각했기 때문이다. 물론, 지뢰찾기를 마이크로소프트에서 제공하는 게임의 수준으로 까지 제공하려면 조금 더 생각해야할 부분이 있을 것 같기는 하다. 그래서, 아마 진행되는 루트는 예상컨대 (1) 맵에 지뢰를 뿌리고 클릭으로 하나하나 체크해보기(2) 내부 알고리즘 보완으로 맵 전체의 지뢰를 한 번에 찾기 (3) 게임화하기 정도로 볼 수 있을 것 같다. 일단 사용언어는 Python 3.6 이고, GUI는 python 내장 라.. 2018. 2. 3.
PDF자동번역기(2) # 언어 선택 나름대로 자연스럽게 사용할 수 있는 언어가 c#, python 인데 어떤 것을 기준으로 작업을 할 지를 선택해야 했다. 일단 내가 모든 소스 코드를 당장은 작업할 수 없으므로, 내가 사용할 수 있는 오픈 소스 라이브러리가 있어야했고, 내가 적당한 컨트롤을 할 수 있어야했다. # C#? 그런 면에서 봤을 때, 일단 C#이 나에게 훨씬 익숙한 언어이므로, C#으로 작업하는 것이 더 좋아보였다. 그러나 가장 핵심이 되는 두 개의 라이브러리가 필요한데, 하나는 PDF 를 컨트롤 할 수 있는 라이브러리고, 다른 하나는 번역을 할 수 있는 라이브러리다. 아무래도 윈도우 문서와 관련이 많이 되다보니 C# 쪽에는 완성도 높은 PDF 라이브러리가 있었다. (itext 등..) 거기에 일단은 내가 혼자 사용.. 2018. 2. 2.
PDF자동번역기(1) # 왜? 옛날에는 번역기들의 상태가 좋지 않아서 자동 번역 프로그램을 돌리는 것보다는 결국은 스스로가 번역을 해서 정리하거나, 영어를 아주 쉽게 읽을 수 있는 수준이 되어야만 해외에서 영문으로 출판된 문서들을 보는 것이 가능했던 것 같다. 하지만, 작년부터 네이버 및 구글의 번역 능력이 압도적으로 좋아졌기 때문에 간단한 수준에서는 자동 번역으로 변경을 하더라도 큰 문제가 없는 수준에 도달했다는 생각도 좀 든다. 물론, 여전히 뉘앙스의 차이가 있기 때문에 번역의 성공율은 약 80% 정도로 보아야겠지만, 개인적으로 소장하기 위한 용도의 프로그램에는 큰 문제가 없어보인다. # 목표? 세 개의 구역으로 나누어두고, 가장 왼쪽에는 원본 PDF 파일을 보여주고, 중간에는 그것을 Text로 변환한 것을, 가장 오른쪽.. 2018. 2. 2.