본문 바로가기
토이프로젝트/PDF자동번역기(완)

PDF자동번역기(2)

by 크라크라 2018. 2. 2.

# 언어 선택


나름대로 자연스럽게 사용할 수 있는 언어가 c#, python 인데 어떤 것을 기준으로 작업을 할 지를 선택해야 했다. 일단 내가 모든 소스 코드를 당장은 작업할 수 없으므로, 내가 사용할 수 있는 오픈 소스 라이브러리가 있어야했고, 내가 적당한 컨트롤을 할 수 있어야했다.



# C#?


그런 면에서 봤을 때, 일단 C#이 나에게 훨씬 익숙한 언어이므로, C#으로 작업하는 것이 더 좋아보였다. 그러나 가장 핵심이 되는 두 개의 라이브러리가 필요한데, 하나는 PDF 를 컨트롤 할 수 있는 라이브러리고, 다른 하나는 번역을 할 수 있는 라이브러리다. 아무래도 윈도우 문서와 관련이 많이 되다보니 C# 쪽에는 완성도 높은 PDF 라이브러리가 있었다. (itext 등..) 거기에 일단은 내가 혼자 사용할 목적이니 특별한 라이센스의 문제를 고려할 필요도 없었다. 


 하지만 문제는 번역에 있었다. 기본적으로 구글번역 또는 네이버 파파고 번역이 한국어 번역에 있어서 최고 품질이라고 볼 수 있을 것인데, 문제는 이것 모두가 일정 이상의 번역을 하는데 있어서 "유료"로 요금을 요구한다는 점이었다. 일반적인 pdf 문서들이 책이나 논문인 경우들이 많으므로, 상당히 많은 양의 번역을 요하게 되는데 그런 면에서 봤을 때는 결격사유라고 볼 수 있었다. 따라서 간단한 번역 라이브러리가 필요했는데 찾는 것에 실패했다.



# Python?


 그렇다면 파이썬이 옳은 것이었을까? 파이썬에는 반대로 번역 라이브러리가 매우 간결하게 사용할 수 있는 것이 있었다. 반응속도도 매우 빠르고, 구글 번역을 무료로 할 수 있게 해주는 라이브러리(googletrans)다. 윈도우 어플리케이션의 GUI를 구성하는 것에도 조금 복잡하지만, 어떤 부분에서는 C#보다 간결한 면도 있어서 훨씬 편하게 만들 수 있는 가능성도 있어보였다. 

하지만 결정적인 문제는 PDF를 컨트롤하는 라이브러리가 PDFMiner, PyPDF2, pdfrw 등이 있었지만, 사용방법도 불분명하고 버전의 문제도 있을뿐더러, 결정적으로 기능이 부족한 것들이 많았다. 



# 결국 C#


따라서 결국은 다시 C#으로 돌아가는 것으로 하고, 번역 라이브러리를 다시 찾는 방법으로 선회했고, 결국 일종의 라이브러리를 찾은셈이 되었다. 이제 구현하러 가면 될 듯하다.

'토이프로젝트 > PDF자동번역기(완)' 카테고리의 다른 글

PDF자동번역기(3) - 완성  (0) 2018.02.16
PDF자동번역기(1)  (0) 2018.02.02

댓글