실시간성이 필요한 빅데이터 처리에 강점을 갖는 아파치 스파크는 국내에서도 금융권 등에서 널리 쓰이고 있다. 최근 게시물 내용을 활용한 빅데이터 처리를 스터디할 일이 생겨 자료를 찾던 중에 스파크 NLP 책이 발간된 것을 보고 매우 반가웠다. 더욱이 스칼라가 아닌 파이썬 기반의 설명으로 구성되어 있어 파이썬에 익숙한 사람들에게 더 유용할 것 같았다.
아파치 스파크를 처음 접하는 사람들을 위해 기본 환경 설정을 설명하는 부분부터 딥러닝 기초인 신경망을 기본 스파크 NLP 라이브러리를 이용해 소개하는 부분이 포함되어 있다. 2부에서는 NLP 기술에 사용되는 여러 기법들, 단어처리와 정보검색, 분류와 회귀시퀀스, 정보 추출, 단어 임베딩 등의 주제를 다루고 있어 실제 적용에 필요한 기술을 차근차근 배울 수 있었다.
실제 적용을 다루는 3부에서는 솔루션을 구현하는 데 필요한 설계 과정과 제약조건을 해결하는 방법을 의사결정 과정을 포함하여 기술하고 있어 실 모델 구현에 많은 도움을 받을 수 있었다. NLP 시스템을 기반으로 하여 최종 제품을 만들어내는 과정까지 빠지지 않고 4부에서 기술하고 있다.
스파크 기반의 NLP 모델 구축 뿐 아니라 NLP의 기본적인 기술, 구현 과정을 익힐 수 있는 구성으로 되어 있어 큰 도움이 되었다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."