파일, 데이터 파일은 우리가 매일 다루고 사용하고 생성한다. 시장 조사 자료, 재무제표 또는 판매 기록과 같은 외부의 데이터를 입력하고 계산한 다음, 자신만의 논리를 추가한 새 데이터 파일을 생성하는 작업 등이 그 예다. 이러한 파일은 빠르게 쌓이고 시간이 지남에 따라 사용하고자 하는 많은 데이터를 포함하게 된다.
데이터 파일의 양은 분석의 중요 요소이자 동시에 풀기 어려운 숙제가 된다. 정확한 분석을 위해 자신뿐만 아니라 다른 조직의 파일도 사용해야 하는데, 필요한 정보를 신속하게 찾고 접근할 수 있도록 파일을 논리적으로 보관하는 것은 보통 어려운 일이 아니다.
더군다나 팀마다 고유한 파일 관리 기술이 있는 경우가 많고, 이들 간의 일관성은 거의 없어, 팀의 성공적인 협업이 매우 중요하다.
최근에는 파일을 개인 컴퓨터에 저장하기 보다는 많은 사람이 동시에 접근할 수 있는 클라우드 기반 드라이브에 저장되기 때문에 이러한 문제는 더욱 분명해진다.
실무에선 여러 소프트웨어 프로그램으로 생성된 자료를 이용하기 때문에, 데이터 분석을 진행할 때 다양한 파일 형식을 다룬다. 여러 파일 형식에 익숙해지는 것은 더 다양한 데이터를 이용할 수 있다는 점에서 도움이 된다.
또한 당신의 이론, 가정을 테스트하고 발견한 의미 있는 데이터 포인트를 검증하기 위해 더 많은 자료들을 사용함으로써 연구 결과를 향상시킬 수 있다. 파일 형식은 데이터가 파일 내에 저장되는 방식과 검색 방법을 정의한다는 점도 유의해야 한다.
파일명 끝 문자인 파일 확장자를 통해 파일 형식을 식별할 수 있다. 우리가 주로 사용하는 파일 형식은 다음과 같다.
실무에서 엑셀 스프레드시트는 '무엇이든 가능하지만 특별한 능력은 없는 도구(?)'로 비견된다. 엑셀 스프레드시트는 데이터를 저장하고 분석 처리를 하는 데에도 사용될 수 있다. 하지만 각각의 스프레드시트가 사용자 정의된 독특한 형태를 취할 수 있다는 유연성이 오히려 특정 스프레드시트에서 원하는 데이터를 선택하는 데 어려움을 초래할 수도 있다.
스프레드시트를 포함한 많은 데이터 도구가 CSV(Comma-separated values) 파일을 입력할 수 있도록 허용하기 때문에 운영체제, 데이터베이스, 웹 사이트 다운로드 시스템 등이 이 파일 형식으로 사용자에게 데이터를 제공한다. CSV 파일 형식은 데이터를 쉼표(Comma)로 구분하고, 행 바꿈은 파일 내의 새 줄로 인식된다.
TXT 파일 형식은 쉼표로 데이터를 구분하지 않는 만큼 CSV 파일 형식보다 훨씬 더 단순하다. 대신 문자의 수로 데이터를 구분할 수 있기에, 먼저 사용하고자 하는 TXT 파일의 구조 및 내용을 행과 열로 변환하는 방법을 이해해야 한다.
PDF 파일에는 이미지뿐만 아니라 방대한 양의 텍스트가 포함되어 있는 경우가 많아, PDF 파일이 항상 데이터에 관한 내용을 담고 있다고 정의할 순 없다. 다만, PDF 파일에 있는 여러 형태의 자료들은 몇 가지 데이터 도구로 자세히 읽어올 수 있어, 유용한 데이터 자원이 될 수 있다.
이름에서 나타나듯이 공간 파일 형식은 공간 객체(Spatial objects)를 담고 있다. 특히 위치 데이터를 통한 분석을 진행할 때, 점, 선 또는 다각형의 도형 등의 공간 객체가 위치 또는 지리적 경계를 설명한다. 셰이프파일(Shapefiles)에 이러한 정보가 포함되어 있어, 지도와 같은 데이터를 다룰 때 가장 많이 사용된다.
이외에 셀 수 없을 만큼 많은 파일 형식이 분석에 포함될 수 있다. 하지만 이러한 파일 형식은 데이터를 생산한 고유의 소프트웨어 도구에 사용이 제한될 수 있어, 실제로 분석에 사용되는 파일 형식은 몇 가지로 수렴될 가능성이 크다.
앞에서 언급한 파일 형식의 유연성은 데이터를 입력할 때 유용할 수 있지만, 데이터 분석 시 다음과 같은 약간의 어려움이 생길 수 있다.
데이터를 입력하거나 데이터 필드를 추가할 때 공통적인 규칙이나 제어(Control)의 부재는 파일을 다루는 사용자에게 어려움을 야기할 수 있다.
대부분의 데이터 분석 도구는 데이터가 행이나 열의 집합 구조에 정리되어 있어야 한다. 하지만 파일은 간혹 이러한 요구 사항을 충족하지 못할 때가 있다.
예를 들어, 마지막 행에 나열된 데이터의 합계를 표시해야 한다고 가정하자. 올바르게 정렬되지 않은 경우, 이중으로 합산 또는 몇몇 데이터를 제외하는 문제가 발생할 수 있다.
데이터 필드 추가는 데이터 파일에서 쉽게 수행되고 자주 일어나는 작업 중 하나이다. 하지만 이러한 데이터 필드 추가를 적절하게 처리하고, 수반되는 분석 보기 불가 등의 문제를 방지하기 위해 사용 중인 분석 도구의 설정을 잘 확인해야 한다.
또한 예상치 못한 데이터 변경은 커뮤니케이션 장애의 원인이 될 수 있기 때문에, 사람들이 필요로 하는 데이터를 원할 때 볼 수 있도록 확인해야 한다.
분석 결과를 최신 데이터 기반으로 도출하기 위해 데이터 파일을 자주 업데이트해야 한다. 다만, 간혹 분석에 사용된 기법 등의 노출을 수반할 수도 있기 때문에, 데이터가 어떻게 생성되었는지 보여주는 원본 데이터 링크를 반드시 포함할 필요는 없다.
앞에서 설명했듯이 데이터의 잠재적인 편향성을 평가하려면 데이터 출처를 정확히 이해해야 한다. 출처를 정확히 특정할 수 없는 경우, 분석 결과에 미칠 수 있는 영향을 평가하기 어렵다.
데이터 파일의 출처가 명확하다고 해서 데이터 파일 변경 내역을 알 수 있는 것은 아니다. 이러한 경우 원본 데이터가 변경, 계산, 조작 등이 발생했는지 알 수 없고 잘못된 결론을 도출할 수 있는 등 문제를 발생시킬 수 있다.
일반적인 경우 변경 내용을 작성하는 데 공식적인 프로세스가 거의 없어, 데이터 파일에 값을 잘못 입력하거나 덮어쓰기 쉽다.
데이터 파일은 대량의 데이터를 저장, 처리하기 위해 만들어지지 않았다. 그러므로 대부분의 파일 형식은 저장할 수 있는 행 수가 제한된다.
하지만 데이터 수집이 쉬워짐에 따라 데이터 크기가 기하급수적으로 커지고 있다. 엑셀의 경우 파일 형식이 보관할 수 있는 데이터양을 늘렸음에도 불구하고, 분석에 필요한 데이터를 충분히 저장할 순 없다. 또한 데이터 분석 도구에서 큰 데이터 파일을 연결할 때 이용 속도가 느려지는 문제를 발생시키기도 한다.
데이터가 어떤 목적으로 생성되었는지 이해가 부족하면 데이터를 잘못된 방향으로 사용할 수 있다. 데이터 파일은 특정 그룹, 목적에 초점을 맞춘 연구 결과이거나 데이터베이스 쿼리의 결과물이다. 하지만 이 맥락을 망각하고 데이터셋을 전체 모집단으로 가정하는 등의 행위는 잘못된 분석 결과를 도출할 수 있다.
데이터로 작업하는 경우 데이터 파일을 사용할 가능성이 높다. 데이터 파일에 데이터를 유연하게 입력할 수 있기 때문에 즉각적인 데이터 분석을 할 수 있다.
그러나 분석을 안정적으로 대량생산 하거나 자동으로 실행되도록 설정하는 경우에는 입력 파일을 더 잘 제어하여 데이터 처리 오류와 분석에서 잘못된 결과가 도출되는 것을 방지해야 한다.
이 글은 <데이터로 전문가처럼 말하기> 도서 내용 일부를 발췌 편집하여 작성되었습니다. 상황별, 직무별로 다른 데이터 커뮤니케이션 기술과 노하우에 대한 보다 자세한 내용은 하기 링크의 도서에서 만나보실 수 있습니다.
최신 콘텐츠