[spotfire] 7. 데이터 처리 ① - 데이터 확인, 필터와 필터링 스키마




7. 데이터 처리

앞서 Spotfire를 활용하여 시각화 차트를 그리는 방법과 차트 종류 별 차트 세부 사항들을 그리는 방법을 배웠습니다. 지금까지 배웠던 기능을 활용하면 데이터 테이블에 나와 있는 내용을 차트로 표현할 수 있지만, 데이터 테이블에 없거나 조금이라도 다른 내용들은 표현할 수 없습니다. 이제부터는 데이터를 확인하고, 생성하고, 삭제하고, 수정하는, 데이터 처리 과정을 배울 차례입니다. 데이터 처리를 이용하여 데이터 테이블에 없는 데이터들을 생성, 삭제, 변환 등을 통해 궁극적으로 우리가 원하는 시각화 차트를 완성할 수 있습니다.

 


7.1. 데이터 확인하기

데이터 처리의 첫 번째로 데이터 테이블을 확인하는 방법을 소개합니다. 데이터를 확인한다는 것은 현재 데이터 테이블이 가지고 있는 컬럼과 로우를 안다는 것입니다. 데이터 확인은 처음 데이터 테이블을 불러올 때부터 그려진 시각화 차트의 내용을 확인할 때까지 데이터 처리를 하는 매 과정마다 필요한 매우 기본적이고 필수적인 내용입니다. 이를 확인하는 4가지 방법을 중요하고 잘 활용하는 순서로 소개합니다.

 

1. 상태 알림 패널

2. , 클로스 테이블 활용

3. 데이터 캔버스(Data canvas)

4. 분석의 데이터(Data in analysis)


 

l  7.1.1. 상태 알림 패널

상태 알림 패널은 Spotfire를 처음 소개할 때 보여드린 적이 있습니다. 현재 사용하고 있는(가장 최근에 클릭한 시각화 차트) 데이터 테이블의 상태를 간략히 요약한 내용입니다.

 


상태 알림 패널에서 데이터 확인하기

 

상태 알림 패널이 표시해주는 내용은 왼쪽에서부터 로우 개수, 선택한 로우 개수, 컬럼 개수, 데이터 테이블 이름을 나타냅니다. 매우 간단한 데이터이지만 spotfire UI의 한 부분에 고정적으로 표시되기 때문에 데이터 확인 필요한 매 과정, 순간마다 간단하고 빠르게 확인하기 좋습니다. 가령 컬럼을 추가하는 데이터 처리 과정에서 컬럼의 수를 확인하고 이전에 비해 증가 했는지를 확인하면 컬럼 추가 과정이 진행되었음을 확인할 수 있습니다.

 

 

l  7.1.2. 표와 크로스테이블

표와 크로스테이블은 시각화 차트로 보여줄 수도 있지만, 데이터 테이블 내용을 확인하는 용도로도 많이 활용합니다.

 


표와 크로스 테이블

 

표는 데이터 테이블의 전체적인 모습과 추가적인 작업으로 세부 데이터도 확인할 수 있습니다. 또한 데이터 처리 시 적용되는 내용들을 그대로 적용되기 때문에 데이터 처리가 적절하게 적용되었나 또는 적용한 데이터 처리가 내 의도와 맞나 등을 확인할 수 있습니다. 또한 다른 중요한 기능 중 하나는 마킹과 데이터 제한을 통해 시각화 차트의 일부를 확인할 수 있다는 점입니다. 자세한 설명은 뒤의 마킹 부분에 나오지만, 간략히 설명하면 선택한 로우는 모든 시각화 차트에 공통으로 표시할 수 있습니다. , 시각화 차트에서 데이터를 선택하면 동일한 데이터 테이블의 시각화 표에서도 선택한 데이터가 표시됩니다.

 


표를 이용하여 데이터 확인하기

 

위 그림은 표를 이용하여 데이터를 확인하는 모습을 보여주고 있습니다. 왼쪽 산점도에서 확인하고 싶은 데이터 일부를 선택하면, 마킹과 데이터 제한을 통해 선택한 데이터만을 오른쪽의 표에 나타낼 수 있습니다. 위 그림에서 선택한 데이터는 총 12개 데이터(로우)이며, 표를 확인하면 선택된 데이터의 세부 내용도 확인할 수 있습니다.

크로스테이블의 주기능은 집계 하는 것입니다. 집계 함수와 방법에 따라 데이터 테이블의 유용한 정보들을 요약하여 표현해줄 수 있고, 이를 결과로써의 시각화 차트가 아닌 데이터 확인을 위한 용도로 사용할 수도 있습니다.

 


크로스 테이블을 이용하여 데이터 확인하기

 

위 그림은 크로스 테이블을 이용하여 데이터를 확인하는 모습을 보여주고 있습니다. 왼쪽 산점도에서 확인하고 싶은 데이터 일부를 선택하면, 마킹과 데이터 제한을 통해 선택한 데이터만을 오른쪽의 크로스 테이블에 나타낼 수 있습니다. 크로스 테이블에는 Ticker Year에 따른 데이터의 개수를 표현한 크로스 테이블입니다. 예를 들면, 선택한 데이터에서 C 종목은 2016Y ~ 2020Y 까지 모든 연도별 데이터를 선택하고 있다는 의미입니다.

 


l  7.1.3. 데이터 캔버스

데이터 캔버스(Data canvas)는 데이터 로드, 처리 등의 과정을 순서대로 보여주는 흐름도 입니다. 데이터 캔버스는 데이터 처리 과정을 한눈에 파악할 수 있게 합니다. 또한 각 처리 과정 후의 데이터를 보여주기 때문에 현재 과정에서의 데이터 이외에도 모든 데이터 처리 후의 데이터를 볼 수 있습니다. 가령 데이터 로드 후 중복 값을 제거하고 새로운 컬럼을 만드는 처리를 했다면 최종적인 결과 데이터 테이블 이외에도 각 데이터 처리 과정 후의 데이터 테이블의 모습을 확인할 수 있습니다. 데이터 캔버스에 대한 자세한 내용은 후술합니다.

 


데이터 캔버스를 이용하여 데이터 확인하기

 


l  7.1.4. 분석의 데이터

분석의 데이터(Data in analysis)는 시각화 차트를 넣어주는 기능도 있지만, 상세한 데이터 목록들과 형식, 순서 등에 대한 정보를 주는 기능도 하고 있습니다. Spotfire에서 데이터는 값(Value)와 형식(Type)을 가지고 있습니다. 분석의 데이터에서는 데이터의 값을 보여주기도 하지만, 많은 기능들이 형식에 대한 확인과 수정에 대한 기능들입니다.

위치: 분석의 데이터 - 컬럼 선택 - 기어 아이콘



분석의 데이터에서 데이터 확인

 

위 그림에서 분석의 데이터를 클릭하면 패널이 나옵니다. 패널에서는 데이터 테이블을 선택할 수 있고, 데이터 테이블을 선택하면 데이터 테이블 내의 컬럼들이 카테고리 별로 정리되어 나타납니다. 컬럼을 선택하면 오른쪽에 추천 그래프를 표시해 줍니다. 이 기능은 앞서 차트 그리는 방법 중 하나였습니다. 상단의 기어 아이콘을 클릭하면, 컬럼의 상세한 세부 설정 값들을 볼 수 있습니다. 세부 설정 값으로는 컬럼 이름, 통계 값과 분포, 컬럼 분류(Categorize column), 데이터 유형(Data type), 서식 지정(Formatting), 기본 집계 방법(aggressive method), 정렬 순서(Sort order), 비어 있는 값(Empty value) 그리고 데이터 리스트들이 기술됩니다. 이 항목들은 컬럼의 카테고리 별로 약간씩 차이가 납니다. 이러한 세부 설정 값은 바꿀 수 있고, 꼭 필요한 세부 설정 값에 대해 살펴보겠습니다.


 

n 컬럼 분류(Categorize column)과 데이터 유형(Data type)

Spotfire에서 데이터 유형을 컬럼 분류(Categorize column)와 데이터 유형(Data type) 2가지 단계로 분류합니다. 일차적으로 컬럼 분류에서 형식을 설정하면, 데이터 유형에서는 세부적인 형식을 추가적으로 설정할 수 있습니다. 보통의 경우 Spotfire에서 자동으로 형식을 부여하기 때문에 신경 쓰지 않아도 되지만, 특별한 형식을 필요로 하는 경우, 사용자가 직접 확인하고 변경해 주는 것이 좋습니다. 대표적인 것들이 시간-숫자(문자), 숫자-문자 또는 문자-식별자 등이 있습니다. 예를 들면, 2020-01-01의 경우 Spotfire에서는 시간으로 부여되지만, 데이터 처리를 위해 숫자나 문자로 형식을 변경해야 되는 경우가 있습니다. 이 때 컬럼 분류와 데이터 유형을 따로 변경해 주시면 됩니다.

 

n 서식 지정(Formatting)

서식 지정은 해당 컬럼에서 데이터를 표현하는 방법을 나타냅니다. 실제 데이터 값이 변하지는 않지만, 사용자가 보는 모습을 원하는 모습으로 바꿀 수 있습니다. 분석의 데이터에서 설정하는 방법이 기본값이 되어 시각화 차트에 표시됩니다. 물론 시각화 차트에서 차트 속성의 서식을 각 차트마다 따로 설정할 수도 있습니다.

 


분석의 데이터에서 서식 지정 또는 차트 속성에서 서식 지정

 

n 정렬 순서(Sort order)

정렬 순서(Sort order)는 표기할 순서를 나타냅니다. 표를 제외한 대부분의 시각화 차트에서는 컬럼을 표기할 때 데이터의 형식에 따라 숫자는 작은 것부터 크게 진행되는 오름차순, 문자는 a부터 z까지, ㄱ부터 ㅎ까지의 순서 등의 기본적으로 설정된 기본값이 있습니다. 하지만 임의로 부여한 순번으로 표기하고 싶은 경우가 많습니다. 이럴 때에는 분석의 데이터에서 정렬 순서 변경을 통해 순서를 바꿀 수 있습니다. 특히 정렬 순서는 분석의 데이터에서만 설정할 수 있기 때문에 필수적으로 알고 있어야 합니다.

 

 

분석의 데이터에서 정렬 순서


 

7.2. 필터와 필터링 스키마

필터(FIlter) Spotfire에서 자주 사용하는 기능 중 하나 입니다. 필터는 말 그대로 거르고 싶은 데이터들을 걸러주는 역할을 합니다. 서식(Formatting)과 유사하게 필터는 실제 데이터나 데이터 테이블의 변형없이 시각화 차트로 표현될 때에만 필터 기능이 작동합니다. 필터는 각 컬럼 별로 조건을 부여하여 작동합니다. 따라서 여러 개의 컬럼에 여러 개의 조건을 부여할 수 있으며, 조건들의 교집합이 최종적으로 표현됩니다. 한편, 필터링 스키마(Filtering scheme)는 필터 조건들의 세트 입니다. 앞서 여러 개의 컬럼에 여러 개의 조건을 부여한 필터를 이름을 부여하여 필터링 스키마를 정의할 수 있습니다. 시각화 차트에서 필터링 스키마를 on, off로 사용할 수도 있고, 여러 개의 필터링 스키마를 번갈아 가면 적용해 볼 수도 있습니다.


 

l  7.2.1. 필터

n 필터 패널 접근 방법

필터를 적용하는 방법은 크게 2가지 방법이 있습니다. 첫 번째는 툴바의 필터를 누르면 생성되는 오른쪽 필터 패널을 사용하는 방법입니다. 두 번째는 분석의 데이터(Data in analysis)에서 컬럼 오른쪽에 표시되는 필터를 사용하는 방법입니다. 첫 번째 방법이 필터만 보여주는 패널이 따로 생성되기 때문에 많이 사용됩니다. 본문에서도 이 방법을 주로 설명 드릴 예정입니다.

위치: 툴바 - 필터 / 분석의 데이터 - 컬럼이름 오른쪽 - 필터

 


필터 패널 접근 방법

 

n 필터 사용

필터를 사용하는 방법은 매우 간단합니다. 필터 패널은 모든 데이터 테이블과 컬럼을 세로로 나열 시켜 줍니다. 여기서 필터 사용이 필요한 데이터 테이블의 컬럼을 찾아 조건을 부여하면 됩니다. 아무런 필터 조건이 사용되지 않은 컬럼에는 모든 값이 선택되어 있습니다. 필터 조건을 부여하는 방법은 제외할 값에 대해서 선택되지 않도록 만들면 됩니다. 한편, 한 컬럼에는 하나의 필터 조건만 사용할 수 있습니다. 예를 들면, EPS 컬럼에 값이 양수인 조건을 사용한다면, 다른 조건인 값이 음수인 조건은 동시에 사용할 수 없습니다. 이처럼 다른 조건을 사용하려면 후술하는 필터링 스키마를 적용해야 합니다. 또한 여러 컬럼에 필터를 사용할 때에는 and 조건으로 적용됩니다. , 사용된 필터의 교집합만이 최종적으로 차트에 적용됩니다. Or 조건은 필터에서 불가능하지만, 약간 변형하여 (AnBc)+(AnB)+(AcnB) 으로 선택하는 방법을 사용할 수 있습니다.

 


필터 유형 변경 방법과 필터 유형 6가지


 

n 필터 유형

필터 유형은 컬럼 값을 보여주는 방법을 의미합니다. 적절한 필터 유형을 사용해야 원하는 필터 조건을 부여하기 편리합니다. 필터 유형은 6가지가 있습니다. 이 중에서 컬럼의 데이터 유형(Data type)에 따라 사용할 수 있는 필터 유형도 정해져 있습니다. 하지만 리스트박스 필터가 모든 데이터 유형에 적용할 수 있으면서도 편리하기 때문에 가장 많이 사용됩니다.

 

 

필터 유형 변경 방법과 필터 유형 6가지

 

- 범위 필터(Range Filter): 각 데이터 값을 하나의 선으로 표현하고 양 끝 값을 조절하여 특정 범위로 선택하는 필터입니다. 주로 숫자로 표현되는 연속 데이터에 적합하지만 문자 역시 정렬(Sorting) 순서로 정렬되어 범위를 선택할 수 있기 때문에 모든 데이터에 적용할 수 있습니다.

- 항목 필터(Item filter): 범위 필터와 유사하게 하나의 선으로 표시하지만 그 중 하나의 값만 선택할 수 있는 필터입니다. 모든 데이터에 적용할 수 있지만 범위 필터의 하위 호환입니다.

- 체크박스 필터(Checkbox filter): 모든 값을 나열하고 각 값의 사용 여부를 체크박스로 선택하는 필터입니다. 모든 값을 나열하기 때문에 연속 데이터에는 사용할 수 없고, 컬럼 내 데이터 종류가 많으면 나열하는 길이도 길어져 사용하기는 부적합 합니다. 주로 제한된 명목 데이터에 많이 사용합니다.

- 라디오 단추 필터(Radio button filter): 체크박스 필터와 유사하게 모든 값을 나열 후 하나의 값만 선택할 수 있는 필터입니다. 체크박스 필터의 하위 호환입니다.

- 텍스트 필터(Text filter): 텍스트를 입력할 수 있고 특정 기호와 같이 사용하여 조건을 부여해 선택할 수 있습니다. 주로 활용하는 방법은 '*검색어*'로 검색어를 포함하는 모든 경우를 검색해 줍니다. 참고로 Spotfire에서는 텍스트 필터를 포함한 모든 텍스트 검색은 아래와 같은 기능을 가집니다.

 

1. /소문자 구분을 하지 않음

2. 검색어 사이 공백은 두 검색어를 모두 포함하는 데이터를 검색함

3. 검색어 사이 or 은 적어도 하나의 검색어를 포함하는 데이터를 검색함

4. 단순 검색어는 검색어로 끝나는 데이터를 검색하고 검색어* 는 검색어가 포함된 데이터를 검색함

 

- 리스트박스 필터(Listbox filter): 텍스트를 검색할 수 있는 리스트 박스를 제공합니다. 리스트 박스에는 모든 값들이 나열되며, 선택이 가능합니다. , 텍스트 필터와 체크박스 필터의 기능을 동시에 가지기 때문에 가장 활용성이 높은 필터입니다.


 

n 필터 적용 예시

예시 데이터 테이블에서 필터를 적용해 보겠습니다. 산점도 차트에서 EPS가 양수, 그리고 종목 A, D, E 만을 표현하겠습니다.

 

 

필터 적용 예시

 

먼저 툴바의 필터를 눌러 필터 패널에 접근하여 종목, EPS 컬럼에서 필터 유형을 살펴 봅니다. 모두 리스트박스 필터를 적용하면 간단하지만 여러 유형의 필터를 써보기 위해 Ticker에는 리스트박스 필터, EPS에는 범위 필터를 적용합니다. Ticker에서는 Ctrl + A, D, E 선택합니다. EPS에서는 최소점을 0으로 옮겨 양수 범위를 선택합니다. 적용된 필터는 아래쪽에 모두 표시됩니다. 시각화 차트에서는 x축에 종목 A, D, E만 표시되고, 산점도의 점들은 EPS가 양수인 로우들만 남아 표시되는 것을 확인할 수 있습니다.


 

l  7.2.2. 필터링 스키마

필터 조건 여러 개를 묶어 하나의 세트로 만든 것을 필터링 스키마(Filtering scheme)라고 합니다. Filtering scheme 이름의 필터링 스키마가 기본 값으로 설정되어 있습니다. 시각화 차트에는 Filtering scheme가 기본 값으로 적용되어 있기 때문에 필터를 적용하면 시각화 차트에 바로 필터 조건이 반영됩니다. 필터링 스키마는 아래의 위치에서 생성할 수 있습니다.

위치: 파일 - 문서 속성 - 필터링 스키마 / 툴바 - 필터 우클릭 - 필터링 스키마 메뉴 표시

 


필터링 스키마 실행 위치

 

필터링 스키마 생성 후 필터 조건들을 선택하면 자동으로 필터링 스키마에 필터 조건이 저장됩니다.


 

n 차트에 필터링 스키마 적용

필터링 스키마를 생성하고 필터 조건들을 적용해 두었으면 시각화 차트에 필터링 스키마를 적용해야 합니다. 시각화 차트에 필터링 스키마를 적용하는 방법은 2가지가 있습니다. 첫 번째는 속성 - 데이터 탭에서 필터링을 사용하여 데이터 제한(Limit data using filterings)에서 적용하고 싶은 필터링 스키마를 선택하는 것입니다. 두 번째는 속성 - 하위 집합 탭 에서 필터링 스키마를 추가하는 것입니다. 2가지 방법 모두 기본값들은 '필터링 스키마'로 적용되어 있습니다. 단순히 차트에 필터링 스키마를 적용하려면 첫 번째 데이터 탭에서 설정하는 것이 편리하여 많이 사용합니다. 두 번째 하위 집합 탭은 필터 조건의 여집합(not in filtering) 등의 선택이 필요할 때 사용할 수 있습니다.

 

 

차트에서 필터링 스키마 적용하는 방법


 

n 필터링 스키마 적용 예시

예시 데이터 테이블을 사용해 필터링 스키마를 생성하고 적용해 보겠습니다. 필터 조건은 필터 적용 예시에서 사용한 EPS가 양수, 그리고 종목 A, D, E 로 적용하겠습니다.

 

 

필터링 스키마 적용 예시

 

 

먼저 기본으로 주어진 필터링 스키마가 있습니다. Filtering scheme는 필터 조건을 부여하지 않았습니다. 한편 위의 필터 조건을 반영한 필터링 스키마를 생성하였습니다. '필터세트2' 이름의 필터링 스키마 생성 후, 필터 조건들을 입력합니다. 차트에 2가지 필터링 스키마의 비교를 위해 차트 속성의 하위 집합 탭에서 2가지 필터링 스키마를 추가 후 선택합니다. 이후 두 개를 분리해서 보기 위해 격자 표시에서 (하위 집합)으로 설정하면 2가지 필터링 스키마의 차이를 한눈에 볼 수 있습니다.

댓글 쓰기

0 댓글