[spotfire] 19. 데이터 처리 - Data canvas



data canvas를 한 문장으로 정리하면 data table 하나를 기준으로 어떤 변환들을 어떤 순서로 진행했는지가 이미지로 표현되어 나오는 기능입니다. 이 기능이 필요한 이유는 변환들 종류와 순서의 재현성을 보장하면서 이해하기 쉽게 시각화 했기 때문입니다. spotfire를 일회성으로 차트를 그리고 끝낸다면 최종 결과가 어떻게 표현되는지가 중요하지만, spotfire를 양식으로 반복해서 사용하기 위해 양식을 만들어 저장할 경우 동일한 결과 형태를 만들기 위해 어떻게 변환했는지 순서는 어떻게 했는지 등의 변환의 종류와 순서가 매우 중요합니다. spotfire에서는 저장된 파일을 로드 할 경우 사용자가 파일을 만들 때 실행했던 모든 기능들, data loading 부터 최종 결과까지의 모든 변환과 순서를 spotfire가 동일하게 진행합니다. 따라서 로드하는 데이터가 일부라도 틀려지거나, 변환 종류나 순서가 조금이라도 의도와 다르게 틀어지면 오류가 발생하며 원하는 최종 결과는 많은 경우 산출되지 않게 됩니다. data canvas는 사용자가 spotfire로 진행했던 일련의 과정들을 data table에 적용된 변환종류와 순서를 시각적으로 표현하여 이해하기 쉽게 도와주는 기능을 합니다. data canvas에서는 시각적 표현에 추가하여 spotfire에 기록 된 일련의 과정들을 생성, 수정, 삭제가 가능하며, 각 변환 후 변환 결과도 일부 보여주기 때문에 복잡한 변환이 많을수록 여기서 작업이나 관리를 하기 편리합니다. 즉, data canvas 밖에서 진행된 데이터 처리들은 직관적이고 간편하게 적용할 수 있지만, 데이터 구조가 복잡하고 정교한 기능 구현시에는 data canvas가 데이터 처리 순서와 과정들을 보여주고 생성, 수정, 삭제가 가능하기 때문에 data canvas를 사용하는 것이 좋습니다. data canvas는 아래의 위치를 통해 접근 가능합니다.

위치 : data - data canvas 또는 data canvas

data canvas 위치

Data canvas 화면

Data canvas 화면

data canvas에서는 하나의 data table를 기준으로 data table의 변경에 대한 프로세스별 순서와 전반적인 처리내용 그리고 각 변경 간의 변경 내용을 보여줍니다. 화면 상단에는 data canvas에서 보여주는 data table을 선택할 수 있습니다. 그 옆에서는 data table의 이름 변경, 데이터 교체, 삭제와 같은 간단한 설정들을 할 수 있습니다. 중앙에는 main 화면이 나타나며 이 곳에서 data table과 각종 변환들과 설정들의 내용과 순서를 시각화 하여 보여줍니다. main 화면에서 최초의 불러오기 했을 때의 data table 부터 이후 왼쪽에서 오른쪽으로 갈수록 내부 변환과 외부 변환을 거쳐 최종 data table로 완성되기까지 순서와 처리내용이 표시 됩니다. 각 사각형의 object는 data table 단위로 선택할 수 있으며, data table 선택 시 아래쪽 transformation 화면에서 내부 변환 내용을 보여주고, 미리보기 화면에서 처리 후의 결과를 제공합니다. 마지막으로 우하단에서는 row-column 정보를 제공하여 미리보기로 가늠하기 어려운 전체적인 크기에 대한 정보를 제공합니다.

data cancas의 요소

data canvas 요소들

위 그림은 main 화면에서 사용되는 요소들에 대한 설명입니다. data table을 나타내는 사각형 object 단위로 main 화면이 구성됩니다. 왼쪽에는 data source에서 data table을 로드하는 것에서부터 오른쪽으로 화살표가 진행되면서 data table 내 변환, data table 간 변환 등이 진행되며 마지막으로 최종 data table이 배치됩니다. 일련의 과정들을 통해 분석에 사용된 최종 데이터 테이블을 작성하는 방법에 대한 insight를 얻을 수 있습니다.

일부 data source 유형의 경우 노드 하단의 버튼을 클릭하고 다른 설정으로 전환하여 데이터로드 설정을 변경할 수 있습니다. 가능한 경우 데이터 소스에 대해 링크 된 데이터를 다시 로드 할 수도 있습니다. 하지만 일부 노드는 원본 소스에 엑세스 할 수 없습니다. 예를들어 클립 보드에서 데이터를 추가한 경우처럼, 이 경우 사용 가능한 유일한 옵션은 저장된 데이터 입니다. data table에서 데이터 처리가 진행되며, 화살표의 (+) 버튼 또는 data table 선택시 transformation 화면에서 data table 내 변환을 설정 가능합니다. data table 내 변환은 column / row의 생성, 수정, 삭제와 같이 data table 내에서 할 수 있는 데이터 처리들을 말합니다. data table 내 변환을 설정하면 data table 위에 변환한 개수가 표기 됩니다. data table 간 변환은 아래쪽에 덧붙이는 data table object 가 나타나며, 하나의 obejct로 합쳐집으로서 merge를 표현합니다. data table 간 변환은 column / row의 merge를 뜻합니다. 사각형 object의 아래쪽 기어를 통해 merge 설정을 수정할 수 있고 좌상단 휴지통 버튼을 통해 삭제도 가능합니다.

이것들을 바탕으로 data canvas의 main 화면에 표시된 내용을 설명 드리겠습니다. data table 내 변환은 사각형 object의 변경없이 동일한 object 내에서 설정되며, 설정 내역은 해당 사각형 object의 우상단에 숫자로 표시됩니다. 자세한 data table 내 변화은 아래쪽의 transformation 화면에 구체적으로 순서와 종류가 표시됩니다. data table 간의 변환에서 사각형의 object는 다른 사각형 object와 만나 새로운 사각형 object로 표시됩니다. data table 간의 변환은 새로운 사각형의 object 밑 부분에 기어 표시로 설정 또는 변경할 수 있습니다. 그리고 모든 변환이 끝난 최종 결과물은 오른쪽 사각형 object 로 표현됩니다. 화살표는 순서를 나타내며, (+)를 선택하면 이전 object의 data table 내 변환을 추가할 수 있습니다. 그림의 data canvas 내용을 정리하면, 왼쪽의 data table 원본은 1가지 data table 내 변환을 거친 후, 다른 data table과 add column 변환을 진행했습니다. 이후 data table 내 변환을 한번 하고 다른 data table과 add row 변환을 하고 최종적인 data table 결과를 얻었습니다. 이처럼 data canvas는 대상 data table의 변환 종류과 순서를 잘 정리한 그림입니다. 또한 생성, 수정, 삭제가 가능하며 이를 넣을 때에도 종류와 순서를 잘 고려해야 합니다. 이 프로세스는 데이터 처리 속도에도 영향을 주기 때문에 최대한 단순하고 명료하게 구성하는 것이 좋습니다.

다만 아쉬운 것은 data canvas가 보여주는 단위가 하나의 data table 이라는 것 입니다. data table 전체 간의 관계나 변환 모습을 보여주는 기능이 있었다면 더 폭 넓게 데이터에 대한 이해와 활용이 가능했을 것으로 예상합니다.



댓글 쓰기

0 댓글