산점도는 두 변수 간의 관계를 보여주는 시각화 차트입니다. 대부분의 시각화 차트의 목적이 원인과 결과 또는 시간에 따른 변화를 보여주기 위함이기 때문에, 산점도는 시각화 차트에서 가장 많이, 보편적으로 사용합니다. 적절한 시각화 차트 종류가 생각나지 않는다면 일단 산점도로 표현해 보는 것도 좋습니다. 산점도는 빈번하게 사용되고 활용도가 높아서, 산점도를 통해 할 수 있는 것들을 상세한 예시와 함께 설명 드리겠습니다.
산점도의 분석
산점도는 활용도가 높은 그래프인 만큼 특정 분야에는 잘 활용 중인 형식들이 있습니다. 이상치, 회귀분석, 그리고 집계는 자주 활용되는 분야인 만큼 그래프 그리는 방법과 그래프의 의미를 파악하고 있으면 좋습니다.
- 이상치
앞서 말했듯이 산점도는 시계열 그래프나 원인-결과 그래프에서 많이 사용 됩니다. 이러한 그래프를 그렸을 때 할 수 있는 분석 중에 하나는 이상치 탐색입니다. 이상치는 일정 범위 이상 벗어나지 않는 추세를 이탈하는 점을 뜻합니다. 시계열 그래프와 원인-결과 그래프에서 이상치는 아래의 그림처럼 나타납니다.
산점도의 각 그래프에서 이상치
시계열 그래프 역시 시간을 원인으로 하는 원인-결과 그래프와 동일한 의미를 가집니다. 따라서 위 그래프들은 원인과 결과의 추세에서 이탈한 이상치들을 산점도를 통해서 발견할 수 있습니다. 이러한 이상치 탐지는 실시간 모니터링 시스템을 만들 때 많이 사용합니다. 실시간 모니터링을 위해 관심있는 변수들로 시계열 산점도를 그리면 그래프에서의 이상치 발생 시 빠르게 알 수 있습니다.
- 회귀 분석
회귀 분석은 원인과 결과 사이의 관계를 판단하는데 중요하게 사용됩니다. 회귀 분석 그래프를 그릴 때에는 산점도를 많이 사용하며, spotfire에서는 lines & curves tab에서 회귀 분석을 사용할 수 있습니다.
산점도에서의 회귀 분석
- 집계
산점도에서의 집계 함수 사용
산점도에서도 집계 함수를 사용할 수 있습니다. maker 설정을 특별하게 하지 않는 이상, x축에 대응되는 데이터들로 y축의 집계 함수를 이용하여 집계 값을 표시합니다.
다차원 표시
spotfire의 시각화 차트를 설명할 때, x축과 y축 이외의 차원도 여러가지 방법으로 표시 할 수 있다고 말씀 드렸습니다. 다른 시각화 차트에서도 사용할 수 있지만, 산점도에서 특히 다양한 방법을 이용해 표시 할 수 있습니다. spotfire에서 활용할 수 있는 거의 모든 방법이 산점도에서 가능합니다. 대표적으로 색, 크기, 격자, 모양, 그리고 회전이 있습니다.
동일한 그래프를 다차원으로 표현
위 그래프는 좌상단의 x축과 y축만을 사용하여 그린 행정구역별 인구 유입건수 그래프 입니다. 나머지 그래프는 하나의 방법들만 사용해서 1개의 추가 차원을 표시한 그래프들 입니다. 위에서 언급한 색, 크기, 격자, 모양, 회전을 사용해 본 결과들이며, 실제 사용 시에는 데이터에 잘 맞고, 시각화로 잘 드러나는 방법들을 취사 선택하여 사용하면 됩니다.
차트 변형
산점도 그래프는 다양한 그래프로 변형이 가능합니다. 정확히 말하자면, 산점도의 각 요소들을 잘 변화시키면 버블차트나 바둑판 차트와 같은 특수한 형식을 가지는 그래프들로 만들 수 있습니다. 이러한 버블 차트나 바둑판 차트는 비교적 많이 활용되는 그래프이기 때문에 만드는 방법을 구체적으로 알고 있으면 많은 도움이 될 것 입니다.
- 버블 차트
버블 차트는 산점도로 나타낸 그래프에서 점의 section을 나누고 크기를 변형시킨 그래프 입니다. 파이 그래프에서 파이들을 산점도에 붙인 모습과 유사합니다. 버블 차트를 만들기 위한 설정도 모양을 파이로 설정한 후에는 파이 그래프와 유사합니다. 아래쪽은 버블 차트를 표현한 모습과 버블 차트를 만들기 위한 설정들 입니다.
버블 차트 예시
spotfire에서 위와 같은 버블 차트를 만드는 것은 쉽습니다. 설정의 shape tab에서 시각화 차트에 표현되는 모양들을 선택할 수 있습니다. 여기에서 파이(pie)를 사용할 수 있으며, 이후의 설정들은 파이 그래프와 동일하게 section의 크기, 색, 그리고 파이의 크기를 설정하면 됩니다.
버블 차트를 만들기 위한 설정
위 그림은 shape tab에서 설정할 수 있는 모양들을 나타냅니다. 첫 번째로 fixed shape는 고정된 모양을 선택할 수 있습니다. 도형부터 시작해서 화살표나 O, X 마크와 같은 것들을 설정할 수 있고, 속이 빈 모양도 선택 가능합니다. 두 번째로 shape by column values는 표시되는 모든 점들이 하나의 모양이 아닌 설정된 값에 따라 모양을 선택하는 것 입니다. 주로 형식이 categorical variable에서 사용합니다. 세 번째로 tiled markers는 x축과 y축의 간격에 맞게 사각형의 타일 모양으로 나타내는 것입니다. 이는 아래의 바둑판 차트를 만들 때 사용합니다. 마지막으로 pies를 사용할 수 있습니다. 단, pie 모양을 사용하기 위해서는 marker by tab에서 none을 선택해야 활성화 단추로 바뀌게 됩니다. pies 선택 후에는 파이 그래프를 설정하듯이 section의 크기와 나타낼 값, 색과 파이의 크기를 차례로 설정해주면 버블 차트를 만들 수 있습니다.
- 바둑판 차트
다음으로 소개할 차트는 바둑판 차트 입니다. 위의 버블 차트 못지 않게 많이 활용되며, 특히 2가지 차원에 대한 경우의 수를 표현할 때 많이 사용됩니다. 아래는 바둑판 차트의 예시와 이를 만들기 위한 설정입니다.
바둑판 차트와 설정 방법
위 그림은 두 사람 간의 MBTI 궁합 차트 입니다. 두 사람의 MBTI 경우의 수에 대한 궁합 값을 각 격자에서 색으로 표현하였습니다. 바둑판 차트를 만들기 위해서는 설정의 shape tab에서 tiled shapes 를 선택하면 됩니다. 선택 시, 산점도의 각 점은 x축과 y축에서의 간격을 최소로 하는 사각형 타일 모양으로 바뀝니다. 각 타일의 색을 설정해 주면 두 사람의 MBTI 궁합표를 완성할 수 있습니다.
다른 종류의 시각화 차트를 이용한 바둑판 차트 그리기
바둑판 차트는 다른 방법으로도 만들 수 있습니다. 위 그림의 왼쪽은 히트맵으로 그린 바둑판 차트 입니다. 각 타일 대신 히트맵에서의 격자로 대체하여 바둑판 차트를 그려 보았습니다. 위 그림에서 가운데 차트는 산점도에서 각 타일로 설정한 것 대신, fixed shape에서 사각형을 선택하고 크기를 변화시켜 그린 바둑판 차트 입니다. 이렇게 그리면 타일의 크기를 변화시킬 수 있지만, 차트의 크기를 바꾸거나 각종 설정을 변경시키면 만들어 놓은 형식도 어그러질 수 있습니다.
차트 모습
위와 같이 산점도를 활용하는 다양한 방법들에 대해 알아 보았습니다. 산점도의 단점 중에 하나는 2차원 평면으로 구성되어 점이 겹치거나, 점의 크기가 달라 다른 점에 가려서 제대로 나타나지 않을 수 있다는 단점이 있습니다. 이를 위해 spotfire에서는 값을 약간 오차를 주더라도 여러개의 점이 있음을 표시해 주는 기능이 있습니다. 그것은 appearance tab의 투명도와 흐트러짐 설정입니다. 투명도는 산점도의 점들을 투명화하여 뒤에도 점이 있음을 보여주는 기능입니다. 흐트러짐은 다소 값이 변경되더라도 점을 원래 값에서 조금 옮겨서 각 점들이 잘 보이게 해주는 기능입니다.
산점도의 appearance tab에서의 설정
위 그림을 보면 기본에서 값이 겹쳐보였던 점들에 대해서 흐트러짐 설정 시, 여러 점이 있음을 파악 할 수 있습니다. 특히 흐트러짐을 크게 설정 할수록 여러 점이 겹치지 않아 점들이 많음을 알 수 있습니다. 흐트러짐은 실제 점들의 값을 변화시키는 것이 아닌, 시각화 차트에서만 값에 오차를 주어 실제 값은 변화 없이 유지됩니다. 흐트러짐을 과도하게 사용하면 실제의 모습을 왜곡시킨다는 단점이 있지만, 겹치는 점을 볼 수 있다는 것에서 유사한 값들이 많은 산점도에서는 흐트러짐을 적용할 수도 있습니다.
0 댓글