< 데이터 마이닝 >
1. 데이터베이스 개요
데이터베이스는 4가지 의미와 4가지 특성으로 설명될 수 있다.
4가지 의미로는 통제된 중복, 저장 데이터, 운영 데이터, 공용 데이터가 있다.
첫째, 통제된 중복은 통합된 데이터이므로 데이터베이스에서는 똑같은 데이터가 원천적으로 중복되어 있지 않다는 것을 의미한다. 그러나, 경우에 따라서는 효율성을 증진시키기 위해 불가피하게 일부 데이터의 중복을 허용하기도 하는데 이러한 의도적 중복은 항상 파악할 수 있으므로 최소의 중복 혹은 통제된 중복이라 한다.
둘째, 저장 데이터는 책상 서랍이나 파일 캐비닛에 들어 있는 데이터가 아니라 자기 디스크나 테이프와 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장된 데이터를 말하는 것이다.
셋째, 운영 데이터는 데이터베이스에 저장되어 있는 데이터인데, 단순한 입출력 데이터나 작업상 일시적으로 필요한 임시 데이터는 운영데이터로 취급하지 않는다.
넷째, 공용 데이터는 어느 하나의 응용 프로그램이나 응용시스템을 위한 데이터가 아니라, 그 조직에 있는 여러 응용 시스템들이 공동으로 소유하고 유지하며 이용하는 공용 데이터이다.
4가지 특성으로는 실시간 접근성, 계속적인 변화, 동시 공유, 내용에 의한 참조 등이 있다.
첫째, 실시간 접근성은 컴퓨터가 접근할 수 있는 저장 장치에 관리되고 있는 데이터베이스는 수시적이고 비정형적인 질의에 대해 실시간 처리로 응답할 수 있어야 함을 말한다.
둘째, 계속적인 변화는 데이터베이스가 새로운 데이터의 삽입, 기존 데이터의 삭제 및 갱신으로 항상 그 내용이 변하고, 또 그 속에서 현재의 정확한 데이터를 유지해야 하므로 계속적으로 변화해야 되는 데이터베이스를 정확하게 관리한다는 것이 매우 어려운 것임을 말한다.
셋째, 동시 공유는 데이터베이스가 서로 다른 목적을 가진 응용들이 공용할 수 있도록 하기 위한 것이기 때문에 여러 사용자가 동시에 자기가 원하는 데이터에 접근 이용할 수 있어야 함을 말하며, 동일한 내용의 데이터를 여러사람이 서로 다른 방법으로 동시에 공용하게 한다는 것은 그 관리 면에서 복잡할 뿐만 아니라 그것을 어떻게 조작하느냐 하는 측면에서도 아주 복잡하게 된다.
넷째, 내용에 의한 참조는 데이터베이스 환경 하에서 데이터의 참조는 저장되어 있는 데이터 레코드들의 주소나 위치에 의해서가 아니라 사용자가 요구하는 데이터의 내용, 즉 데이터가 가지고 있는 값에 따라 참조된다.
일반적으로 사용자가 참조하기를 원하는 데이터의 조건을 명세하면 이 조건을 만족하는 모든 레코드들은 그들이 어디에 위치하든지간에 하나의 논리적 단위로 취급되고 접근된다.
또한 데이터베이스 구조는 사용자의 입장에서 보느냐, 시스템의 입장에서 보느냐에 따라 논리적 구조화 물리적 구조로 구별이 되는데, 논리적 구조로 표현한 데이터베이스를 논리적 데이터베이스라 하고, 물리적 구조로 표현한 데이터베이스를 물리적 데이터베이스라고도 한다.
논리적 구조는 데이터를 이용하는 응용 프로그래머나 일반 사용자의 입장에서 본 구조로서, 데이터의 논리적 배치를 말하며, 여기에서 취급하는 데이터 레코드들을 논리적 레코드라고 한다. 반면에 데이터베이스의 물리적 구조는 디스크나 테이프와 같은 저장 장치 위에 물리적으로 저장되어 있는 데이터의 실제 구조를 말한다.
하나의 데이터베이스를 표현하는 논리적 구조와 물리적 구조는 당연히 서로 대응 관계를 가짐으로써 동등성을 유지하게 된다.
2. 데이터 마이닝 개요
데이터 마이닝(data mining)은 대량의 데이터로부터 관련된 정보를 발견하는 과정, 즉 지식 발견(knowledge discovery)과정을 의미하며, 인공 지능 분야의 지식 발견과 마찬가지로 데이터 마이닝은 체계적이고 자동적으로 데이터로부터 통계적 규칙이나 패텅을 찾는 것을 말한다. 다만, 데이터 마이닝은 디스크에 저장된 대량의 데이터를 대상으로 한다는 점에서 기계 학습과는 다르다. 갈수록 하드웨어와 소프트웨어 시스템이 발달함과 인터넷의 발달로 인하여 대량의 데이터가 더더욱 대량화 되어 대량데이터의 데이터 마이닝이 중요한 시대가 되었다.
3. 데이터 마이닝 기법 종류
데이터 마이닝의 주요 기법으로는 분류, 연관 규칙, 순차 상관 관계 등이 있다.
첫째, 분류는 주어진 데이터를 분리된 그룹으로 분할하는 규칙을 발견하는 문제로서 이러한 규칙은 나중에 적재되는 데이터가 속해야 될 그룹을 결정하는데 사용되어진다. 예를 들어, 신용카드회사에서 신규 카드 발급을 위한 적부 심사를 하는 경우 신청자의 연령, 학력, 연봉, 부채 금액, 자택 위치 들의 정보를 이용하여 결정을 내리게 된다. 이러한 정보 중 일부는 신용 등급 판단과 관련이 있지만 일부는 관련이 없을 수도 있다.
또한 한 신용 카드 회사에서 고객의 신용 등급을 최우수, 우수, 보통, 불량으로 분류하고 이를 위해 학력과 수입 애트리뷰트를 사용한다고 할 때에 다음과 같은 규칙을 만들 수 있다.
∀ 사람 P, P.학위 = 석사 and P.수입 ≥ 75000 ⇒ P.신용 = 최우수
이러한 뷴류 기법은 대출 승인이나 보험액 산정 등의 경우에도 적용할 수 있다.
둘째, 연관 규칙은 데이터 아이템 간의 관련성을 표현한다. 예를 들어, ‘빵을 구입한 고객은 우유도 구입할 가능성이 높다.’ 는 규칙은 연관 규칙의 예로 볼 수 있다.
연관 규칙은 다양한 용도로 활용할 수 있다.
빵과 우유를 가깝게 진영하여 고객이 신속하게 쇼핑을 할 수 있도록 편의를 제공할 수도 있고, 빵과 우유를 반대편에 진영하고 그 사이에 구매 욕구를 일으킬 수 있는 관련 상품을 진열하여 더 많은 상품이 판매될 수 있도록 시도할 수 있다. 또한 고객은 두 상품을 모두 구입할 것이므로 관련된 상품 중 하나만 가격을 할인하고 나머지는 할인 하지 않는 전략을 취할 수도 있다.
셋째, 순차 상관 관계는 어떠한 패턴을 말한다. 예를 들어, 몇 일 동안의 주가와 같은 시계열 데이터는 순차 데이터의 예인데 증권 분석가는 주가 순차값들 간의 상관관계에 많은 관심을 가지고 있다.
이러한 상관관계의 또 다른 예로는 ‘채권 금리가 오르면 주가는 2일 안에 하락한다.’ 라는 규칙을 들 수 있다.
4. 데이터 마이닝 응용
데이터 마이닝의 응용으로는 장바구니 분석, 날씨예측 시스템, 교통량 예측 시스템 또는 최적 탐색로 결정 시스템, 암환자 분석 시스템 등등 많은 분야에 응용되어 질 수 있다.
첫째, 장바구니 분석으로 구매자의 연령대별, 성별, 지역별로 상품을 매칭하여 관련상품등를 제시하여 보다 높은 구매효과를 볼 수 있다.
둘째, 날씨예측 시스템에 응용되어 10년간 20년간의 날씨들의 통계로 내일의 날씨를 예측할 수 있으며,
셋째, 교통량 예측 시스템으로 교통량의 수집을 통한 통계로 새로운 도로의 필요성과 도로 개선의 척도로 삼을 수 있을 것이며, 교통체증이 심한 곳을 파악하여 우회도로를 파악하는 것에 도움을 줄 것이다.
넷째, 암환자의 발생률과 암환자의 암 치료율과 환자의 식생활 패턴과 지역 분포도와 연령대를 통계화하여 이를 바탕으로 한 나라의 식생활 개선책과 문제점 연령대별 생활의 개선점을 찾는 정책에 도움을 줄 것이다.
5. 자기 의견
나날이 가속되는 인터넷의 발달과 IT산업의 발달로 점점더 많은 산업 분야가 데이터화 되어가고 또한 그 데이터가 대량화 되어 가고 있다. 이로써 이 방대한 데이터들에 대한 관심도가 높아져 데이터 마이닝에 대한 관심도와 중요도가 높아지고 있다.
인류가 스스로 벽에 벽화를 그려 기록을 남기기 시작한 이례로 데이터는 기록되어 왔고 수집되어 왔다.
이제는 그 데이터들을 기반으로 인류가 한 단계 더 진화하는 시대가 도례한 것이라 생각되어 진다.
'■ IT 트랜드 및 이슈' 카테고리의 다른 글
IT 개발자 품귀 현상 (0) | 2021.04.26 |
---|---|
웹하드 주소 ( 추천웹하드) (0) | 2016.07.15 |
구글 화상회의 시장 진출 (0) | 2014.02.09 |
댓글