Bu
güne kadar farklı kaynaklarda veri madenciliğinin pek çok tanımıyla
karşılaşılmıştır. Bu kaynaklardan bazılarına göre veri madenciliğinin tanımı
şöyledir:
Veri
madenciliği; önceden bilinmeyen, geçerli ve uygulanabilir bilginin veri
yığınlarından dinamik bir süreç ile elde edilmesi olarak tanımlanabilir. Bu
süreçte kümeleme, veri özetleme sınıflama kurallarının öğrenilmesi, bağımlılık
ağlarının bulunması, değişkenlik analizi ve anomali tespiti gibi farklı birçok
teknik kullanılmaktadır.
Veri
madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen
ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme,
veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda
teknik yaklaşımları içerir.
Başka
bir deyişle veri madenciliği; verilerin içerisindeki desenlerin, ilişkilerin,
değişimlerin, düzensizliklerin, kuralların ve istatiksel olarak önemli olan
yapıların yarı otomatik olarak keşfedilmesidir.
Temel
olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin,
verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler
arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar
sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit
edebilmektir.
Veri
madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir.
Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık
gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ve görsel
sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri
madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü
birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veri
tabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri
madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş
istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade
etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup
iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık
veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
Veri
madenciliği ile büyük veri yığınlarından oluşan database sistemleri içerisinde
gizli kalmış bilgilerin çekilmesi sağlanır. Bu işlem, istatistik, matematik
disiplinleri, modelleme teknikleri, database teknolojisi ve çeşitli bilgisayar
programları kullanılarak yapılır. Veri madenciliği büyük miktarda veri inceleme
amacı üzerine kurulmuş olduğu için veri tabanları ile yakından ilişkilidir.
Gerekli verinin hızla ulaşılabilecek şekilde amaca uygun bir şekilde saklanması
ve gerektiğinde hızla ulaşılabilmesi gerekir. Günümüzde yaygın olarak
kullanılmaya başlanan veri ambarları günlük kullanılan veri tabanlarının
birleştirilmiş ve işlemeye daha uygun bir özetini saklamayı amaçlar. Veri
madenciliği kendi başına bir çözüm değil çözüme ulaşmak için verilecek karar
sürecini destekleyen, problemi çözmek için gerekli bilgileri sağlamaya yarayan
bir araçtır.
Veri
madenciliği, büyük miktarlardaki verinin içinden geleceği tahmin edilmesinde
yardımcı olacak anlamlı ve yararlı bağlantı ve kuralların bilgisayar
programlarının aracılığıyla aranması ve analizidir. Ayrıca veri madenciliği,
çok büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki
bağlantıyı bulmaya yardımcı olan ve veri tabanı sistemleri içerisinde gizli
kalmış bilgilerin çekilmesini sağlayan veri analizi tekniğidir. Bu işlemlerin
uygulama alanı oldukça geniştir. Bu alanlar içerisinde, veri tabanı sistemleri,
Veri Görselliği, Yapay Sinir Ağları, İstatistik, Yapay Öğrenme, vb. gibi
disiplinler bulunmaktadır.
Bu tanımlardan yola çıkarak şöyle bir tanım
yapmak mümkündür: Veri madenciliği, çok büyük miktarda bilginin depolandığı
veri tabanlarından, amacımız doğrultusunda, gelecek ile ilgili tahminler
yapmamızı sağlayacak, anlamlı olan veriye ulaşma ve veriyi kullanma işidir.
Veri
madenciliği araçları kullanılarak, işletmelerin daha etkin kararlar almasına
yönelik karar destek sistemlerinde gerekli olan eğilimlerin ve davranış
kalıplarının ortaya çıkarılması mümkün olmaktadır. Veri madenciliğinin
işletmelere sunduğu en önemli özellik, veri grupları arasındaki benzer
eğilimlerin ve davranış kalıplarının belirlenmesidir. Bu fonksiyon özellikle
hedef pazarlara yönelik pazarlama faaliyetlerinde yoğun olarak kullanılmaktadır.
Başka bir özelliği ise daha önceden bilinmeyen, veri ambarları içerisinde
bulunan ancak ilk etapta görülemeyen bilgilerin ortaya çıkarılabilmesidir.
Örneğin bir firma sattığı ürünleri analiz ederek, ilerideki kampanyalarını
şekillendirebilir ya da sattığı ürünler arasındaki bağları keşfedebilir. Burada
amaç daha önceden fark edilmeyen veri kümelerinin bulunabilmesidir.
Günümüzün
ekonomik koşulları ve yaşanan hızlı değişim ortamlarında, iş deneyimi ve
önsezilere dayanarak alınan kararlarda yanlış karar alma riski çok yüksektir.
Riski azaltmanın tek yolu bilgiye dayalı yönetimi öngören karar destek
çözümleridir. Veri madenciliği teknikleri gerçek anlamda bir karar destek
sistemi oluşturmada olmazsa olmaz araçlardır. Bu noktada bilgi teknolojilerinden
yararlanmak kaçınılmaz olmuştur.
Hiç yorum yok:
Yorum Gönder