Günümüzde makul zamanda işlememiz gereken veri boyutu ekzabaytlara ulaştı. Bilim adamları meteoroloji, genetik, konnektomi, karmaşık fizik simülasyonları ve biyolojik ve çevresel araştırma gibi alanlardaki büyük veri kümeleri üzerinde işlemler yapabilmesi kısıtlı seviyelere geldi.
Bu sınırlar ayrıca arama motorları, finans ve ticari bilişime de etki etti.
Veriler bu hızlı çağda katlanarak artıyor, çünkü herkesin elinde bulundurduğu mobil cihazlardaki bilgi toplama birimleri, uzaktan algılayan sensörlü teknolojiler, yazılım logları, kameralar, mikrofonlar, radyo frekansı ile kimlik okuyucuları ve kablosuz sensör ağları kullanımı bu duruma yol açıyor. 1980’lerden beri dünyada kişi başına düşen veri miktarı neredeyse her 40 ayda bir ikiye katlandı ve 2012 rakamlarına bakacak olursak her gün 2.5 ekzabayt veri üretiliyor.
Büyük veri bilimde de kullanılıyor. Büyük Hadron Çarpıştırıcısı deneylerinde 150
milyon adet sensör kullanılıyor ve bu sensörler saniyede 40 milyon defa veri
topluyor. Saniyede yaklaşık olarak 600 milyon defa çarpışma meydana geliyor ve
bu çarpışmalardan %99.999’u filtrenerek, geriye kalan 100 çarpışma/sn ile ilgileniliyor.
Sonuç olarak sensör akışlarından gelen
verilerin sadece %0.001’i bile kullanılsa da yıllık oluşan veri 25 petabaytı
buluyor ve bu veri üzerinde çıkarsamalar yapılarak ve kopyalanmalar sonucu
oluşan veri 200 petabaytı geçiyor.
Veriler bu seviyelerde gezindiği için geleneksel yöntemlerle iş yapmak zor hale geliyor. Çünkü veritabanlarının bu kadar veriyi üzerinde barındırabilmesi ve işlem yapabilmesi çok zor ve zaman açısından maliyetli.
Bu şekilde halihazırda bulunan veri yönetimi araçları veya geleneksel veri işleme uygulamaları kullanılarak işlenmesinin mümkün olmadığı, çok büyük ve oldukça karmaşık veri yığınlarına büyük veri denilir.
Eğer elimizde oldukça büyük veriler varsa bu verilerin
üzerinde yapılan iyileştirmeler, verilerin saklanması, aramaların yapılması,
paylaşılması, başka birimlere aktarılması, üzerlerinde analizlerin
gerçekleştirilmesi ve görselleştirilmesi bize zorluk çıkarabilir. Böylesine büyük veri kümelerinin ortaya
çıkabilmesinin nedenlerinden biri de küçük bir veri kümesi ile ilişkili
verilerin birbirleri ile analizi sonucu ek bilgilerin türetilmesinin
gerçekleşmesidir.
2001 yılında yapılan bir araştırma raporunda ve ilişkili konferanslarda META Grup analisti Doug Laney veri artışında yüzleşilecek sorunların ve sorumlulukların 3 boyutta seyir ettiğini tanımlamıştır:
- Volume (Hacim): Şu an dünya üzerinde 7 miyar insan bulunurken elinde cep telefonu olanların sayısı ise 6 milyar seviyesinde. Durum bu seviyedeyken büyük veriyi belki de gerçekten "büyük" yapan şey şu anki tutulan verilerin zamanla üssel olarak artması. Veriler bu hızlar artarken kuruluşların da bu verileri yönetmek için olan maliyetleri de artıyor. Bu yüzden büyük verinin tutulacağı ortamın ayarlanması gerekiyor.
- Velocity (Hız): New York Stock Exchange her işlem seansında 1TB ticari bilgi tutuyor. 2016'da 18.9 milyar bilgisayar ağının oluşması bekleniyor. Veriler bu şekilde büyüyerek artarken çok hızlı bir şekilde sisteme aktarılıyor ve sistemin de bu hızla akan verileri karşılaması gerekiyor. Bu yüzden hız da büyük veriyi karşılayan bir diğer etmen haline geliyor.
- Variety (Çeşitlilik): Bilgi toplamada kullanılan sensörlerin artışı, sosyal ağlar, RSS'ler ve bu kaynaklardan gelen verilerin çeşitliliği büyük verinin önemini daha çok vurguluyor. Örneğin modern arabalarda benzin seviyesi ve gaz basıncını ölçen yaklaşık 100'e yakın sensör bulunuyor.
- Veracity (Doğruluk): Üstte tanımlanan 3V'ye Gartner şirketi 2012 yılında bir V daha ekliyor. Veriler bu kadar hızlı toplanırken kalitesi de önem arz ediyor. Bir rapora göre bozuk verilerin Amerikan Hükümeti'ne yıllık maliyeti 3.1 trilyon dolar. Bu yüzden toplanan büyük verinin ayrıştırılmaya ihtiyacı var.
Kaynaklar: Wikipedia, Oracle, IBM, HP
Hiç yorum yok:
Yorum Gönder