13 Şubat 2014 Perşembe

Büyük Veri (Big Data) Nedir?

Son zamanlarda birçok çevre tarafından adının yaygın olarak kullanıldığı fakat tam olarak da ne olduğu hakkında herkesin pek az şey bildiği büyük verinin (big data) nasıl bir kavram olduğundan bahsedeceğim.

Günümüzde makul zamanda işlememiz gereken veri boyutu ekzabaytlara ulaştı. Bilim adamları meteoroloji, genetik, konnektomi, karmaşık fizik simülasyonları ve biyolojik ve çevresel araştırma gibi alanlardaki  büyük veri kümeleri üzerinde işlemler yapabilmesi kısıtlı seviyelere geldi. 
Bu sınırlar ayrıca arama motorları, finans ve ticari bilişime de etki etti.

Veriler bu hızlı çağda katlanarak artıyor, çünkü herkesin elinde bulundurduğu mobil cihazlardaki bilgi toplama birimleri, uzaktan algılayan sensörlü teknolojiler, yazılım logları, kameralar, mikrofonlar, radyo frekansı ile kimlik okuyucuları ve kablosuz sensör ağları kullanımı bu duruma yol açıyor. 1980’lerden beri dünyada kişi başına düşen veri miktarı neredeyse her 40 ayda bir ikiye katlandı ve 2012 rakamlarına bakacak olursak her gün 2.5 ekzabayt veri üretiliyor.


Büyük veri bilimde de kullanılıyor. Büyük Hadron Çarpıştırıcısı deneylerinde 150 milyon adet sensör kullanılıyor ve bu sensörler saniyede 40 milyon defa veri topluyor. Saniyede yaklaşık olarak 600 milyon defa çarpışma meydana geliyor ve bu çarpışmalardan %99.999’u filtrenerek, geriye kalan 100 çarpışma/sn ile ilgileniliyor.


Sonuç olarak sensör akışlarından gelen verilerin sadece %0.001’i bile kullanılsa da yıllık oluşan veri 25 petabaytı buluyor ve bu veri üzerinde çıkarsamalar yapılarak ve kopyalanmalar sonucu oluşan veri 200 petabaytı geçiyor.

Veriler bu seviyelerde gezindiği için geleneksel yöntemlerle iş yapmak zor hale geliyor. Çünkü veritabanlarının bu kadar veriyi üzerinde barındırabilmesi ve işlem yapabilmesi çok zor ve zaman açısından maliyetli. 

Bu şekilde halihazırda bulunan veri yönetimi araçları veya geleneksel veri işleme uygulamaları kullanılarak işlenmesinin mümkün olmadığı, çok büyük ve oldukça karmaşık veri yığınlarına büyük veri denilir.

Eğer elimizde oldukça büyük veriler varsa bu verilerin üzerinde yapılan iyileştirmeler, verilerin saklanması, aramaların yapılması, paylaşılması, başka birimlere aktarılması, üzerlerinde analizlerin gerçekleştirilmesi ve görselleştirilmesi  bize zorluk çıkarabilir. Böylesine büyük veri kümelerinin ortaya çıkabilmesinin nedenlerinden biri de küçük bir veri kümesi ile ilişkili verilerin birbirleri ile analizi sonucu ek bilgilerin türetilmesinin gerçekleşmesidir.

Büyük Verinin 4V'si
2001 yılında yapılan bir araştırma raporunda ve ilişkili konferanslarda META Grup analisti Doug Laney veri artışında yüzleşilecek sorunların ve sorumlulukların 3 boyutta seyir ettiğini tanımlamıştır:                              

  • Volume (Hacim):  Şu an dünya üzerinde 7 miyar insan bulunurken elinde cep telefonu olanların sayısı ise 6 milyar seviyesinde. Durum bu seviyedeyken büyük veriyi  belki de gerçekten "büyük" yapan şey şu anki tutulan verilerin zamanla üssel olarak artması. Veriler bu hızlar artarken kuruluşların da bu verileri yönetmek için olan maliyetleri de artıyor.  Bu yüzden büyük verinin tutulacağı ortamın ayarlanması gerekiyor.
  • Velocity (Hız): New York Stock Exchange her işlem seansında 1TB ticari bilgi tutuyor. 2016'da 18.9 milyar bilgisayar ağının oluşması bekleniyor. Veriler bu şekilde büyüyerek artarken çok hızlı bir şekilde sisteme aktarılıyor ve sistemin de bu hızla akan verileri karşılaması gerekiyor. Bu yüzden hız da büyük veriyi karşılayan bir diğer etmen haline geliyor.
  • Variety (Çeşitlilik): Bilgi toplamada kullanılan sensörlerin artışı, sosyal ağlar, RSS'ler ve bu kaynaklardan gelen verilerin çeşitliliği büyük verinin önemini daha çok vurguluyor. Örneğin modern arabalarda benzin seviyesi ve gaz basıncını ölçen yaklaşık 100'e yakın sensör bulunuyor. 
  • Veracity (Doğruluk): Üstte tanımlanan 3V'ye Gartner şirketi 2012 yılında bir V daha ekliyor. Veriler bu kadar hızlı toplanırken kalitesi de önem arz ediyor. Bir rapora göre bozuk verilerin Amerikan Hükümeti'ne yıllık maliyeti 3.1 trilyon dolar. Bu yüzden toplanan büyük verinin ayrıştırılmaya ihtiyacı var.
Sonraki yazımda büyük verinin nasıl işletileceğine değineceğim. Görüşmek üzere...

Kaynaklar: Wikipedia, Oracle, IBM, HP



Hiç yorum yok:

Yorum Gönder