Yapılandırılmamış veriler - Unstructured data

Yapılandırılmamış veriler (veya yapılandırılmamış bilgiler ), önceden tanımlanmış bir veri modeline sahip olmayan veya önceden tanımlanmış bir şekilde organize edilmemiş bilgilerdir. Yapılandırılmamış bilgiler genellikle metin ağırlıklıdır, ancak tarihler, sayılar ve gerçekler gibi verileri de içerebilir. Bu , veritabanlarında alan biçiminde depolanan veya belgelerde açıklamalı ( anlamsal olarak etiketlenmiş ) verilerle karşılaştırıldığında geleneksel programları kullanmayı anlamayı zorlaştıran düzensizliklere ve belirsizliklere neden olur .

1998'de Merrill Lynch , "yapılandırılmamış veriler bir kuruluşta bulunan verilerin büyük çoğunluğunu oluşturuyor, bazı tahminler %80'e kadar çıkıyor" dedi. Bu sayının kaynağının ne olduğu belli değil ama yine de bazıları tarafından kabul ediliyor. Diğer kaynaklar, benzer veya daha yüksek oranda yapılandırılmamış veri bildirmiştir.

2012 itibariyle, IDC ve Dell EMC , verilerin 2020 yılına kadar 40 zettabayta ulaşacağını ve bunun da 2010'un başından itibaren 50 kat bir büyümeyle sonuçlanacağını tahmin ediyor . Daha yakın zamanlarda, IDC ve Seagate , küresel veri küresinin 2025 yılına kadar 163 zettabayta ulaşacağını tahmin ediyor. ve bunların çoğu yapılandırılmamış olacak. Bilgisayar Dünyası dergisi yapılandırılmamış bilgi organizasyonlarda tüm verilerin birden% 70-80 kadarı olabileceğini belirtmektedir.

Arka plan

İş zekasına yönelik ilk araştırmalar sayısal verilerden ziyade yapılandırılmamış metinsel verilere odaklandı. 1958 gibi erken bir tarihte, HP Luhn gibi bilgisayar bilimi araştırmacıları , özellikle yapılandırılmamış metinlerin çıkarılması ve sınıflandırılmasıyla ilgilendiler. Ancak, yalnızca yüzyılın başından beri teknoloji araştırma ilgisini yakaladı. 2004 yılında, SAS Enstitüsü, önemli ölçüde daha verimli makine analizi için hiper boyutlu bir metin alanını daha küçük boyutlara indirgemek için Tekil Değer Ayrışımı'nı (SVD) kullanan SAS Metin Madencisini geliştirdi . Makine metin analizinin yol açtığı matematiksel ve teknolojik gelişmeler , bir dizi işletmeyi uygulamaları araştırmaya sevk etti ve duygu analizi , müşteri madenciliğinin sesi ve çağrı merkezi optimizasyonu gibi alanların gelişmesine yol açtı . 2000'lerin sonlarında Büyük Veri'nin ortaya çıkışı, tahmine dayalı analitik ve kök neden analizi gibi çağdaş alanlarda yapılandırılmamış veri analitiği uygulamalarına artan bir ilgiye yol açtı .

terminoloji ile ilgili sorunlar

Terim birkaç nedenden dolayı kesin değildir:

  1. Yapı , resmi olarak tanımlanmasa da yine de ima edilebilir.
  2. Bir tür yapıya sahip veriler, yapısı eldeki işleme görevi için yardımcı olmazsa, yapılandırılmamış olarak nitelendirilebilir.
  3. Yapılandırılmamış bilgi bir yapıya sahip olabilir ( yarı yapılandırılmış ) veya hatta yüksek düzeyde yapılandırılmış olabilir, ancak bu öngörülemeyen veya duyurulmayan şekillerde olabilir.

Yapılandırılmamış verilerle uğraşmak

Gibi teknikler veri madenciliği , doğal dil işleme (NLP) ve metin analizi için farklı yöntemler sağlamak desenleri bulmak , bu bilgileri, ya da başka yorumlamak. Metni yapılandırmak için yaygın teknikler, genellikle daha fazla metin madenciliği tabanlı yapılandırma için meta verilerle manuel etiketleme veya konuşmanın bir kısmı etiketlemeyi içerir . Yapılandırılmamış Bilgi Yönetimi Mimarlık (UIMA) standart anlam çıkarmak ve bilgiler hakkında yapılandırılmış veri oluşturmak için bu bilgileri işlemek için ortak bir çerçeve sağladı.

Makine tarafından işlenebilir bir yapı oluşturan yazılımlar, her türlü insan iletişiminde var olan dilsel, işitsel ve görsel yapıyı kullanabilir. Algoritmalar, örneğin sözcük morfolojisi , cümle sözdizimi ve diğer küçük ve büyük ölçekli kalıpları inceleyerek bu doğal yapıyı metinden çıkarabilir . Yapılandırılmamış bilgiler daha sonra, belirsizlikleri ve alaka düzeyine dayalı teknikleri ele almak için zenginleştirilebilir ve etiketlenebilir, ardından arama ve keşfi kolaylaştırmak için kullanılabilir. "Yapılandırılmamış veri" örnekleri arasında kitaplar, dergiler, belgeler, meta veriler , sağlık kayıtları , ses , video , analog veriler , resimler, dosyalar ve bir e-posta iletisinin gövdesi , Web sayfası veya sözcük gibi yapılandırılmamış metinler yer alabilir. işlemci belgesi Aktarılan ana içerik tanımlanmış bir yapıya sahip olmasa da, genellikle kendileri yapıya sahip olan ve bu nedenle yapılandırılmış ve yapılandırılmamış verilerin bir karışımı olan nesneler (örn. dosyalarda veya belgelerde, ...) içinde paketlenmiş olarak gelir, ancak toplu olarak bu hala "yapılandırılmamış veri" olarak adlandırılır. Örneğin, bir HTML web sayfası etiketlenir, ancak HTML işaretlemesi genellikle yalnızca oluşturma için kullanılır. Sayfanın bilgi içeriğinin otomatik olarak işlenmesini destekleyen şekillerde etiketli öğelerin anlamını veya işlevini yakalamaz. XHTML etiketleme, tipik olarak etiketli terimlerin anlamsal anlamını yakalamasa veya iletmese de, öğelerin makinede işlenmesine izin verir.

Yapılandırılmamış veriler genellikle elektronik belgelerde bulunduğundan , belgelerin içinden veri aktarımı ve manipülasyonu yerine, tüm belgeleri kategorilere ayırabilen bir içerik veya belge yönetim sisteminin kullanılması çoğu zaman tercih edilir. Belge yönetimi böylece yapıyı belge koleksiyonlarına aktarmanın araçlarını sağlar .

Arama motorları , bu tür verilerde, özellikle metinlerde indeksleme ve arama yapmak için popüler araçlar haline geldi.

Doğal dil işlemede yaklaşımlar

Metin belgelerinde yer alan yapılandırılmamış verilere yapı uygulamak için özel hesaplama iş akışları geliştirilmiştir. Bu iş akışları genellikle binlerce, hatta milyonlarca belgeden oluşan kümeleri veya ek açıklama için manuel yaklaşımların izin verebileceğinden çok daha fazlasını işlemek üzere tasarlanmıştır. Bu yaklaşımların birçoğu çevrimiçi analitik işleme veya OLAP kavramına dayanmaktadır ve metin küpleri gibi veri modelleri tarafından desteklenebilir. Belge meta verileri bir veri modeli aracılığıyla kullanılabilir olduğunda, tümce temelli yaklaşımlarla belge alt kümelerinin (yani bir metin küpü içindeki hücreler) özetlerinin oluşturulması gerçekleştirilebilir.

Tıp ve biyomedikal araştırmalarda yaklaşımlar

Araştırmacılar genellikle bulgularını bilimsel dergilerde yayınladıklarından, biyomedikal araştırmalar, yapılandırılmamış verilerin ana kaynaklarından birini oluşturur. Bu belgelerdeki dilden yapısal unsurlar elde etmek zor olsa da (örneğin, içerdiği karmaşık teknik kelime dağarcığı ve gözlemleri tam olarak bağlamsallaştırmak için gereken alan bilgisi nedeniyle), bu faaliyetlerin sonuçları teknik ve tıbbi çalışmalar ve ipuçları arasında bağlantılar sağlayabilir. yeni hastalık tedavileri hakkında Biyomedikal belgeler üzerinde yapıyı zorlamaya yönelik son çabalar, belgeler arasında konuları belirlemek için kendi kendini organize eden harita yaklaşımlarını, genel amaçlı denetimsiz algoritmaları ve literatürdeki protein adları ile kardiyovasküler hastalık konuları arasındaki ilişkileri belirlemek için CaseOLAP iş akışının bir uygulamasını içerir . CaseOLAP, cümle-kategori ilişkilerini doğru (ilişkileri tanımlar), tutarlı (yüksek oranda tekrarlanabilir) ve verimli bir şekilde tanımlar. Bu platform, gelişmiş erişilebilirlik sunar ve yaygın biyomedikal araştırma uygulamaları için ifade madenciliği araçlarıyla biyomedikal topluluğunu güçlendirir.

Veri gizliliği düzenlemelerinde "yapılandırılmamış" kullanımı

Önceki yıllarda, verilerin "yapılandırılmamış" olduğu onaylanırsa bazı veri gizliliği düzenlemeleri atlanabilirdi. Ancak, bu terminoloji, Avrupa yasal çerçevesi GDPR 2018'in yürürlüğe girmesinden sonra nadiren kullanılmaktadır. Bu haliyle GDPR, "yapılandırılmamış verilerden" bahsetmez veya tanımlamaz. Ancak "yapılandırılmış" kelimesini aşağıdaki gibi kullanır (tanımlamadan);

  • Açıklama 15'in Bölümleri, "Gerçek kişilerin korunması, kişisel verilerin işlenmesi için geçerli olmalıdır ... eğer bir dosyalama sisteminde yer alıyorsa."
  • Madde 4, "'dosyalama sistemi', belirli kriterlere göre erişilebilen herhangi bir yapılandırılmış kişisel veri seti anlamına gelir..."

GDPR İçtihatları, bir "dosyalama sistemini" neyin tanımladığına daha fazla ışık tuttu; "Vaaz ile meşgul olan üyelerin her biri tarafından toplanan kişisel veri setinin fiilen yapılandırıldığı spesifik kriter ve spesifik form, bu veri seti, belirli bir kişiyle ilgili verileri mümkün kıldığı sürece önemsizdir. kolayca geri alınabilmesi için temasa geçilmiştir , ancak bu, sevk eden mahkemenin ana davadaki davanın tüm koşulları ışığında tespit etmesi içindir.” ( AAD , Todistajat s. Tietosuojavaltuutettu, Jehovan, paragraf 61 ).

Bu nedenle, kişisel veriler kolayca alınabiliyorsa - bu bir dosyalama sistemidir ve - GDPR kapsamındadır ve "yapılandırılmış" veya "yapılandırılmamış" önemsizdir. Günümüzde erişime ve uygulanan yazılıma tabi olan çoğu elektronik sistem, verilerin kolayca alınmasına izin verebilir.

Ayrıca bakınız

Notlar

  1. ^ Today's Challenge in Government: What to To do with Unstructed Information and Why Doing Nothing Is not aOption, Noel Yuhanna, Baş Analist,Forrester Research, Kasım 2010

Referanslar

Dış bağlantılar