Karşılaştırma (bilgi işlem) - Benchmark (computing)

Olarak bilgisayar , bir gösterge , bir çalışan eylemidir bilgisayar programını göre değerlendirmek amacıyla, programları veya diğer işlemler bir takım performans normalde standart bir dizi çalıştırarak, bir nesnenin testleri ve ona karşı denemeler. Terimi kıyaslama da yaygın özenle tasarlanmıştır kıyaslama programların kendileri amaçları için kullanılır.

Kıyaslama genellikle bilgisayar donanımının performans özelliklerinin, örneğin bir CPU'nun kayan nokta işlem performansının değerlendirilmesiyle ilişkilidir , ancak tekniğin yazılıma da uygulanabileceği durumlar vardır . Yazılım kıyaslamaları, örneğin, derleyicilere veya veritabanı yönetim sistemlerine (DBMS) karşı çalıştırılır .

Kıyaslamalar, farklı yonga/sistem mimarilerinde çeşitli alt sistemlerin performansını karşılaştırma yöntemi sağlar .

Amaç

Gibi bilgisayar mimarisi gelişmiş, sadece kendi özelliklerine bakarak çeşitli bilgisayar sistemlerinin performansını karşılaştırmak için daha zor hale geldi. Bu nedenle, farklı mimarilerin karşılaştırılmasına izin veren testler geliştirildi. Örneğin, Pentium 4 işlemcileri genellikle Athlon XP veya PowerPC işlemcilerinden daha yüksek bir saat frekansında çalıştı ve bu da mutlaka daha fazla hesaplama gücü anlamına gelmiyordu; daha yavaş saat frekansına sahip bir işlemci, daha yüksek bir frekansta çalışan bir işlemci kadar iyi veya ondan daha iyi performans gösterebilir. Bkz bogomips ve megahertz mit .

Karşılaştırmalar, bir bileşen veya sistemdeki belirli bir iş yükü türünü taklit etmek için tasarlanmıştır. Sentetik kıyaslamalar bunu, iş yükünü bileşene yükleyen özel olarak oluşturulmuş programlarla yapar. Uygulama kıyaslamaları, sistemde gerçek dünya programlarını çalıştırır. Uygulama kıyaslamaları genellikle belirli bir sistemdeki gerçek dünya performansının çok daha iyi bir ölçüsünü verirken, sentetik kıyaslamalar sabit disk veya ağ aygıtı gibi tek tek bileşenleri test etmek için kullanışlıdır .

Kıyaslamalar CPU tasarımında özellikle önemlidir ve işlemci mimarlarına mikromimari kararlarda ölçme ve ödün verme yeteneği verir . Örneğin, bir kıyaslama bir uygulamanın temel algoritmalarını çıkarırsa , o uygulamanın performansa duyarlı yönlerini içerecektir. Bu çok daha küçük snippet'i döngü doğruluğuna sahip bir simülatörde çalıştırmak, performansın nasıl iyileştirileceğine dair ipuçları verebilir.

2000'den önce, bilgisayar ve mikroişlemci mimarları bunu yapmak için SPEC'i kullanıyordu, ancak SPEC'in Unix tabanlı karşılaştırma ölçütleri oldukça uzundu ve bu nedenle bozulmadan kullanılması hantaldı.

Bilgisayar üreticilerinin sistemlerini, gerçek kullanımda tekrarlanmayan kıyaslama testlerinde gerçekçi olmayan yüksek performans verecek şekilde yapılandırdıkları bilinmektedir. Örneğin, 1980'lerde bazı derleyiciler, iyi bilinen bir kayan nokta karşılaştırmasında kullanılan belirli bir matematiksel işlemi saptayabilir ve işlemi daha hızlı matematiksel olarak eşdeğer bir işlemle değiştirebilir. Bununla birlikte, böyle bir dönüşüm, RISC ve VLIW mimarilerinin performansla ilgili olarak derleyici teknolojisinin önemini vurguladığı 1990'ların ortalarına kadar kıyaslama dışında nadiren yararlı oldu . Karşılaştırmalar artık derleyici şirketler tarafından yalnızca kendi kıyaslama puanlarını iyileştirmek için değil, aynı zamanda gerçek uygulama performansını iyileştirmek için düzenli olarak kullanılmaktadır .

Bir süperskalar CPU, bir VLIW CPU veya yeniden yapılandırılabilir bir bilgi işlem CPU gibi birçok yürütme birimine sahip CPU'lar, transistörlerden oluşturulduğunda, aynı derecede hızlı olan bir veya iki yürütme birimine sahip sıralı bir CPU'dan genellikle daha yavaş saat hızlarına sahiptir. Bununla birlikte, birçok yürütme birimine sahip CPU'lar, gerçek dünya ve kıyaslama görevlerini, sözde daha hızlı yüksek saat hızlı CPU'dan daha kısa sürede tamamlar.

Mevcut çok sayıda karşılaştırma ölçütü göz önüne alındığında, bir üretici genellikle sisteminin başka bir sistemden daha iyi performans göstereceğini gösteren en az bir ölçüt bulabilir; diğer sistemlerin farklı bir kıyaslama ile üstün olduğu gösterilebilir.

Üreticiler genellikle yalnızca ürünlerini en iyi şekilde gösteren karşılaştırma ölçütlerini (veya ölçütlerin yönlerini) bildirirler. Ayrıca, ürünlerini mümkün olan en iyi şekilde göstermek için kıyaslamaların önemini yanlış temsil ettikleri de bilinmektedir. Birlikte ele alındığında, bu uygulamalara tezgah pazarlaması denir .

İdeal olarak kıyaslamalar, yalnızca uygulama kullanılamıyorsa veya belirli bir işlemci veya bilgisayar sistemine taşınması çok zor veya maliyetliyse gerçek uygulamaların yerine geçmelidir. Performans kritikse, önemli olan tek kriter hedef ortamın uygulama paketidir.

Zorluklar

Kıyaslama kolay değildir ve öngörülebilir, faydalı sonuçlara varmak için genellikle birkaç tekrarlamalı tur içerir. Kıyaslama verilerinin yorumlanması da olağanüstü derecede zordur. İşte ortak zorlukların kısmi bir listesi:

  • Satıcılar, ürünlerini özellikle endüstri standardı kıyaslamalara göre ayarlama eğilimindedir. Norton SysInfo'nun (SI) ayarlanması özellikle kolaydır, çünkü esas olarak birden çok işlemin hızına eğilimlidir. Bu tür sonuçları yorumlarken çok dikkatli olun.
  • Bazı satıcılar, kıyaslamalarda "hile yapmakla" suçlandılar - çok daha yüksek kıyaslama numaraları veren, ancak gerçek olası iş yükünde işleri daha da kötüleştiren şeyler yapmak.
  • Birçok kıyaslama , bir bilgisayar sisteminin diğer önemli özelliklerini ihmal ederek, tamamen hesaplama performansının hızına odaklanır :
    • Ham performansın yanı sıra hizmet kalitesi. Ölçülemeyen hizmet kalitesi örnekleri arasında güvenlik, kullanılabilirlik, güvenilirlik, yürütme bütünlüğü, hizmet verilebilirlik, ölçeklenebilirlik (özellikle kapasiteyi hızlı ve kesintisiz bir şekilde ekleme veya yeniden tahsis etme yeteneği) vb. sayılabilir. Bu hizmet nitelikleri arasında ve bunlar arasında genellikle gerçek dengeler vardır, ve hepsi iş bilgi işlemde önemlidir. İşlem İşleme Performansı Konseyi Kıyaslama belirtimleri , ACID özellik testleri, veritabanı ölçeklenebilirlik kuralları ve hizmet düzeyi gereksinimleri belirterek bu endişeleri kısmen ele alır .
    • Genel olarak, karşılaştırma ölçütleri Toplam sahip olma maliyetini ölçmez . İşlem İşleme Performansı Konseyi Kıyaslama belirtimleri, basitleştirilmiş bir TCO formülü kullanılarak ham performans metriğine ek olarak bir fiyat/performans metriğinin rapor edilmesi gerektiğini belirterek bu sorunu kısmen ele alır . Bununla birlikte, maliyetler zorunlu olarak yalnızca kısmidir ve satıcıların, yapay olarak düşük bir fiyatla son derece spesifik bir "kıyaslama özel" konfigürasyonu tasarlayarak, karşılaştırmalı değerlendirme için özel olarak (ve yalnızca) fiyat verdiği bilinmektedir. Karşılaştırma paketinden küçük bir sapma bile, gerçek dünya deneyiminde çok daha yüksek bir fiyatla sonuçlanır.
    • Tesis yükü (alan, güç ve soğutma). Daha fazla güç kullanıldığında, taşınabilir bir sistem daha kısa pil ömrüne sahip olacak ve daha sık yeniden şarj edilmesini gerektirecektir. Daha fazla güç ve/veya alan tüketen bir sunucu, soğutma sınırlamaları da dahil olmak üzere mevcut veri merkezi kaynak kısıtlamalarına uymayabilir. Çoğu yarı iletken daha hızlı geçiş yapmak için daha fazla güce ihtiyaç duyduğundan, gerçek ödünleşmeler vardır. Ayrıca bkz . watt başına performans .
    • Belleğin önemli bir maliyet olduğu bazı gömülü sistemlerde, daha iyi kod yoğunluğu maliyetleri önemli ölçüde azaltabilir.
  • Satıcı kıyaslamaları, geliştirme, test ve olağanüstü durum kurtarma bilgi işlem kapasitesi için gereksinimleri göz ardı etme eğilimindedir . Satıcılar, yalnızca ilk satın alma fiyatlarını mümkün olduğunca düşük göstermek için üretim kapasitesi için gerekli olabilecekleri bildirmekten hoşlanırlar.
  • Kıyaslamalar, özellikle ağ topolojilerine karşı ekstra hassasiyete sahip olanlar olmak üzere, yaygın olarak dağıtılan sunuculara uyum sağlamada sorun yaşıyor. Özellikle grid hesaplamanın ortaya çıkışı, bazı iş yükleri "şebeke dostu" iken diğerleri olmadığı için kıyaslamayı karmaşıklaştırmaktadır.
  • Kullanıcılar, kıyaslamaların önerebileceğinden çok farklı performans algılarına sahip olabilir. Özellikle kullanıcılar, hizmet düzeyi anlaşmalarını her zaman karşılayan veya aşan sunucular olan öngörülebilirliği takdir eder . Karşılaştırmalar, maksimum en kötü durum yanıt süreleri ( gerçek zamanlı bilgi işlem perspektifi) veya düşük standart sapmalar (kullanıcı perspektifi) yerine ortalama puanları (BT perspektifi) vurgulama eğilimindedir .
  • Pek çok sunucu mimarisi, yüksek (%100'e yakın) kullanım seviyelerinde - "uçurumdan düşme" - önemli ölçüde bozulur ve karşılaştırma ölçütleri bu faktörü hesaba katmalıdır (ancak çoğu zaman dikkate almaz). Özellikle satıcılar, yaklaşık %80 kullanımda sürekli olarak sunucu kıyaslamalarını yayınlama eğilimindedir - gerçekçi olmayan bir durum - ve talep bu seviyenin üzerine çıktığında genel sisteme ne olduğunu belgelemezler.
  • Birçok kıyaslama, diğer uygulamaları hariç tutmak için bir uygulamaya, hatta bir uygulama katmanına odaklanır. Çoğu veri merkezi şimdi çeşitli nedenlerle sanallaştırmayı kapsamlı bir şekilde uyguluyor ve kıyaslama, birden fazla uygulamanın ve uygulama katmanının birleştirilmiş sunucularda aynı anda çalıştığı gerçeğini yakalamaya devam ediyor.
  • Toplu hesaplamanın, özellikle yüksek hacimli eşzamanlı toplu ve çevrimiçi hesaplamanın performansını ölçmeye yardımcı olan (varsa) az sayıda yüksek kaliteli kıyaslama vardır. Toplu hesaplama , uzun süredir devam eden görevlerin, ay sonu veya mali yıl sonu gibi son teslim tarihlerinden önce doğru şekilde tamamlanmasının öngörülebilirliğine çok daha fazla odaklanma eğilimindedir. Birçok önemli temel iş süreci toplu iş odaklıdır ve faturalandırma gibi muhtemelen her zaman da öyle olacaktır.
  • Kıyaslama kurumları genellikle temel bilimsel yöntemi göz ardı eder veya izlemez. Bu, bunlarla sınırlı olmamak üzere şunları içerir: küçük numune boyutu, değişken kontrol eksikliği ve sonuçların sınırlı tekrarlanabilirliği.

Kıyaslama İlkeleri

Kriterler için yedi hayati özellik vardır. Bu temel özellikler şunlardır:

  1. Uygunluk: Karşılaştırmalar nispeten hayati özellikleri ölçmelidir.
  2. Temsil edilebilirlik: Karşılaştırmalı performans ölçütleri endüstri ve akademi tarafından geniş çapta kabul edilmelidir.
  3. Eşitlik: Tüm sistemler adil bir şekilde karşılaştırılmalıdır.
  4. Tekrarlanabilirlik: Karşılaştırma sonuçları doğrulanabilir.
  5. Maliyet etkinliği: Benchmark testleri ekonomiktir.
  6. Ölçeklenebilirlik: Karşılaştırma testleri, düşükten yükseğe bir dizi kaynağa sahip sistemlerde çalışmalıdır.
  7. Şeffaflık: Karşılaştırma ölçütlerinin anlaşılması kolay olmalıdır.

Karşılaştırma türleri

  1. Gerçek program
    • kelime işleme yazılımı
    • CAD araç yazılımı
    • kullanıcının uygulama yazılımı (yani: MIS)
  2. Bileşen Karşılaştırması / Mikrobenchmark
    • çekirdek rutin, nispeten küçük ve spesifik bir kod parçasından oluşur.
    • bir bilgisayarın temel bileşenlerinin performansını ölçmek
    • kayıt sayısı, önbellek boyutu, bellek gecikmesi vb. gibi bilgisayarın donanım parametrelerinin otomatik olarak algılanması için kullanılabilir .
  3. Çekirdek
    • anahtar kodları içerir
    • normalde gerçek programdan soyutlanır
    • popüler çekirdek: Livermore döngüsü
    • linpack benchmark (FORTRAN dilinde yazılmış temel lineer cebir alt yordamını içerir)
    • sonuçlar Mflop/s cinsinden gösterilir.
  4. Sentetik Karşılaştırma
    • Sentetik kıyaslama programlama prosedürü:
      • birçok uygulama programından her türlü işlemin istatistiklerini alın
      • her işlemin oranını al
      • yukarıdaki orana göre program yaz
    • Sentetik Benchmark türleri şunlardır:
    • Bunlar, ilk genel amaçlı endüstri standardı bilgisayar kıyaslamalarıydı. Modern ardışık düzen bilgisayarlarda mutlaka yüksek puanlar almaları gerekmez.
  5. G/Ç kıyaslamaları
  6. Veritabanı kıyaslamaları
    • veri tabanı yönetim sistemlerinin (DBMS) verimini ve yanıt sürelerini ölçün
  7. Paralel kıyaslamalar
    • çok çekirdekli ve/veya işlemcili makinelerde veya birden çok makineden oluşan sistemlerde kullanılır

Ortak kriterler

Endüstri standardı (denetlenmiş ve doğrulanabilir)

Açık kaynak karşılaştırmaları

  • AIM Multiuser Benchmark – herhangi bir UNIX tipi işletim sisteminde belirli bir bilgisayar işlevini simüle edecek bir 'yük karışımı' oluşturmak için karıştırılabilecek bir test listesinden oluşur.
  • Bonnie++ – dosya sistemi ve sabit sürücü karşılaştırması
  • BRL-CAD – çok iş parçacıklı ışın izleme performansına dayalı çapraz platform mimarisi-agnostik kıyaslama paketi; bir VAX-11/780'e karşı temellendirilmiş; göreli CPU performansını, derleyici farklılıklarını, optimizasyon düzeylerini, tutarlılığı, mimari farklılıklarını ve işletim sistemi farklılıklarını değerlendirmek için 1984'ten beri kullanılmaktadır.
  • Kolektif Bilgi – gönüllüler tarafından sağlanan donanımlar genelinde kullanıcı iş yüklerinin ( derin öğrenme gibi ) kitle kaynaklı kıyaslama ve optimizasyonu için özelleştirilebilir, platformlar arası çerçeve
  • Coremark – Gömülü bilgi işlem karşılaştırması
  • DEISA Benchmark Suite – bilimsel HPC uygulamaları karşılaştırması
  • Dhrystone – genellikle DMIPS'de rapor edilen tamsayı aritmetik performansı (Dhrystone saniyede milyonlarca talimat)
  • DiskSpdBilgisayar dosyalarına , bölümlere veya depolama aygıtlarına karşı çeşitli istekler oluşturan depolama kıyaslaması için komut satırı aracı
  • Fhourstones – bir tamsayı kriteri
  • İPUCU – genel CPU ve bellek performansını ölçmek için tasarlanmıştır
  • Iometer – Tek ve kümelenmiş sistemler için I/O alt sistem ölçüm ve karakterizasyon aracı.
  • IOzone – Dosya sistemi karşılaştırması
  • LINPACK kıyaslamaları – geleneksel olarak FLOPS'u ölçmek için kullanılır
  • karaciğer döngüleri
  • NAS paralel kıyaslamaları
  • NBench – tamsayı aritmetiği, bellek işlemleri ve kayan nokta aritmetiğinin performansını ölçen sentetik kıyaslama paketi
  • PAL – gerçek zamanlı fizik motorları için bir ölçüt
  • PerfKitBenchmarker – Bulut tekliflerini ölçmek ve karşılaştırmak için bir dizi kıyaslama.
  • Phoronix Test Suite – Linux, OpenSolaris, FreeBSD, OSX ve Windows için açık kaynaklı çapraz platform kıyaslama paketi. Yürütmeyi basitleştirmek için bu sayfada yer alan bir dizi başka kıyaslama içerir.
  • POV-Ray – 3D render
  • Tak (işlev) - özyineleme performansını test etmek için kullanılan basit bir kıyaslama
  • TATP Karşılaştırması – Telekomünikasyon Uygulaması İşlem İşleme Karşılaştırması
  • TPoX – XML veritabanları için bir XML işlem işleme kıyaslaması
  • VUP (VAX performans birimi) – VAX MIPS olarak da adlandırılır
  • Whetstone – kayan nokta aritmetik performansı, genellikle saniyede milyonlarca Whetstone talimatı olarak rapor edilir (MWIPS)

Microsoft Windows karşılaştırmaları

Diğerleri

  • AnTuTu – telefonlarda ve ARM tabanlı cihazlarda yaygın olarak kullanılır.
  • Geekbench – Windows, Linux, macOS, iOS ve Android için platformlar arası bir kıyaslama.
  • iCOMP – Intel tarafından yayınlanan Intel karşılaştırmalı mikroişlemci performansı
  • Khornerstone
  • Performans Derecelendirmesi – AMD ve Cyrix tarafından genellikle rakip ürünlere kıyasla göreceli performansı yansıtmak için kullanılan modelleme şeması.
  • SunSpider – bir tarayıcı hız testi
  • VMmark – bir sanallaştırma kıyaslama paketi.

Ayrıca bakınız

Referanslar

  1. ^ Fleming, Philip J.; Wallace, John J. (1986-03-01). "İstatistiklerle nasıl yalan söylenmez: kıyaslama sonuçlarını özetlemenin doğru yolu" . ACM'nin İletişimi . 29 (3): 218–221. doi : 10.1145/5666.5673 . ISSN  0001-0782 . S2CID  1047380 . 2017-06-09 alındı .
  2. ^ Krazit, Tom (2003). "NVidia'nın Kıyaslama Taktikleri Yeniden Değerlendirildi" . IDG Haber . Arşivlenmiş orijinal 2011-06-06 tarihinde . 2009-08-08 alındı .
  3. ^ Castor, Kevin (2006). "Donanım Testi ve Kıyaslama Metodolojisi" . Arşivlenmiş orijinal 2008-02-05 tarihinde . 2008-02-24 alındı .
  4. ^ Dai, Wei; Berleant, Daniel (12-14 Aralık 2019). "Çağdaş Derin Öğrenme Donanımı ve Çerçevelerini Kıyaslama: Nitel Metriklere İlişkin Bir Araştırma" (PDF) . 2019 IEEE Birinci Uluslararası Bilişsel Makine Zekası (CogMI) Konferansı . Los Angeles, CA, ABD: IEEE. s. 148–155. arXiv : 1907.03626 . doi : 10.1109/CogMI48466.2019.00029 .
  5. ^ Ehliar, Andreas; Liu, Dake. "Ağ işlemcilerini kıyaslama" (PDF) . Alıntı günlüğü gerektirir |journal=( yardım )
  6. ^ İşlem İşleme Performans Konseyi (Şubat 1998). "TPK'nın Tarihçesi ve Genel Bakış" . TPC . İşlem İşleme Performans Konseyi . 2018-07-02 alındı .

daha fazla okuma