Yeni bir kayıpsız sıkıştırma algoritması üzerinde çalışıyorum.

John_Ahmet · Ocak 10, 2020

8 dakika önce, haci yazdı:

Kayıpsız sıkıştırmak mümkün değildir.

Neyi rastgele verileri mi, baytları mı? Tekrar edebilen kayıpsız sıkıştırma mı mümkün değil? Daha açık yazar mısın? Kayıpsız sıkıştırma mümkün olmaz olur mu? Elbette mümkün WinRAR, WinZip, 7zip gibi programlar ne işe yarıyor? Örneğin PAQ8 algoritması rastgele üretilen verileri bile sıkıştırabiliyor.

"Kayıpsız sıkıştırmak mümkün değildir" de ne demek oluyor?

Ocak 10, 2020 tarihinde John_Ahmet tarafından düzenlendi

haci · Ocak 11, 2020

On 10.01.2020 at 10:56, John_Ahmet yazdı:

Neyi rastgele verileri mi, baytları mı? Tekrar edebilen kayıpsız sıkıştırma mı mümkün değil? Daha açık yazar mısın? Kayıpsız sıkıştırma mümkün olmaz olur mu? Elbette mümkün WinRAR, WinZip, 7zip gibi programlar ne işe yarıyor? Örneğin PAQ8 algoritması rastgele üretilen verileri bile sıkıştırabiliyor.

"Kayıpsız sıkıştırmak mümkün değildir" de ne demek oluyor?

Sen bunun ne anlama geldiğini bile anlayamayacak kadar cahilsin.. Devri daim makinası yapmaya çalışıyorsun.

bayşapka · Şubat 19, 2020

On 10.01.2020 at 18:50, haci said:

Kayıpsız sıkıştırmak mümkün değildir.

Doğru, eksiksiz geri kazanım demeleri gerek. Ama yabancı dilimize bir kez yerleşmiş. Sıkıştırmanın varsayımlarını kullanarak orjinal veriye eksiksiz geri ulaşmaya kayıpsız sıkıştırma deniyor.

İlk duyduğumda bana da saçma gelmişti.

Gerçi ayak yerine popoya "bottom" diyen bir kültürden etimolojik doğruluk beklemenin alemi yok.

Şubat 19, 2020 tarihinde bayşapka tarafından düzenlendi

anibal · Şubat 19, 2020

On 11.01.2020 at 13:25, haci said:

Sen bunun ne anlama geldiğini bile anlayamayacak kadar cahilsin.. Devri daim makinası yapmaya çalışıyorsun.

"Kayıpsız sıkıştırma" mümkündür, ama önce terimleri karıştırmamak lazım.

Basit örneği şudur. 0.333333333333333333333333333 gibi bir sayıyı, bir sürü basamak yerine 1/3 olarak 3 harfle gösterebilirsin.

Sıkıştırma denen terimin, olayın aslı budur. Veriyi kaybetmez, yok edersin, onun yerine o veriyi oluşturacak bir formül koyarsın. Yani, sıkıştırma algoritması denen şey, istenen veriyi üretecek olan denklemi bulmak demektir.

haci · Şubat 19, 2020

Aşağıda sıkıştırmaya da değinen bana ait bir yazıyı bulacaksınız. Bayşapka ve Anibal'in değindiği kayıpsız sıkıştırma mümkündür.

İNFORMASYON ENTROPİSİ-INFORMATION ENTROPY

İnformasyon en sınırlı teknik anlamda, bir mesaj olarak yorumlanabilen bir dizi sembollerden oluşmuştur. İşaretler olarak kaydedilebildiği gibi, sinyaller olarak da yayılabilir. İnformasyon dinamik sistemlerin durumunu etkileyen herhangi bir olgudur.

Kavram olarak informasyon iletilen bir mesaj veya ifadedir.

Bu nedenden genel olarak informasyon için herhangi bir gerçek veya durumla ilgili iletilen veya alınan bilgi denebilir.

İnformasyon öngörülemez ve bilinmezliğin çözümünde kullanılamaz.

Bir olgunun belirsizliği onun olma olasılığı ile ölçülür ve onunla ters orantılıdır. Belirsizliği ne kadar çoksa, olma olasılığı o kadar azdır. Başka bir deyişle bir olgu ne kadar belirsizse onun bilinmezliğini çözmek içn o kadar çok informasyon gerekir.

İnformasyonun miktarı bit ile ölçülür.
Örneğin: Bir metal para ile yazı tura atarken informasyon: log2(2/1)=1 bit dir. İki metal para ile informasyon log2(4/1)=2 bit dir..

İnformasyon kavramı farklı koşullarda farklı anlamlar içerir. İnformasyon kavramı aşağıdaki nosyonlarla yakından ilgilidir. Komünikasyon, kontrol, bilgi, anlam, mental uyarılar, algılar ve entropi.

Entropi öngörülemezlik veya informasyon miktarı ölçüsüdür. Bununla ne demek istediğimizi açıklamak için bir örnek verelim:

Politik bir konuda halk oylaması yapmak istiyoruz. Bu oylamayı yapmadan sonucunu bilmek mümkün değildir. Zaten sonucunu bilmek için bir oylama yapıyoruz. Sonuç az çok tahmin edilse bile nisbeten öngörülemezdir. Oylamanın yapılması ve sonuç bize yeni informasyon kazandıracaktır. Bu durumda oylamanın entropisinin büyük olduğunu söyleyebiliriz.
Aynı oylamayı birinci oylamadan bir süre sonra ikinci defa yaptığımızı düşleyelim. Birinci oylamanın sonucu iyi bilindiğinden, ikinci oylamanın sonucunu daha iyi öngörmek mümkündür. Bu sonuç bize yeni informasyon vermez. İkinci oylamanın entropisi birinciye oranla küçüktür.

Yazı tura atmayı inceleyelim. Para hilesizse yazı tura gelme olasılığı eşittir ve bu durumda entropi en yüksektir. Çünkü yazının mı yoksa turanın mı geleceğini öngörmek imkansızdır. Öngörme şansı yüzde 50'den fazla değildir. Bu yazı-turanın entropisi 1 bit olarak belirtilir. Çünkü yazı ve turanın gelmesi eşit olasılıktır. Sonucu ögrenmek 1 bit informasyona bedeldir.
Hileli bir para ile yazı tura attığımızı düşleyelim. İki yüzü de tura olan bir parayı kullanırsak, sonucu öngörmek mümkün olacağı için bunun entropisi sıfırdır ve bundan yeni informasyon elde etmek mümkün değidir.

Türkçe bir yazının entropisi oldukça düşüktür. Kelimelerin bazı harfleri olmasa bile hangilerinin olacağını öngörmek mümkündür. Her kelimede yer alan a, e, i gibi harfler z, v, gibi harflerden daha sık kullanıldıklarından hangilerinin geleceğini bilmek daha kolaydır. Bu durumda her harfde kabaca 1 bitlik bir entropi vardır diyebiliriz.

Kelimeleri bazı harfleri atarak sıkıştırırsak ve kelimeler informasyon kaybetmezlerse, orijinal mesajı daha az harfle yazmış (ifade etmiş) oluruz. Bu da her harfin daha fazla informasyon içerdiği anlamına gelir. Çünkü aynı anlamı daha az harfle belirtebiliyoruz. Bunun entropisi daha yüksektir. Ama bu şekilde sıkıştırılan kelimelerden oluşan mesaj nisbeten daha az öngörülebilir. Çünkü daha kolay anlaşılmayı sağlayan fazlalıklar yoktur. Shannon'un teoriemine göre kabaca kelimeleri informasyon kaybetmeden sıkıştırma olgusu mesajları her bir mesaj başına ortalama 1 bit informasyondan daha fazla yapamaz.
Mesajda ne kadar informasyon olduğunu bulmak için mesajın entropisini mesajın uzunluğu ile çarpmak gerekir.

İnformasyon entropisi:

İnformasyon entropisi informasyon teorisinden adapte edilen bir kavramdır. Bir olguda ne kadar informasyon olduğunu belirtir. Bir kural olarak bir olgu ne kadar belirsiz ve rastgele ise, o kadar çok informasyon içerir ve entropisi o kadar yüksektir. İnformasyon entropisi kavramı bir matematikçi olan Shannon tarafından yaratılmıştır. Uygulandığı alanlar arasında kayıpsız bilgi komprese etmek, kriptografi, biyoloji ve fizik de vardır.

İnformasyon entropisini bir örnekle açıklayalım:

Birisine önceden bildiği bir bilginin söylenmesi durumunda ona çok az informasyon iletilir. Daha önce bilinenlerin tekrarlanmasının bir anlamı yoktur. Bu informasyonun entropisi çok düşüktür diyebiliriz. Ama birisine önceden bilmediği veya çok az bildiği birşeyler söylenirse, ona çok miktarda informasyon iletiliyor demektir. Bu onlar için değerli bir informasyondur. Bu informasyonun entropisi yüksektir.

haci · Şubat 19, 2020

Zaten sıkıştırma kaybetme anlamında kullanılıyor. Kayıpsız sıkıştırma entropisi yüksek ve anlamsız bir kavram.

Smile Buddha · Şubat 19, 2020

Kayıpsız sıkıştırma algoritması örnekleri verin.

Açık kaynak yazılımlarda bile kapalı kodlar var.(Örneğin kütüphaneler)

John_Ahmet · Şubat 19, 2020

Bir saat önce, haci yazdı:

Zaten sıkıştırma kaybetme anlamında kullanılıyor. Kayıpsız sıkıştırma entropisi yüksek ve anlamsız bir kavram.

Saçmalardan seçmeler.

Herhangi bir byte dizisi ki bu dizi en az bir algoritma ile sıkıştırılabilir. Daha genel bir sıkıştırma algoritması için çeşitli yöntemler vardır. Ayrıca sıkıştırma oranı düşük olmakla birlikte tekrar edebilen sıkıştırma algoritmaları da vardır. Benim üzerinde çalıştığım bu türden bir sıkıştırma algoritmasıdır ve sıkıştırılmış dosyaları dahi sıkıştırabilmektedir.

Örneğin 4 bytelık veri bloklarını kendisinden bir küçük asal sayı ve farkı şeklinde ifade edebiliriz.

Bu asal sayıları seçerken de asal indeksleri de asal olan asal sayıları kullanırız ve sayıyı

Number = p(p(index)) + diff şeklinde ifade edip yalnızca index ve diff değerlerini saklarız.

diff değerlerinin küçük olduğu bir dizi için başarılı bir sıkıştırma sağlanabilir.

John_Ahmet · Şubat 19, 2020

20 dakika önce, mirasyedi yazdı:

Kayıpsız sıkıştırma algoritması örnekleri verin.

Açık kaynak yazılımlarda bile kapalı kodlar var.(Örneğin kütüphaneler)

LZW ve LZ türevleri, Huffman, PQ serisi algoritmalar vb...

LZ türevi algoritmalar sözlük kullanır ve birbiri ardına tekrar eden byteları esas alır. Huffman ise dizideki byte ların frekanslarını esas alır. PQ serisi algoritmalar çok daha karmaşıktır ve bit operatörleri de kullanarak çok kompleks bir algoritma ile çok yavaş olsa da bilinen sıkıştırma algoritmaları ile sıkıştırılmış verileri dahi sıkıştırabilirler.

Bu konu daha üzerine çok fazla çalışma gerektiren bir konudur ve ileride tek başına bir meslek olacaktır. Artık veri çağına girdik ve bu verileri etkili şekilde arşivleyecek kayıpsız sıkıştırma algoritmaları kullanan sistemlere ve bu sistemlerde uzman olacak kişilere olan ihtiyaç gün geçtikçe artmaktadır.

Şubat 19, 2020 tarihinde John_Ahmet tarafından düzenlendi

Smile Buddha · Şubat 21, 2020

On 19.02.2020 at 23:49, John_Ahmet yazdı:

LZW ve LZ türevleri, Huffman, PQ serisi algoritmalar vb...

LZ türevi algoritmalar sözlük kullanır ve birbiri ardına tekrar eden byteları esas alır. Huffman ise dizideki byte ların frekanslarını esas alır. PQ serisi algoritmalar çok daha karmaşıktır ve bit operatörleri de kullanarak çok kompleks bir algoritma ile çok yavaş olsa da bilinen sıkıştırma algoritmaları ile sıkıştırılmış verileri dahi sıkıştırabilirler.

Bu konu daha üzerine çok fazla çalışma gerektiren bir konudur ve ileride tek başına bir meslek olacaktır. Artık veri çağına girdik ve bu verileri etkili şekilde arşivleyecek kayıpsız sıkıştırma algoritmaları kullanan sistemlere ve bu sistemlerde uzman olacak kişilere olan ihtiyaç gün geçtikçe artmaktadır.

örnek verin derken açık kod yada algoritma demek istedim.

slaytlarda sınırlı bilgi veriyorlar.

Sözlük karşı tarafa nasıl iletiliyor yazmıyorlar.

sözlükte yer alan karekter veya karekter grupları sayısı 256 aşarsa ne yapılıyor anlatmıyorlar.

sendende şikayetçiyim.programını yazıp yayınlamıyorsun.Verimli olup olmadığını göremedik.

John_Ahmet · Şubat 21, 2020

9 saat önce, mirasyedi yazdı:

örnek verin derken açık kod yada algoritma demek istedim.

slaytlarda sınırlı bilgi veriyorlar.

Sözlük karşı tarafa nasıl iletiliyor yazmıyorlar.

sözlükte yer alan karekter veya karekter grupları sayısı 256 aşarsa ne yapılıyor anlatmıyorlar.

sendende şikayetçiyim.programını yazıp yayınlamıyorsun.Verimli olup olmadığını göremedik.

Aradığın sıkıştırma algoritmasının başına ararken "github" keyword unu ekle çıkan sonuçlardan github.com sitesinin linklerini açarak kodları inceleyebilirsin.

https://github.com/lz4/lz4

https://github.com/gyaikhom/huffman

https://github.com/hxim/paq8px

huffman kodu oldukça basit ve anlaşılır. Onu inceleyebilirsin. LZ serisinde sözlük dosyada saklanmaz.

Mevcut işlerden dolayı ilgilenemiyorum. Kazanç olduğunu tespit edip taslak kodları hazırlamıştım. Kazanç hesaplama adımlarını da tamamladım. Şimdi GNU standartlarında kodu yazmak kaldı. Onu da yazar paylaşırım.

Şubat 21, 2020 tarihinde John_Ahmet tarafından düzenlendi

okuyan · Şubat 28, 2020

Bir bilgisayar mühendisi olarak yardımcı olmak isterdim ama kayıpsız sıkıştırmanın entropi gereği mümkün olmadığı açıktır. Daha ayrıntılı bilgi için Entrophy and File Compression diye Google üzerinden araştırma yapabilirsin. Dosya sıkıştırma konusunda entropi limitine gerçekten çok yaklaştığımızı düşünürsek senin buluşun sonuçsuz kalacaktır.

Yine de çabaların boşa değil, gerçekten inanılmaz deneyim elde etmeni sağlar ve seni bambaşka seviyeye taşır ki bu ülkenin senin gibilere ihtiyacı olduğunu açıkça ifade edebilirim.

anibal · Şubat 28, 2020

On 21.02.2020 at 03:07, mirasyedi said:

örnek verin derken açık kod yada algoritma demek istedim.

slaytlarda sınırlı bilgi veriyorlar.

Sözlük karşı tarafa nasıl iletiliyor yazmıyorlar.

sözlükte yer alan karekter veya karekter grupları sayısı 256 aşarsa ne yapılıyor anlatmıyorlar.

sendende şikayetçiyim.programını yazıp yayınlamıyorsun.Verimli olup olmadığını göremedik.

Önce sıkıştırma olayını anlaman lazım.

Bunun içinde olan bitenin sıkıştırma olmadığını anlaman lazım. Ortada mevcut veriyi ezip, büküp küçültme gibi bir şey yok. Olan şey, mevcut veriyi elde edebileceğin ve daha küçük yer kaplayan bir denklem üretmek, basit tarifle olan bu. Yani, asıl veri ile sıkıştırılmış verinin aslen alakası yoktur, ortada yeni, başka bir veri vardır. Bu yeni veri "işlenerek", yani hesaplanarak vs. o orijinal verinin aynısı elde edilebilir.

Şimdi şu yazdığın mesaja bak. Oradaki tüm harfler 8 bitle saklanıyor. Şimdi bak orada en çok geçen harf, harfler ne. O harfleri 2 bit ile gösterdiğini farzet. En çok kullanılan harf için en az bit sayısını düşün. Böylece daha az bitle, aynı mesajı gösterebilirsin... Hayır gösteremezsin, oradaki hangi iki bit nedir, necidir, bunu bilip gösterecek bir bilgisayar yok. Bu senin mesajındı, yani bu mesajdaki en çok geçen harf, benim mesajımda en çok geçen harfle aynı olmayacaktır, o yüzden öyle sıkışmış veriyi ahanda bu şu harf diye işleyemezsin basitçe. Fakat, uygun kodu koyar, o bitleri tekrar eski 8 bit hallerine getirir ve burada gösterebilirsin.

İşte algoritma dediğin o şeyler, bu işi yapan kodlar.

Yeni bir kayıpsız sıkıştırma algoritması üzerinde çalışıyorum.

Recommended Posts

John_Ahmet 0

Link to post

Sitelerde Paylaş

haci 0

Link to post

Sitelerde Paylaş

bayşapka 0

Link to post

Sitelerde Paylaş

anibal 0

Link to post

Sitelerde Paylaş

haci 0

Link to post

Sitelerde Paylaş

haci 0

Link to post

Sitelerde Paylaş

Smile Buddha 0

Link to post

Sitelerde Paylaş

John_Ahmet 0

Link to post

Sitelerde Paylaş

John_Ahmet 0

Link to post

Sitelerde Paylaş

Smile Buddha 0

Link to post

Sitelerde Paylaş

John_Ahmet 0

Link to post

Sitelerde Paylaş

okuyan 0

Link to post

Sitelerde Paylaş

anibal 0

Link to post

Sitelerde Paylaş

Konuyu Görüntüleyenler 0 kullanıcı