Veri aktarımı ve saklanmasında veri sıkıştırma algoritmalarının kullanılması, aktarım süresi ve saklama maliyeti açısından avantaj sağlamaktadır. En çok üretilen veri türlerinden biri olan doğal dildeki metinlerin sıkıştırılması için farklı yöntemler bulunmaktadır. Geleneksel birçok yöntem kısa metinlerin sıkıştırılmasında başarı gösterememektedir. Kısa metinlerin sıkıştırılması için genel amaçlı sıkıştırma yöntemlerinden daha farklı yöntemlere ihtiyaç duyulmaktadır. Bu çalışmada BERT’in tahmin mekanizmasını kullanan bir kısa metin sıkıştırma algoritması önerilmiş ve geleneksel yöntemler ile karşılaştırılmıştır. Ayrıca önerilen yöntemin başarısı farklı parametreler ve modeller için incelenmiş ve karşılaştırılmıştır. Önerilen yöntem Gzip, Bzip2 ve Zstd gibi bilinen algoritmalara göre %39’a kadar daha başarılı sıkıştırma oranları elde etmiştir.
Using data compression algorithms in data transmission and storage provides advantages in terms of time and storage cost. There are several methods for compressing texts created in natural language which is one of the most produced data types. Many traditional methods are not successful in compressing short texts. Compressing short texts requires different methods than general-purpose compression methods. In this study, a short text compression algorithm which uses the prediction mechanism of BERT is proposed and compared with traditional methods. In addition, the results of the proposed method were examined and compared for different parameters and models. The proposed method has achieved compression ratios up to 39% better than traditional algorithms such as Gzip, Bzip2 and Zstd.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2021 |
Yayımlandığı Sayı | Yıl 2021 Sayı: 32 |