Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması

Yahya Kesenek; İbrahim Özçelik; Emrah Kaya

doi:10.17341/gazimmfd.641580

Research Article

Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması

Year 2022, Volume: 37 Issue: 3, 1639 - 1654, 28.02.2022

Yahya Kesenek İbrahim Özçelik Emrah Kaya

https://doi.org/10.17341/gazimmfd.641580

Abstract

Günümüzde
değerli verilerin saklanması ve sadece yetkili şahıs veya kurumlarca
kullanılması önem arz etmektedir. Genel olarak verinin korunmasına yönelik
geliştirilen veri sızıntısı önleme (Data Leakage Prevention-DLP) çözümleri
zararlı yazılım kaynaklı saldırıları göz ardı etmekte, parmak izi (fingerprinting) eşleştirme ve kurallı ifadeler (regular
expression) benzeri yöntemler kullanan algoritmalar yer almaktadır. Oysaki
doküman içeriğine yönelik yapılan saldırılar neticesinde bu algoritmalar
atlatılabilmektedir.

Zararlı
yazılım kaynaklı veri sızıntısına karşı dayanıklı bir algoritmanın sunulduğu bu
çalışmada, zararlı yazılımların saldırı türüne bağlı kalmayan bir çözüm
önerilmektedir. Çalışma kapsamında, yer değiştirme, yapısal cümle saldırıları,
modifikasyon saldırıları, karartma saldırıları ele alınmıştır. Bu saldırılara
karşı yazım düzeltimi, kelime-gram ve karakter-gram, k-skip-n-gram ve LSA
kullanılarak, saldırı altında daha iyi bir sınıflama yapılması için özellikler
çıkarımı sağlanmıştır.

Çıkarılan
özellikler, Karar Destek Makineleri, Rasgele Orman ve Çok Katmanlı Algılayıcı
kullanarak Oylamalı Sınıflandırıcı ile en çok oy alan yönteme göre sınıflama
tahmini yapılmıştır.

Ayrıca
modifikasyon saldırılarında faydalı olan Yazım Düzeltme yönteminin etkisi
farklı aşamalarda uygulanarak gösterilmiştir.

Keywords

Zararlı yazılım kaynaklı veri sızıntısı önleme, Zararlı DLP, Gelişmiş Sürekli Atak, APT, Yapısal ataklar, Bilgi güvenliği, Karartma saldırıları, TD-IDF, N-gram, Rasgele orman, Oylamalı sınıflandırıcı

Supporting Institution

TÜBİTAK

Project Number

117E100

References

S. Alneyadi, E. Sithirasenan, and V. Muthukkumarasamy, “A survey on data leakage prevention systems,” J. Netw. Comput. Appl., vol. 62, pp. 137–152, 2016.
A. Maheshwari, “Report on Text Classification using CNN, RNN & HAN,” 2017. [Online]. Available: https://medium.com/jatana/report-on-text-classification-using-cnn-rnn-han-f0e887214d5f.
T. Mustafa, “Malicious Data Leak Prevention and Purposeful Evasion Attacks: An approach to Advanced Persistent Threat (APT) management,” 2013 Saudi Int. Electron. Commun. Photonics Conf. SIECPC 2013, pp. 1–5, 2013.
R. Tahboub and Y. Saleh, “Data leakage/loss prevention systems (DLP),” 2014 World Congr. Comput. Appl. Inf. Syst. WCCAIS 2014, 2014.
M. Hart, P. Manadhata, and R. Johnson, “Text Classification for Data Loss Prevention,” pp. 18–37, 2011.
Y. Canbay, H. Yazici, and S. Sagiroglu, “A Turkish language based data leakage prevention system,” 2017 5th Int. Symp. Digit. Forensic Secur. ISDFS 2017, 2017.
B. Martins and M. J. Silva, “Spelling Correction for Search Engine Queries,” Adv. Nat. Lang. Process., pp. 372–383, 2004.
F. Ahmed, “Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness,” Res. J. Comput. …, no. 40, pp. 39–48, 2009.
M. Priya, R. Kalpana, and T. Srisupriya, “Hybrid optimization algorithm using N gram based edit distance,” Proc. 2017 IEEE Int. Conf. Commun. Signal Process. ICCSP 2017, vol. 2018-Janua, pp. 216–221, 2018.
A. Kulmizev et al., “The Power of Character N-grams in Native Language Identification,” 2018, pp. 382–389.
E. Altszyler, M. Sigman, S. Ribeiro, and D. F. Slezak, “Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database,” pp. 1–14, 2016.
C. Catal and M. Nangir, “A sentiment classification model based on multiple classifiers,” Appl. Soft Comput. J., vol. 50, pp. 135–141, 2017.
A. Tripathy, A. Agrawal, and S. Rath, “Classification of Sentiment Reviews using N-gram Machine Learning Approach,” Expert Syst. Appl., vol. 57, 2016.
S. Ruder, “An overview of gradient descent optimization algorithms,” pp. 1–14, 2016.
M. Topaloğlu, “Özel Anlamlı Ifade Içeren Verilerde Sızıntı Önleme Için Bir Mimari Tasarım Ve Gerçekleştirilmesi,” 2012.
A. Tripathy, A. Agrawal, and S. K. Rath, “Classification of sentiment reviews using n-gram machine learning approach,” Expert Syst. Appl., vol. 57, no. March, pp. 117–126, 2016.