Research Article
BibTex RIS Cite

Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması

Year 2022, Volume: 37 Issue: 3, 1639 - 1654, 28.02.2022
https://doi.org/10.17341/gazimmfd.641580

Abstract



Günümüzde
değerli verilerin saklanması ve sadece yetkili şahıs veya kurumlarca
kullanılması önem arz etmektedir. Genel olarak verinin korunmasına yönelik
geliştirilen veri sızıntısı önleme (Data Leakage Prevention-DLP) çözümleri
zararlı yazılım kaynaklı saldırıları göz ardı etmekte, parmak izi (fingerprinting) eşleştirme ve kurallı ifadeler (regular
expression) benzeri yöntemler kullanan algoritmalar
yer almaktadır. Oysaki
doküman içeriğine yönelik yapılan saldırılar neticesinde bu algoritmalar
atlatılabilmektedir.



 



Zararlı
yazılım kaynaklı veri sızıntısına karşı dayanıklı bir algoritmanın sunulduğu bu
çalışmada, zararlı yazılımların saldırı türüne bağlı kalmayan bir çözüm
önerilmektedir. Çalışma kapsamında, yer değiştirme, yapısal cümle saldırıları,
modifikasyon saldırıları, karartma saldırıları ele alınmıştır. Bu saldırılara
karşı yazım düzeltimi, kelime-gram ve karakter-gram, k-skip-n-gram ve LSA
kullanılarak, saldırı altında daha iyi bir sınıflama yapılması için özellikler
çıkarımı sağlanmıştır.



 



Çıkarılan
özellikler, Karar Destek Makineleri, Rasgele Orman ve Çok Katmanlı Algılayıcı
kullanarak Oylamalı Sınıflandırıcı ile en çok oy alan yönteme göre sınıflama
tahmini yapılmıştır.



Ayrıca
modifikasyon saldırılarında faydalı olan Yazım Düzeltme yönteminin etkisi
farklı aşamalarda uygulanarak gösterilmiştir.




Supporting Institution

TÜBİTAK

Project Number

117E100

References

  • S. Alneyadi, E. Sithirasenan, and V. Muthukkumarasamy, “A survey on data leakage prevention systems,” J. Netw. Comput. Appl., vol. 62, pp. 137–152, 2016.
  • A. Maheshwari, “Report on Text Classification using CNN, RNN & HAN,” 2017. [Online]. Available: https://medium.com/jatana/report-on-text-classification-using-cnn-rnn-han-f0e887214d5f.
  • T. Mustafa, “Malicious Data Leak Prevention and Purposeful Evasion Attacks: An approach to Advanced Persistent Threat (APT) management,” 2013 Saudi Int. Electron. Commun. Photonics Conf. SIECPC 2013, pp. 1–5, 2013.
  • R. Tahboub and Y. Saleh, “Data leakage/loss prevention systems (DLP),” 2014 World Congr. Comput. Appl. Inf. Syst. WCCAIS 2014, 2014.
  • M. Hart, P. Manadhata, and R. Johnson, “Text Classification for Data Loss Prevention,” pp. 18–37, 2011.
  • Y. Canbay, H. Yazici, and S. Sagiroglu, “A Turkish language based data leakage prevention system,” 2017 5th Int. Symp. Digit. Forensic Secur. ISDFS 2017, 2017.
  • B. Martins and M. J. Silva, “Spelling Correction for Search Engine Queries,” Adv. Nat. Lang. Process., pp. 372–383, 2004.
  • F. Ahmed, “Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness,” Res. J. Comput. …, no. 40, pp. 39–48, 2009.
  • M. Priya, R. Kalpana, and T. Srisupriya, “Hybrid optimization algorithm using N gram based edit distance,” Proc. 2017 IEEE Int. Conf. Commun. Signal Process. ICCSP 2017, vol. 2018-Janua, pp. 216–221, 2018.
  • A. Kulmizev et al., “The Power of Character N-grams in Native Language Identification,” 2018, pp. 382–389.
  • E. Altszyler, M. Sigman, S. Ribeiro, and D. F. Slezak, “Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database,” pp. 1–14, 2016.
  • C. Catal and M. Nangir, “A sentiment classification model based on multiple classifiers,” Appl. Soft Comput. J., vol. 50, pp. 135–141, 2017.
  • A. Tripathy, A. Agrawal, and S. Rath, “Classification of Sentiment Reviews using N-gram Machine Learning Approach,” Expert Syst. Appl., vol. 57, 2016.
  • S. Ruder, “An overview of gradient descent optimization algorithms,” pp. 1–14, 2016.
  • M. Topaloğlu, “Özel Anlamlı Ifade Içeren Verilerde Sızıntı Önleme Için Bir Mimari Tasarım Ve Gerçekleştirilmesi,” 2012.
  • A. Tripathy, A. Agrawal, and S. K. Rath, “Classification of sentiment reviews using n-gram machine learning approach,” Expert Syst. Appl., vol. 57, no. March, pp. 117–126, 2016.
Year 2022, Volume: 37 Issue: 3, 1639 - 1654, 28.02.2022
https://doi.org/10.17341/gazimmfd.641580

Abstract

Project Number

117E100

References

  • S. Alneyadi, E. Sithirasenan, and V. Muthukkumarasamy, “A survey on data leakage prevention systems,” J. Netw. Comput. Appl., vol. 62, pp. 137–152, 2016.
  • A. Maheshwari, “Report on Text Classification using CNN, RNN & HAN,” 2017. [Online]. Available: https://medium.com/jatana/report-on-text-classification-using-cnn-rnn-han-f0e887214d5f.
  • T. Mustafa, “Malicious Data Leak Prevention and Purposeful Evasion Attacks: An approach to Advanced Persistent Threat (APT) management,” 2013 Saudi Int. Electron. Commun. Photonics Conf. SIECPC 2013, pp. 1–5, 2013.
  • R. Tahboub and Y. Saleh, “Data leakage/loss prevention systems (DLP),” 2014 World Congr. Comput. Appl. Inf. Syst. WCCAIS 2014, 2014.
  • M. Hart, P. Manadhata, and R. Johnson, “Text Classification for Data Loss Prevention,” pp. 18–37, 2011.
  • Y. Canbay, H. Yazici, and S. Sagiroglu, “A Turkish language based data leakage prevention system,” 2017 5th Int. Symp. Digit. Forensic Secur. ISDFS 2017, 2017.
  • B. Martins and M. J. Silva, “Spelling Correction for Search Engine Queries,” Adv. Nat. Lang. Process., pp. 372–383, 2004.
  • F. Ahmed, “Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness,” Res. J. Comput. …, no. 40, pp. 39–48, 2009.
  • M. Priya, R. Kalpana, and T. Srisupriya, “Hybrid optimization algorithm using N gram based edit distance,” Proc. 2017 IEEE Int. Conf. Commun. Signal Process. ICCSP 2017, vol. 2018-Janua, pp. 216–221, 2018.
  • A. Kulmizev et al., “The Power of Character N-grams in Native Language Identification,” 2018, pp. 382–389.
  • E. Altszyler, M. Sigman, S. Ribeiro, and D. F. Slezak, “Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database,” pp. 1–14, 2016.
  • C. Catal and M. Nangir, “A sentiment classification model based on multiple classifiers,” Appl. Soft Comput. J., vol. 50, pp. 135–141, 2017.
  • A. Tripathy, A. Agrawal, and S. Rath, “Classification of Sentiment Reviews using N-gram Machine Learning Approach,” Expert Syst. Appl., vol. 57, 2016.
  • S. Ruder, “An overview of gradient descent optimization algorithms,” pp. 1–14, 2016.
  • M. Topaloğlu, “Özel Anlamlı Ifade Içeren Verilerde Sızıntı Önleme Için Bir Mimari Tasarım Ve Gerçekleştirilmesi,” 2012.
  • A. Tripathy, A. Agrawal, and S. K. Rath, “Classification of sentiment reviews using n-gram machine learning approach,” Expert Syst. Appl., vol. 57, no. March, pp. 117–126, 2016.
There are 16 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Makaleler
Authors

Yahya Kesenek 0000-0002-7571-234X

İbrahim Özçelik 0000-0001-9985-5268

Emrah Kaya 0000-0001-9050-2343

Project Number 117E100
Publication Date February 28, 2022
Submission Date November 1, 2019
Acceptance Date October 24, 2021
Published in Issue Year 2022 Volume: 37 Issue: 3

Cite

APA Kesenek, Y., Özçelik, İ., & Kaya, E. (2022). Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 37(3), 1639-1654. https://doi.org/10.17341/gazimmfd.641580
AMA Kesenek Y, Özçelik İ, Kaya E. Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. GUMMFD. February 2022;37(3):1639-1654. doi:10.17341/gazimmfd.641580
Chicago Kesenek, Yahya, İbrahim Özçelik, and Emrah Kaya. “Zararlı yazılım Kaynaklı Veri kaçırma ataklarına karşı Yeni Bir doküman sınıflandırma Algoritması”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37, no. 3 (February 2022): 1639-54. https://doi.org/10.17341/gazimmfd.641580.
EndNote Kesenek Y, Özçelik İ, Kaya E (February 1, 2022) Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37 3 1639–1654.
IEEE Y. Kesenek, İ. Özçelik, and E. Kaya, “Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması”, GUMMFD, vol. 37, no. 3, pp. 1639–1654, 2022, doi: 10.17341/gazimmfd.641580.
ISNAD Kesenek, Yahya et al. “Zararlı yazılım Kaynaklı Veri kaçırma ataklarına karşı Yeni Bir doküman sınıflandırma Algoritması”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37/3 (February 2022), 1639-1654. https://doi.org/10.17341/gazimmfd.641580.
JAMA Kesenek Y, Özçelik İ, Kaya E. Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. GUMMFD. 2022;37:1639–1654.
MLA Kesenek, Yahya et al. “Zararlı yazılım Kaynaklı Veri kaçırma ataklarına karşı Yeni Bir doküman sınıflandırma Algoritması”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, vol. 37, no. 3, 2022, pp. 1639-54, doi:10.17341/gazimmfd.641580.
Vancouver Kesenek Y, Özçelik İ, Kaya E. Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. GUMMFD. 2022;37(3):1639-54.