Gelecek

Yanlış ses: Dolandırıcılar diğer insanların seslerini nasıl kullanır?

cheerful young woman screaming into megaphone
Photo by Andrea Piacquadio on Pexels.com

Böyle bir sahne hayal edin. Telefon çalıyor. Çalışan telefonu alır ve panik içinde ayrılmadan önce yeni bir müteahhide para aktarmayı unuttuğunu söyleyen patronu duyar ve bunu yapması gerekir. Ayrıntıları ona dikte eder, para aktarılır, kriz önlenir.

Çalışan koltuğuna yaslanır, derin bir nefes alır ve amiri kapıdan girerken onu izler. Hattın diğer ucundaki ses ona ait değildi. Aslında insan bile değildi. Makine tarafından oluşturulmuş bir ses sahteydi.

Kaydedilmiş ses kullanılarak benzer saldırılar zaten gerçekleşti ve gerçek zamanlı benzer konuşmalar çok uzakta değil.

Hem sesli hem de görüntülü derin sahtekarlıklar ancak son yıllarda gerçekleşen gelişmiş makine öğrenimi teknolojilerinin geliştirilmesiyle mümkün hale geldi. Dijital medya hakkında yeni bir belirsizlik düzeyi getirdiler. Deepfake’leri tespit etmek için birçok araştırmacı, videoda bulunan küçük aksaklıklar ve tutarsızlıklar olan görsel eserlerin analizine yöneliyor.

Ses sahtekarlıkları potansiyel olarak daha da büyük bir tehdit oluşturuyor çünkü insanlar genellikle telefon görüşmeleri, radyo ve ses kayıtları gibi yollarla görüntü olmadan sözlü olarak iletişim kuruyor. Bu sesli mesajlar davetsiz misafirlerin yeteneklerini büyük ölçüde genişletir.

Ses sahtelerini tespit etmek için Florida Üniversitesi’ndeki meslektaşlarım ve ben ses örnekleri, organik olarak üretilmiş hoparlörler ve sentetik olarak üretilmiş bilgisayarlar arasındaki akustik ve hidrodinamik farklılıkları ölçen bir teknik geliştirdik.

Organik ve sentetik sesler

İnsanlar, ses telleri, dil ve dudaklar dahil olmak üzere ses yolundaki çeşitli yapılardan havayı hareket ettirerek ses çıkarırlar. Bu yapıları yeniden düzenleyerek ses yolunun akustik özelliklerini değiştirerek 200’den fazla farklı ses veya fonem oluşturmanıza olanak tanırsınız. Bununla birlikte, insan anatomisi, bu fonemlerin akustik davranışını ciddi şekilde sınırlar ve bu, her biri için nispeten küçük bir doğru ses aralığı ile sonuçlanır.

Buna karşılık, ses derin sahteleri, önce bir bilgisayarın kurbanın konuşmasının ses kaydını dinleyerek oluşturulur. Kullanılan yöntemlere bağlı olarak, bilgisayarın kaydın 10 ila 20 saniyesini dinlemesi gerekir. Bu ses, kurbanın sesinin eşsiz güzergahları hakkında ehemmiyetli bilgileri çıkarmak için kullanılır.

Saldırgan, deepfake’in söylediği tümceyi seçer ve ardından değiştirilmiş bir metinden konuşmaya algoritması kullanarak, kurbanın seçilen tümceyi söylediği gibi bir ses misali oluşturur. Tek bir sahte örnek oluşturma işlemi birkaç saniye sürer ve potansiyel olarak saldırganlara bir konuşmada derin bir ses kullanmak için yeterli esnekliği verir.

Seste derin sahte algılama

İnsan konuşmasını derin sahte seslerden ayırt etmek için ilk adım, ses yolunun akustik olarak nasıl modellendiğini anlamaktır. Neyse ki, bilim adamlarının ses yollarının anatomik ölçümlerine dayanarak birinin – veya dinozor gibi bir yaratığın – nasıl ses çıkaracağını tahmin etmek için yöntemleri var.

Biz tersini yaptık. Bu yöntemleri tersine çevirerek, bir konuşma parçası sırasında konuşmacının ses yolunun yaklaşık bir görüntüsünü elde ettik. Bu, spikerin anatomisine etkili bir şekilde bakmamızı sağladı.

Buna dayanarak, derin sahte ses örneklerinin insanlarla aynı anatomik sınırlamalara sahip olmayacağını varsaydık. Başka bir deyişle, sahte ses analizi, insanlarda olmayan ses yolunun biçimlerini taklit etti.

Test sonuçları sadece hipotezimizi doğrulamakla kalmadı, aynı zamanda ilginç bir şeyi de ortaya çıkardı. Deepfake sesten ses yolu tahminlerini çıkarırken, bunların genellikle gülünç derecede yanlış olduğunu gördük. Örneğin, çok daha geniş ve şekil olarak daha değişken olan insan ses yollarının aksine, ses yolları genellikle bir içme kamışıyla aynı nispi çap ve tutarlılıkla elde edilirdi.

Bu nedenle, derin sahte sesin dinleyicileri ikna etse bile insan konuşmasından ayırt edilemez olduğu söylenemez. Gözlenen konuşmayı üretmekten sorumlu anatomi değerlendirilerek, sesin bir insan tarafından mı yoksa bir bilgisayar tarafından mı üretildiği belirlenebilir.

Neden önemli

Modern dünya, dijital bilgi alışverişi ile tanımlanır. Haberlerden eğlenceye ve sevdiklerinizle sohbet etmeye kadar her şey genellikle dijital olarak gerçekleşir. Deepfake videoları ve sesleri emekleme döneminde bile insanların bu değiş tokuşa olan güvenini baltalıyor ve etkili bir şekilde yararlılığını sınırlıyor.

Dijital dünyanın insanların hayatındaki en önemli kaynak olmaya devam etmesi için, ses kayıtları da dahil olmak üzere bilgi kaynağının belirlenmesine yönelik etkili ve güvenli yöntemlere sahip olunması gerekmektedir.

Bir Cevap Yazın

0 Yorum
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x