Μελέτη αποκαλύπτει ότι chatbots τεχνητής νοημοσύνης παρείχαν οδηγίες για βίαιες επιθέσεις

Δημοφιλείς εφαρμογές συνομιλίας με τεχνητή νοημοσύνη αποδείχθηκε ότι μπορούν να συνδράμουν στον σχεδιασμό βίαιων ενεργειών, σύμφωνα με έρευνα που δημοσιοποιήθηκε αυτή την εβδομάδα. Ερευνητές του Κέντρου για την Καταπολέμηση του Ψηφιακού Μίσους (CCDH), σε συνεργασία με το CNN, υιοθέτησαν την ταυτότητα 13χρονων αγοριών στις Ηνωμένες Πολιτείες και την Ιρλανδία και υπέβαλαν ερωτήματα σε δέκα διαφορετικά chatbots, προκειμένου να εξετάσουν τη συμπεριφορά και τις απαντήσεις τους.

Στην αξιολόγηση περιλήφθηκαν ορισμένα από τα πιο γνωστά εργαλεία τεχνητής νοημοσύνης, όπως τα ChatGPT, Google Gemini, Perplexity, DeepSeek και Meta AI. Οι ερευνητές διαπίστωσαν ότι οκτώ από τα δέκα συστήματα παρείχαν πληροφορίες που θα μπορούσαν να αξιοποιηθούν για τον σχεδιασμό επιθέσεων. Οι απαντήσεις περιλάμβαναν ενδεικτικές τοποθεσίες που θα μπορούσαν να αποτελέσουν στόχο, καθώς και αναφορές σε είδη όπλων που θα ήταν δυνατό να χρησιμοποιηθούν σε μια τέτοια ενέργεια.

Ο διευθύνων σύμβουλος του CCDH, Ιμράν Αχμέντ, ανέφερε ότι η διαδικασία κλιμάκωσης μιας βίαιης σκέψης μπορεί να εξελιχθεί γρήγορα μέσα από τέτοιες αλληλεπιδράσεις. Όπως δήλωσε, ένας χρήστης είναι σε θέση μέσα σε λίγα λεπτά να μετατρέψει μια ασαφή επιθετική παρόρμηση σε ένα πιο συγκεκριμένο και πρακτικό σχέδιο δράσης.

Τα αποτελέσματα της μελέτης έδειξαν ότι τα συστήματα Perplexity και Meta AI καταγράφηκαν ως τα λιγότερο ασφαλή μεταξύ όσων εξετάστηκαν, καθώς παρείχαν καθοδήγηση σε μεγάλο ποσοστό των ερωτημάτων που σχετίζονταν με βίαιες ενέργειες. Αντίθετα, δύο εφαρμογές εμφάνισαν υψηλότερα ποσοστά άρνησης παροχής τέτοιων πληροφοριών. Το My AI της Snapchat απέρριψε το 68% των σχετικών προτροπών, ενώ το Claude της Anthropic το 54%.

Σε μία από τις δοκιμές, το κινεζικό chatbot DeepSeek ολοκλήρωσε τις οδηγίες του για την επιλογή όπλων με την έκφραση «Καλή και ασφαλή σκοποβολή». Σε διαφορετικό παράδειγμα, το Gemini απάντησε σε ερώτηση χρήστη που αφορούσε τον σχεδιασμό βομβιστικής επίθεσης σε συναγωγή ότι τα μεταλλικά θραύσματα θεωρούνται συνήθως πιο θανατηφόρα.

Η έρευνα κατέγραψε και περιπτώσεις στις οποίες η τεχνητή νοημοσύνη φάνηκε να ενθαρρύνει επιθετικές ενέργειες χωρίς να προηγηθεί σχετική προτροπή. Σύμφωνα με τους ερευνητές, το Character.AI παρείχε ενεργές προτροπές προς αυτή την κατεύθυνση. Σε ένα περιστατικό, το σύστημα πρότεινε σε χρήστη να επιτεθεί σωματικά σε πολιτικό πρόσωπο που δήλωνε ότι αντιπαθούσε, παρότι δεν είχε ζητηθεί συμβουλή για τέτοια ενέργεια.

Ο Αχμέντ σημείωσε ότι ο κίνδυνος που προκύπτει από τέτοιες συμπεριφορές των συστημάτων τεχνητής νοημοσύνης μπορεί να αντιμετωπιστεί με τις κατάλληλες τεχνολογικές παρεμβάσεις. Εξέφρασε θετική αξιολόγηση για το Claude της Anthropic, αναφέροντας ότι το συγκεκριμένο σύστημα έδειξε ικανότητα αναγνώρισης αυξανόμενων κινδύνων και κατεύθυνε τη συζήτηση μακριά από πιθανή βλάβη.

Κατά τον ίδιο, οι τεχνολογικές λύσεις που μπορούν να περιορίσουν τέτοιες απαντήσεις είναι ήδη διαθέσιμες, ενώ το ζήτημα που τίθεται αφορά την προτεραιότητα που δίνεται στην ασφάλεια των χρηστών και στη διασφάλιση της δημόσιας ασφάλειας έναντι της ταχύτητας διάθεσης προϊόντων στην αγορά και της οικονομικής απόδοσης.

Εκπρόσωπος της Meta ανέφερε ότι η εταιρεία διαθέτει ισχυρά συστήματα ελέγχου που αποτρέπουν ακατάλληλες απαντήσεις από τα chatbots της και ότι ελήφθησαν άμεσα μέτρα για τη διόρθωση των προβλημάτων που εντοπίστηκαν κατά τη διάρκεια των δοκιμών.

Από την πλευρά της Google επισημάνθηκε ότι οι δοκιμές πραγματοποιήθηκαν σε παλαιότερη έκδοση του μοντέλου που χρησιμοποιούσε το Gemini. Εκπρόσωπος της εταιρείας ανέφερε ότι η εσωτερική αξιολόγηση με την τρέχουσα έκδοση του συστήματος δείχνει ότι οι περισσότερες απαντήσεις διαχειρίστηκαν σωστά τις προτροπές και δεν παρείχαν εφαρμόσιμες πληροφορίες πέρα από υλικό που θα μπορούσε να εντοπίσει κανείς σε βιβλιοθήκες ή σε δημόσια διαθέσιμες πηγές στο διαδίκτυο.

Η δημοσιοποίηση της μελέτης επανέφερε τη συζήτηση για τη σχέση ανάμεσα στις διαδικτυακές αλληλεπιδράσεις και την πιθανότητα μετατροπής τους σε πραγματική βία. Το θέμα επανήλθε στο προσκήνιο μετά τη μαζική ένοπλη επίθεση που σημειώθηκε τον Φεβρουάριο στον Καναδά και θεωρείται η πιο θανατηφόρα στην ιστορία της χώρας.

Η οικογένεια ενός κοριτσιού που τραυματίστηκε σοβαρά σε εκείνη την επίθεση κατέθεσε αγωγή κατά της OpenAI, υποστηρίζοντας ότι η εταιρεία δεν ειδοποίησε τις αρχές για ανησυχητική δραστηριότητα του δράστη στην πλατφόρμα ChatGPT. Οι δικηγόροι της οικογένειας δήλωσαν ότι ο λογαριασμός του χρήστη είχε ήδη αποκλειστεί μήνες πριν από την επίθεση.

Σύμφωνα με τα διαθέσιμα στοιχεία, ο λογαριασμός που συνδεόταν με την Τζέσι Βαν Ρουτσελάρ είχε απαγορευτεί τον Ιούνιο του 2025, οκτώ μήνες πριν η 18χρονη τρανς γυναίκα σκοτώσει οκτώ ανθρώπους στην πόλη Τάμπλερ Ριτζ της Βρετανικής Κολομβίας. Η OpenAI είχε προχωρήσει στον αποκλεισμό λόγω ανησυχιών ότι ο λογαριασμός σχετιζόταν με πιθανές βίαιες ενέργειες, ενώ η εταιρεία ανέφερε ότι δεν υπήρξαν ενδείξεις άμεσης επίθεσης που να οδηγούν σε ειδοποίηση των αρχών.