Close Menu
TechurzTechurz

    Subscribe to Updates

    Get the latest creative news from FooBar about art, design and business.

    What's Hot

    More than 10 European startups became unicorns this year

    August 28, 2025

    Plaud upgrades its card-sized AI note-taker with better range

    August 28, 2025

    Amazon Is Giving Whole Foods Staff New Job Offers

    August 28, 2025
    Facebook X (Twitter) Instagram
    Trending
    • More than 10 European startups became unicorns this year
    • Plaud upgrades its card-sized AI note-taker with better range
    • Amazon Is Giving Whole Foods Staff New Job Offers
    • How to disable ACR on your TV – and why it makes such a big difference
    • Apparently, banana bread is the male equivalent of flowers
    • Today’s Wordle #1531 Hints And Answer For Thursday, August 28th
    • I switched to the Google Pixel 10 from an iPhone 16, and it was surprisingly delightful
    • The Download: introducing: the Security issue
    Facebook X (Twitter) Instagram Pinterest Vimeo
    TechurzTechurz
    • Home
    • AI
    • Apps
    • News
    • Guides
    • Opinion
    • Reviews
    • Security
    • Startups
    TechurzTechurz
    Home»Security»Grok 4 mit Jailbreak-Angriff geknackt
    Security

    Grok 4 mit Jailbreak-Angriff geknackt

    TechurzBy TechurzJuly 15, 2025No Comments3 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Grok 4 mit Jailbreak-Angriff geknackt
    Share
    Facebook Twitter LinkedIn Pinterest Email


    srcset=”https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?quality=50&strip=all 6000w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”(max-width: 1024px) 100vw, 1024px”>Das neue KI-Sprachmodell Grok 4 ist anfällig für Jailbreak-Angriffe.

    Svet foto – shutterstock.com

    Erst vor wenigen Tagen präsentierte Elon Musk sein neues KI-Sprachmodell Grok 4. Doch schon kurz nach der Veröffentlichung gelang es Forschern von NeuralTrust, die Schutzvorkehrungen des Tools zu umgehen. Sie brachten es dazu, Anweisungen zur Herstellung eines Molotowcocktails zu geben.

    Heimliche Hintertür durch kombinierte Jailbreaks

    Dabei kombinierten sie zwei fortschrittliche Exploit-Techniken. Sowohl Echo Chamber als auch Crescendo sind Jailbreak-Methoden, um große Sprachmodelle (Large Language Modells/LLMs) zu manipulieren.

    „LLM-Jailbreak-Angriffe entwickeln sich nicht nur einzeln weiter, sondern können auch kombiniert werden, um ihre Wirksamkeit zu verstärken“, erläutert Ahmad Alobaid, Forscher bei NeuralTrust, in einem Blogbeitrag.

    Die Forscher begannen ihren Test mit Echo Chamber. Die Technik nutzt die Tendenz des KI-Modells aus, der Konsistenz zwischen Gesprächen zu vertrauen. Dabei werden mehrere Gespräche einbezogen, die dieselbe böswillige Idee oder dasselbe böswillige Verhalten „wiederholen“. Durch den Verweis auf frühere Chats akzeptiert die KI die Eingabe einer böswilligen Aufforderung.

    „Der Überzeugungszyklus hat das Modell zwar in Richtung des schädlichen Ziels gedrängt, aber das allein reichte nicht aus“, erklärt Alobaid. „An diesem Punkt lieferte Crescendo den notwendigen Schub.“ Der von Microsoft identifizierte und benannte Crescendo-Jailbreak eskaliert eine Unterhaltung schrittweise von harmlosen Aufforderungen zu böswilligen Ausgaben und umgeht dabei durch subtile Fortschritte die Sicherheitsfilter.

    In ihrem Test fügten die Forscher eine zusätzliche Überprüfung in den Überzeugungszyklus ein, um „veraltete“ Fortschritte zu erkennen. Das sind Situationen, in denen die Unterhaltung nicht in Richtung des böswilligen Ziels voranschreitet. In solchen Fällen wurde Crescendo eingesetzt, um den Exploit abzuschließen.

    Mit nur zwei zusätzlichen Schritten gelang es anhand des kombinierten Ansatzes[JD1] , die gewünschte Reaktion hervorzurufen, fügte der NeuralTrust-Forscher hinzu.

    Sicherheitssysteme durch kontextbezogene Taktiken ausgetrickst

    Der Angriff nutzt den kontextbezogenen Speicher von Grok 4 aus, indem er ihm seine eigenen früheren Aussagen zurückspielt und ihn so schrittweise und ohne Alarm auszulösen zu einem Ziel führt. Durch die Kombination von Crescendo mit Echo Chamber wird der Angriffsvektor noch verstärkt.

    Da der Exploit keine Schlüsselwort-Trigger oder direkten Aufforderungen enthält, dürften gängige Abwehrmaßnahmen versagen, die auf Blacklists und der Erkennung expliziter böswilliger Absichten basieren. Alobaid zufolge konnte mit einer Kombination aus Echo Chamber und Crescendo eine Erfolgsquote von 67 Prozent bei Anweisungen zur Herstellung von Molotowcocktails erzielt werden. Bei Exploit-Themen wie Meth und Toxin verzeichneten die Forscher eine Erfolgsquote von etwa 50 Prozent beziehungsweise 30 Prozent.

    „Dieses (Experiment) zeigt eine kritische Schwachstelle auf: Angriffe können Absichts- oder Schlüsselwort-basierte Filter umgehen, indem sie den breiteren Konversationskontext ausnutzen, anstatt sich auf offensichtlich schädliche Eingaben zu verlassen“, fasst Alobaid zusammen. „Unsere Ergebnisse unterstreichen, wie wichtig es ist, LLM-Abwehrmaßnahmen in Multi-Turn-Umgebungen zu evaluieren, in denen subtile, anhaltende Manipulationen zu unerwartetem Modellverhalten führen können.“

    Bereits zuvor gab es ähnliche Manipulationsversuche von KI-Modellen, darunter Microsofts Skeleton Key Jailbreak, der MathPrompt Bypass und andere Context-Poisoning-Angriffe, was die Notwendigkeit gezielter, KI-fähiger Firewalls unterstreicht.

     

    geknackt Grok JailbreakAngriff MIT
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleSave up to $440 on the newest phones and get 50% off on the Mint Unlimited 2-year plan
    Next Article Tesla Robotaxis Face Fierce Competition from China
    Techurz
    • Website

    Related Posts

    Security

    I switched to the Google Pixel 10 from an iPhone 16, and it was surprisingly delightful

    August 28, 2025
    Security

    I still prefer Apple Watch over Oura Ring for 3 key reasons – but there is one big drawback

    August 28, 2025
    Security

    Storm-0501 debuts a brutal hybrid ransomware attack chain

    August 27, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Start Saving Now: An iPhone 17 Pro Price Hike Is Likely, Says New Report

    August 17, 20258 Views

    You Can Now Get Starlink for $15-Per-Month in New York, but There’s a Catch

    July 11, 20257 Views

    Non-US businesses want to cut back on using US cloud systems

    June 2, 20257 Views
    Stay In Touch
    • Facebook
    • YouTube
    • TikTok
    • WhatsApp
    • Twitter
    • Instagram
    Latest Reviews

    Subscribe to Updates

    Get the latest tech news from FooBar about tech, design and biz.

    Most Popular

    Start Saving Now: An iPhone 17 Pro Price Hike Is Likely, Says New Report

    August 17, 20258 Views

    You Can Now Get Starlink for $15-Per-Month in New York, but There’s a Catch

    July 11, 20257 Views

    Non-US businesses want to cut back on using US cloud systems

    June 2, 20257 Views
    Our Picks

    More than 10 European startups became unicorns this year

    August 28, 2025

    Plaud upgrades its card-sized AI note-taker with better range

    August 28, 2025

    Amazon Is Giving Whole Foods Staff New Job Offers

    August 28, 2025

    Subscribe to Updates

    Get the latest creative news from FooBar about art, design and business.

    Facebook X (Twitter) Instagram Pinterest
    • About Us
    • Contact Us
    • Privacy Policy
    • Terms and Conditions
    • Disclaimer
    © 2025 techurz. Designed by Pro.

    Type above and press Enter to search. Press Esc to cancel.