TechCrunch AI
GitHub Copilot: Entwickler verweigern Arbeit ohne KI, Risiken im Anmarsch.
KIâgestĂŒtzte Codegenerierung beschleunigt, doch QualitĂ€tsprobleme und Sicherheitsrisiken fordern strengere Tests.
Weiterlesen
Google AI Blog
Waterloo-Studenten entwickeln KI-Prototypen im Futures Lab.
Waterloo-Studenten entwickeln KI-Prototypen fĂŒr inklusives Lernen und Arbeitsoptimierung mit Google AI und Unternehmen.
Weiterlesen
arXiv AI Papers
Behaviorâinduzierte MirrorâProxâTDâMethode STHTDâMP beschleunigt OffâPolicy-Vorhersagen.
STHTDâMP verbessert SaddleâPoint-Geometrie, erhöht Konvergenz, erzielt bessere Benchmarks, erkennt BairdâKontra-Beispiel.
Weiterlesen
arXiv AI Papers
BAâTDC und BAâTDRC verbessern StabilitĂ€t beim OffâPolicyâTDâLernen.
BAâTDC und BAâTDRC verbessern offâpolicy Lernen und ĂŒbertreffen bestehende Methoden.
Weiterlesen
arXiv AI Papers
Cognitive Categorical Transformer (306âŻMâParameter) verbessert GPTâ2âSmall um 12âŻ%.
Der 306âMioâParameterâCCT verbessert die WikiTextâ103âPerplexitĂ€t um 12âŻ% dank GPTâ2 Small Backbone und Module.
Weiterlesen
arXiv AI Papers
URIEL: DrohnenâgestĂŒtzte, nachhaltige Logistik fĂŒr tropische WĂ€lder.
KIâgestĂŒtzte Forstwirtschaft in Tropen nutzt HeliâLogging, Robotik, Drohnen, ohne NebenschĂ€den, hohe RentabilitĂ€t, erfordert Kooperation.
Weiterlesen
arXiv AI Papers
LLM-Review-Tests zeigen unzureichende Ăbereinstimmung bei ACL Rolling Review.
LLM-gestĂŒtzte Peer-Reviews verbessern bis zu 35âŻ% der Manuskripte, zeigen variabel akzeptable Ăbereinstimmung.
Weiterlesen
arXiv AI Papers
Neues Verfahren zur orthogonalen Konzeptlöschung steigert Diffusionsmodelle.
Orthogonal Concept Erasure verbessert Diffusionsmodelle, löscht Konzepte prÀzise, erhÀlt QualitÀt.
Weiterlesen
arXiv AI Papers
LLM-Agenten lösen die Ontologie-HĂŒrde bei natĂŒrlichen PhĂ€notypen.
LLMâAgenten erreichen menschliche Konsistenz bei PhĂ€notypâAnnotationen und ĂŒbertreffen Semantic CharaParser.
Weiterlesen
arXiv AI Papers
VFEAgent automatisiert FiniteâElementeâAnalyse mittels multimodaler Agenten.
VFEAgent automatisiert FEA aus Bildern, nutzt VisionâLanguageâModell und verifizierungsâfirst Synthesizer, erzielt hohe Erfolgsquote.
Weiterlesen
arXiv AI Papers
BEAMS Initiative: Open-Source KI-Benchmark fĂŒr ethische Simulation.
BEAMS definiert KIâModelle, entwickelt Benchmarks, prĂŒft Tools, zeigt StĂ€rken in Diskussionen, SchwĂ€chen in KausalitĂ€t.
Weiterlesen
arXiv AI Papers
Microsoft Bing Copilot: Langfristige Analyse von LLM-Unterhaltungen.
12.000 Bing-Copilot-Nutzer zeigen stabile Gewohnheiten; WildChat weniger reprÀsentativ, NutzerheterogenitÀt hoch.
Weiterlesen
arXiv AI Papers
Interpretive Audit Pipeline deckt divergierende Klassifikationen von vier LLMs bei USDA-Kommentaren auf.
Die Pipeline prĂŒft divergierende LLMâKategorien und fokussiert menschliche Revision auf mehrdeutige Eingaben.
Weiterlesen
arXiv AI Papers
OpenAI ChatGPT, Google Gemini LLMs reagieren auf Ton.
Eine Studie untersucht, wie Tonvarianten die Leistung von vier kosteneffizienten LLMs unterschiedlich beeinflussen.
Weiterlesen
arXiv AI Papers
DOT-Framework zeigt KI im Hochschullehre als Chance.
DOTâFramework betont menschliche Aufsicht als entscheidend, 72 Hochschullehrende sehen KI als Hilfe, Hindernisse bremsen Umsetzung.
Weiterlesen
arXiv AI Papers
D-BOS: Differenzierbare bederungsbasierte Gegnerformung in Multiagenten.
DâBOS verbessert MehrspielerâKoordination durch beliefâSpaceâDifferenzierung und ĂŒbertrifft PPO sowie BBM.
Weiterlesen
arXiv AI Papers
Agentic AI nutzt Nested Learning und semantisches Caching, um Halluzinationen zu reduzieren.
HOPEâinspirierte MultiâAgentâArchitektur senkt LLMâHalluzinationen um bis zu 35âŻ% und reduziert COâ.
Weiterlesen
arXiv AI Papers
COLAGUARD: Effiziente, robuste Sicherheitsbarriere fĂŒr LLMs.
COLAGUARD verbessert Moderation, steigert F1 um 8,24 Punkte, senkt Laufzeit 12,9âfach und Tokenkosten 22,4âfach.
Weiterlesen
arXiv AI Papers
Reinforcement Learning Dispatching: SimâtoâRealâLĂŒcke durch AusfĂŒhrungsschemata schlieĂen.
ArXiv-Studie prÀsentiert ein policy-neutrales Framework, das Fehler strukturiert erfasst und ZuverlÀssigkeit erhöht.
Weiterlesen
arXiv AI Papers
Redpanda prĂ€sentiert ADP mit Out-of-Band-Metadaten fĂŒr Agentensicherheit.
Redpanda nutzt outâofâbandâMetadatenkanĂ€le, bietet sichere Architektur fĂŒr autonome KIâAgenten und verhindert Halluzinationen.
Weiterlesen
arXiv AI Papers
Rechenmodelle unter Angriff: KettenâDenken bleibt korrekt, Antwort verfĂ€lscht.
ChainâofâThoughtâModelle liefern korrekte Ăberlegungen, doch falsche Endantworten bei 50âŻ% FlippâRate, daher robuste FaithfulnessâMessungen nötig.
Weiterlesen
arXiv AI Papers
OpenAI GPT-5.5 kombiniert mit menschlicher Analyse beleuchtet AI-Trials in klinischen Studien.
Zunehmende KI-Studien, vor allem in China und USA, wuchsen in ML, DL, Chatbots und GPTs.
Weiterlesen
arXiv AI Papers
LLM-Aggregator nutzt komplette TraceâSynthese, steigert Genauigkeit bei Agenten.
LLMâAggregatoren liefern besser als Mehrheitsentscheidungen; SelfâConsistent Mixture of Agents variiert BegrĂŒndungen, ĂŒbertrifft heterogene Pools.
Weiterlesen
arXiv AI Papers
PRO-CUA: Prozessoptimierung fĂŒr Computer-Use-Agents.
PROâCUA trennt LiveâInteraktion von PolicyâOptimierung, nutzt Feedback, senkt Bias, steigert Effizienz fĂŒr Workflows.
Weiterlesen
arXiv AI Papers
Masked Diffusion Modelle: Vertrauen verursacht Rechenfehler.
MDMs verschlechtern confidenceâbasiertes Decoding bei komplexen Aufgaben, wĂ€hrend Zufallsmasken Fehler reduzieren.
Weiterlesen
arXiv AI Papers
Agentische KI: Technische Schulden, Stochastic Tax, Governance fĂŒr Adaptive Systeme.
Der Beitrag fĂŒhrt die Begriffe âAgentic Technical Debtâ und âStochastic Taxâ ein.
Weiterlesen
arXiv AI Papers
Neuro-Symbolic KGâKonstruktion mit ontologiebasierter Korrektur.
Neuro-symbolische Ontologie-Klassifikationsgraphen reduzieren den Tokenverbrauch, erhöhen Konsistenz und verbessern SPARQL-Abfragen.
Weiterlesen
arXiv AI Papers
AI-DeFi-Agenten erzielen 3âŻMrdâŻUSD, ElizaOS und Virtuals Protocol im Fokus.
DeFiâAI-Investmentagenten erreichen 3âŻMrdâŻUSD, sind aber spekulativ, unzuverlĂ€ssig, und groĂe Verluste.
Weiterlesen
arXiv AI Papers
ReasonOps: UnĂŒberwachtes Tool zur Analyse von Chain-of-Thought-Traces bei LLMs.
ReasonOps klassifiziert 44âŻ662 ChainâofâThoughtâSpuren von 12 LLMs in 7 Operatoren, erkennt FingerabdrĂŒcke und prognostiziert Antworten.
Weiterlesen
arXiv AI Papers
GTA: Skalierbare Erstellung langer Web-Agentenaufgaben.
GTA schlieĂt das LeistungsgefĂ€lle, indem Crawling, Suchanfragen, Textgenerierung und QualitĂ€tskontrolle kombiniert, um Aufgaben zu erzeugen.
Weiterlesen
arXiv AI Papers
BenchTrace: Neuer MaĂstab fĂŒr Reflektion und kontrollierte Evolution selbstlernender LLM-Agenten.
BenchTrace bewertet KI-Agenten mit 1821 Episoden, FARâMetrik, zeigt niedrige Reflexion, Engpass Fehlerdiagnose, modellagnostisch.
Weiterlesen
arXiv AI Papers
DatenâModellâKompatibilitĂ€t: SchlĂŒssel fĂŒr effektives LLMâReasoning-Transfer.
Die DMC-Metrik bewertet Datenpassung, verbessert Logiktransfer und steigert Distillationsergebnisse.
Weiterlesen
arXiv AI Papers
Deep Research Pipeline erhöht Literaturrecherche-Rekall von 20âŻ% auf 80âŻ%.
Die neue Pipeline steigert die Literatursuche auf 80âŻ% und betont MehrdimensionalitĂ€t.
Weiterlesen
arXiv AI Papers
KI priorisiert Unterrichtsthemen ohne Noten in virtuellen Klassen.
Eine transparente KIâSchicht priorisiert Lernmodule, bewertet Schwierigkeiten, LehrerâBedenken ohne Noten, korreliert stark mit Feedback.
Weiterlesen
arXiv AI Papers
DenseSteer verbessert kleine Modelle mit dichten mathematischen Schritten.
DenseSteer steigert die Genauigkeit mathematischer Tests der Qwen-2.5-Serie ohne zusÀtzliches Training.
Weiterlesen
arXiv AI Papers
Neues sicheres Agenten-Framework: ePCA nutzt logische BeschrÀnkungen.
Das Papier prĂ€sentiert ein ePCA-Framework, das KI-Agenten zwingt, Absichten formal zu prĂŒfen, Sicherheit zu gewĂ€hrleisten.
Weiterlesen
arXiv AI Papers
OpenClawBench: Neues Benchmark fĂŒr Prozessanomalien in Agenten.
OpenClawBench liefert 31âŻ264 Trajektorien aus sechs Modellen, klassifiziert 2âŻ904 Prozessanomalien, erzielt F1âŻ0,729.
Weiterlesen
arXiv AI Papers
RACEâSched: Asynchrones Agenten-Framework verbindet Echtzeit und langfristiges Scheduling.
RACEâSched kombiniert symbolische Heuristik mit LLM-Stream, optimiert DispatchâRegeln in Echtzeit, ĂŒbertrifft RLâModelle.
Weiterlesen
arXiv AI Papers
Mehrere Foundation Models im selbstkonsumierenden Loop: Human Curation kann scheitern.
Modelltraining auf synthetischen Daten verstĂ€rkt Abweichungen, gefĂ€hrdet Alignment, erfordert koordiniertes HumanâInâLoopâManagement.
Weiterlesen
arXiv AI Papers
LLMâbasierte ServiceâTaxonomie: Rekursive Konstruktion fĂŒr Internet of Agents.
A2X reduziert Kontextmangel, klassifiziert LLMâServices hierarchisch und steigert Trefferquote um 6,2âŻ%.
Weiterlesen
arXiv AI Papers
CoHyDE: Iteratives CoâTraining von LLMâRewriter und Dense Encoder fĂŒr ToolâRetrieval.
CoHyDE optimiert APIâTool-Suche durch dichten Encoder und LLMâRewriter, steigert Retrieval um bis zu 8âŻ%.
Weiterlesen
arXiv AI Papers
LLM-FineâTuning: Beseitigung schĂ€dlicher Nachschreibungen verbessert TrainingsqualitĂ€t.
Harmful Continuation reduziert Fehler, DeleteâOnlyâEditor verbessert SFT, HCC adressiert UncertaintyâGeometryâMismatch.
Weiterlesen
arXiv AI Papers
EntropyâKL TokenâMaskierung: Neue Technik fĂŒr selektives FineâTuning groĂer Modelle.
EKSFT maskiert Tokens mit hoher Entropie, erhöht Genauigkeit, fördert RLâExploration und liefert robustere KIâModelle.
Weiterlesen
arXiv AI Papers
RoRo: Rubrikbasierte Prozessbelohnung optimiert Schrittweises Modellrouting.
RoRo verbessert KI-Modellverteilung durch rubrikbasierte Routingbelohnung, steigert Genauigkeit, senkt Kosten.
Weiterlesen
arXiv AI Papers
ConMoE: PrototypenâZuweisung komprimiert MixtureâofâExpertsâModelle.
ConMoE reduziert MoE-Modelle ohne GewichtsĂ€nderung, liefert vergleichbare oder bessere Ergebnisse bei 25âŻ% und 50âŻ% Expert Reduction.
Weiterlesen
arXiv AI Papers
PassNet: LLM-gestĂŒtzte Compiler-Pass-Generierung mit TorchInductor.
LLMâgesteuerte Compileroptimierung steigert LangschwanzâWorkloads um 37âŻ%, Dataset mit 18âŻ000 Graphen, Benchmark PassBench und 3âfach TorchInductorâLeistung.
Weiterlesen
arXiv AI Papers
Anthropic nutzt sparse Autoencoder, um ClaudeâŻ3 Sonnet erklĂ€rbar zu machen.
Sparse Autoencoders enthĂŒllen 34âŻM Features von ClaudeâŻ3 Sonnet, erkennen EntitĂ€ten, Konzepte und schĂ€dliche Eigenschaften.
Weiterlesen
arXiv AI Papers
EvoMD-LLM nutzt LLMs zur Simulation reaktiver Molekulardynamik.
EvoMD-LLM tokenisiert Molekulardynamik, reduziert Halluzination, erreicht 66,14âŻ% Genauigkeit, ĂŒbertrifft neuronale Netzwerke.
Weiterlesen
arXiv AI Papers
Zeroth-Order Optimierung verbessert Robustheit der LLM-Sicherheitsausrichtung.
Zeroth-Order-Optimierung stÀrkt Sicherheitsausrichtung von LLMs in wenigen Iterationen ohne Nutzenverlust.
Weiterlesen
arXiv AI Papers
Qwen3-VL-8B-Instruct ĂŒbertrifft Claude und GPT-5.5 im PiSAR Benchmark.
Qwen3âVLâ8BâInstruct ĂŒbertrifft ZeroâShotâBaselines auf PiSAR, Gemmaâ4â26BâA4BâIT hinkt zurĂŒck.
Weiterlesen
arXiv AI Papers
Studie zeigt begrenzte Wirkung von Persona Prompting bei LLMs.
PersonaâPrompting erhöht Expertentiefe, verringert Klarheit; hybride Retrieval performt am besten.
Weiterlesen
arXiv AI Papers
ReasonLight: Multimodales FoundationâModel fĂŒr ZeroâShot-Verkehrssteuerung.
ReasonLight optimiert Ampelphasen in Echtzeit und senkt Wartezeiten fĂŒr Notfahrzeuge um 88,7âŻ%.
Weiterlesen
arXiv AI Papers
Agentic ASR: Interaktive Spracherkennung mit Agentenkorrektur.
Agentic ASR verbessert SprachverstĂ€ndnis, zeigt signifikante Verbesserungen durch semantische Korrektur, IntentâRouting und LLM-basierte Bewertung.
Weiterlesen
arXiv AI Papers
CrystalXRD-Bench testet GPTâ5.4 bei XRDâPeak-Indexierung.
CrystalXRDâBench testet 250 Proben, GPTâ5.4 erreicht Wert 0,5888, Aufgabe ungelöst.
Weiterlesen
arXiv AI Papers
VitalAgent: Tool-gestĂŒtzter Agent mit VitalBench fĂŒr Wearable-Monitoring.
VitalAgent verbessert kontinuierliches Vitalmonitoring um ĂŒber 30âŻ% Genauigkeit gegenĂŒber Prompt- und ReAct-Modellen.
Weiterlesen
arXiv AI Papers
DistractionIF zeigt: GröĂere LLMs werden anfĂ€lliger fĂŒr Ablenkungsanweisungen.
DistractionIF zeigt, dass groĂe LLMs bis zu 30âŻPunkte verlieren; GRPOâRL erhöht Robustheit um 15,5âŻ%.
Weiterlesen
arXiv AI Papers
Xetrieval erklÀrt Dense Retrieval mechanistisch.
Xetrieval erklÀrt dichte Retriever Relevanzwerte, indem Embeddings in reasoning Features und interpretierbare Attribute umgewandelt werden.
Weiterlesen
arXiv AI Papers
MindGames: Multi-Agenten-Plattform zur Bewertung sozialer Strategien.
Mindgames bewertete 944 LLM-Agenten in vier Spielen und zeigte inkonsistente Regelbefolgung und Leaderboard-Unstimmigkeiten.
Weiterlesen
arXiv AI Papers
DeepSurvey steigert Tiefenanalyse und ZitationszuverlÀssigkeit in KI-Umfragen.
DeepSurvey erstellt automatisierte LiteraturĂŒbersichten mit hoher ContentâScore, verbesserter ZitationsqualitĂ€t und ĂŒberlegener Generalisierung.
Weiterlesen
arXiv AI Papers
UI-KOBE: Graphbasierte Wissensgraphen verbessern leichte mobile GUI-Agenten.
UI-KOBE erstellt einen Wissensgraphen von UI-ZustÀnden, reduziert Planungsaufwand und steigert ZuverlÀssigkeit.
Weiterlesen
arXiv AI Papers
Opt-Verifier: LLMs mit Dual-Verifikation fĂŒr Optimierungsmodelle.
OptâVerifier erhöht KI-Optimierungsmodelle um 20âŻ% durch duale ĂberprĂŒfung von Struktur und Lösung.
Weiterlesen
arXiv AI Papers
LLM-Agent nutzt Simulationsdaten zur BatteriedigitalâTwinâOptimierung.
LLM-Agent optimiert digitale Batterietwins, ĂŒbertrifft Bayesian-Optimierung, demonstriert Degradationsanpassungen.
Weiterlesen
arXiv AI Papers
ParaTool: Tool Calling ohne Kontext fĂŒr LLMs.
ParaTool verbessert ToolâCalling in Sprachmodellen, reduziert Rechenaufwand und Halluzinationen, steigert Praxisrelevanz.
Weiterlesen
arXiv AI Papers
VLMs nutzen ViewSuite auf ScanNet zur View-Planung.
ViewSuite testet 13 VLMs bei mehrstufiger Kameraview-Planung, zeigt Sequenzierungsfehler, verbessert Qwen2.5âVLâ7B um 2,5âŻ%.
Weiterlesen
arXiv AI Papers
DeepTool verbessert Tool-Integration mit Prozess-ĂŒberwachtem RL.
DeepTool verbessert Toolâintegriertes Denken, nutzt SyntheseâPipeline und RL, steigert Leistung erheblich.
Weiterlesen
arXiv AI Papers
GPS-gesteuerte TouristenmobilitÀt: saisonale Vorprioren, LLM-AktivitÀtsketten.
KIâunterstĂŒtzte VierâStufenâSimulation modelliert touristische MobilitĂ€t mithilfe aggregierter GPSâ und DemografieâDaten.
Weiterlesen
arXiv AI Papers
FinVerBench: LLM-Validierung von Unternehmensfinanzdaten anhand SECâŻ10-K.
FinVerBench prĂŒft US-Finanzberichte, zeigt LLMs hohe FehleranfĂ€lligkeit und betont kalibrierte UrteilsfĂ€higkeit.
Weiterlesen
arXiv AI Papers
Mind-Omni: Multitask-Framework verbindet 7 Gehirn-, Bild- und Sprachaufgaben mittels diskreter Diffusion.
MindâOmni verbindet sieben BCIâAufgaben ĂŒber diskretisierte Diffusion, tokenisiert Gehirnsignale und nutzt Q&AâDataset.
Weiterlesen
arXiv AI Papers
HiKEY: Hierarchische multimodale Suche verbessert Open-Domain-Q&A.
HiKEY verbindet hierarchisch Text, Tabellen, Bilder, reduziert Token, ĂŒbertrifft Modelle um bis zu 12,9âŻ%.
Weiterlesen
arXiv AI Papers
KI-Storytelling neu: Mehragenten-Framework mit LLMs fĂŒr Brettspiel-Collaboration.
Kinder verbessern mit LLMs ihre Geschichten durch wiederholte WriterâEditorâIterationen im Brettspiel.
Weiterlesen
arXiv AI Papers
Temporale Logit-ObservabilitĂ€t ĂŒbertrifft ASR bei LLMâSicherheitsdiagnose.
TLO ermöglicht prĂ€zise Analyse von LLM-Angriffen, indem es LogitâSpuren auf 2âDâEbene abbildet.
Weiterlesen
arXiv AI Papers
VikingMem: Memory Base Management System fĂŒr LLM-basierte Anwendungen.
Das MemoryâBase-Paradigma erhöht Erinnerungsretrieval um 30âŻ% bei gleicher Latenz.
Weiterlesen