RoadblockArtificial IntelligenceOpen

Training data quality and curation

The quality, composition, and provenance of training data fundamentally determine model capabilities and limitations. Synthetic data generation risks model collapse when models are trained on their own outputs. Benchmark contamination undermines evaluation reliability. The 'data wall' hypothesis suggests that high-quality human-generated text on the open web may be approaching exhaustion. Principled data mixing strategies, decontamination methods, and quality filtering at web scale are critical but under-studied compared to architectural research.

Training data quality and curation

Knowing the Self, Understanding the World: A Dual-Cognition Benchmark for UAV Spatio-temporal Reasoning with MLLMs

FVAttn: Adaptive Sparse Attention with Runtime Load Balancing for Video Generation

PagedWeight: Efficient MoE LLM Serving with Dynamic Quality-Aware Weight Quantization

A Blueprint for Equilibrium-Based Differentiable Continuous-Variable Thermodynamic Computing

Vision-Language Assistant for Emotional Reactions to Risky Driving

Cluster-Aware Matching via Laplacian Optimal Transport

Physics-enhanced reinforcement learning for real-time optimal control of dynamical systems

Evaluating Open-Weight LLMs for Generating Structured Threat Information for Autonomous Vehicle Vulnerabilities

Vision-Language-Motion Maps: An Open-Vocabulary, Uncertainty-Aware, Queryable Motion Attribute for 3D Scene Maps

When Does Muon Help Agentic Reinforcement Learning?