Research

研究概述

欢迎来到我的研究页面！在这里你可以了解我在多模态大语言模型、强化学习和智能体的最新工作和兴趣。

强化学习智能体视觉语言模型后训练

近期发表

强化学习

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective RecipeWenjin Hou*, Shangpin Peng*, Weinong Wang, Zheng Ruan, et al.Arxiv 2026papercode

Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMsShangpin Peng, Weinong Wang, Zhuotao Tian, Senqiao Yang, et al., Min ZhangICLR 2026papercode

视觉语言模型

HunyuanOCR Technical ReportHunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, et al., Chengquan ZhangCore Contributor of Technical Reportpapercodemedia

StrucTab: A Structured Optimization Framework for Table ParsingGengluo Li*, Shangpin Peng*, et al., Yu ZhouECCV 2026papercode

Mitigating Object Hallucinations via Sentence-Level Early InterventionShangpin Peng, Senqiao Yang, Li Jiang, Zhuotao TianICCV 2025papercodemedia

Chronicles-OCR: A Cross-Temporal Perception Benchmark for the Evolutionary Trajectory of Chinese CharactersGengluo Li, Shangpin Peng, Xingyu Wan, Chengquan Zhang, et al., Han HuArxiv 2026papercodemedia

ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and FormatsShangpin Peng, Gengluo Li, Xingyu Wan, et al.Arxiv 2026papercode

智能体

PhoneBuddy: Training Open Models for Agentic Phone UseZhengyang Tang, et al., Shangpin Peng, et al., Chengquan Zhang, Han HuArxiv 2026paperprojectcodemedia

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool ActionsJason, et al., Shangpin Peng, et al., Chengquan Zhang, Han HuArxiv 2026paperprojectcodemedia

PhoneWorld: Scaling Phone-Use Agent EnvironmentsZhengyang Tang, et al., Shangpin Peng, et al., Chengquan Zhang, Han HuArxiv 2026papermedia

Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use AgentsZhengyang Tang, et al., Shangpin Peng, et al., Chengquan Zhang, Han HuArxiv 2026papercode

Research

研究概述

近期发表

强化学习

视觉语言模型

智能体

相关链接