Comprehensive Evaluation of Mobile AI Agents

Minitap achieves industry leading performance on android world benchmark.

Research & Development

Performance

8 Sep 2025

10 min

Heading 1

Heading 2

Heading 3

Heading 4

Heading 5

Heading 6

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.

Block quote

Ordered list

Item 1
Item 2
Item 3

Unordered list

Item A
Item B
Item C

Text link

Bold text

Emphasis

^Superscript

_Subscript

Heading 1

Heading 2

Heading 3

Heading 4

Heading 5

Heading 6

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.

Block quote

Ordered list

Item 1
Item 2
Item 3

Unordered list

Item A
Item B
Item C

Text link

Bold text

Emphasis

^Superscript

_Subscript

AndroidWorld Benchmark Results

Performance comparison across 10 leading mobile AI agent platforms.

Abstract

Within 14 days of inception, Minitap achieved an industry-leading 68.10% success rate on the AndroidWorld benchmark, outperforming nine established platforms. This represents unprecedented technical advancement in mobile AI agents.

Our rapid success demonstrates the effectiveness of our novel approach to mobile device control. By achieving 68.10% success rate (completing 79 of 116 benchmark tasks), we've established new industry standards for mobile AI agents.

We're now focused on reinforcement learning integration for long-horizon task completion, targeting human performance, 80%+ success rate on AndroidWorld benchmark by September 2025. This next phase will establish new paradigms for autonomous mobile interaction.

For access to detailed evaluation traces and research collaboration opportunities, contact our research team directly.

Detailed Task Results

Complete breakdown of all 116 benchmark tasks with transparent trace data.

View Detailed Results

Heading 1

Heading 2

Heading 3

Heading 4

Heading 5

Heading 6

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.