Mistral har lanserat en ny produkt som heter Mistral OCR, ett AI-drivet API för optisk teckenigenkänning som är utformat för att konvertera tryckta dokument till digitala filer.
Det finns miljontals tryckta dokument och obehandlade PDF-filer, inklusive gamla födelseböcker och böcker. Programvara för optisk teckenigenkänning konverterar texten och layouten i dessa källmaterial till redigerbara digitala filer. Även om OCR-programvara enkelt konverterar vanliga textdokument korrekt, har de ofta problem med komplexa tabeller och grafer samt främmande språk.
Mistral OCR har skapats specifikt med flerspråkig, komplex dokumentkonvertering i åtanke. Mistrals noggrannhet vid textkonvertering på 11 språk sträcker sig från 97,00% till 99,54%, vilket är bättre än Microsofts och Googles AI OCR-erbjudanden. Dess noggrannhet är också högre än testade konkurrenter för komplexa dokumentkonverteringar, till exempel de som involverar matematik eller tabeller.
Mistrals OCR API är för närvarande begränsat till uppladdade dokument som är mindre än 50 MB i storlek och mindre än 1 000 sidor i längd. Tryckta dokument måste först digitaliseras med skannrar som den här på Amazon, medan PDF-filer, bilder och webbplatser kan bearbetas direkt.
Mistral OCR
Vi presenterar världens bästa API för dokumentförståelse.
Forskning
6 mars 2025
Mistral AI-team
Genom historien har framsteg inom informationsabstraktion och hämtning drivit mänskliga framsteg. Från hieroglyfer till papyri, tryckpressen till digitalisering - varje steg har gjort mänsklig kunskap mer tillgänglig och användbar, vilket har drivit på ytterligare innovation.
Idag står vi inför nästa stora steg - att frigöra den kollektiva intelligensen i all digitaliserad information. Cirka 90% av världens organisationsdata lagras som dokument, och för att utnyttja denna potential introducerar vi Mistral OCR.
Mistral OCR är ett API för optisk teckenigenkänning som sätter en ny standard för dokumentförståelse. Till skillnad från andra modeller förstår Mistral OCR varje element i dokument - media, text, tabeller, ekvationer - med oöverträffad noggrannhet och kognition. Den tar bilder och PDF-filer som input och extraherar innehåll i en ordnad interleaved text och bilder.
Som ett resultat är Mistral OCR en idealisk modell att använda i kombination med ett RAG-system som tar multimodala dokument (t.ex. bilder eller komplexa PDF-filer) som input.
Vi har gjort Mistral OCR som standardmodell för dokumentförståelse över miljontals användare på Le Chat och släpper API mistral-ocr-latest på 1000 sidor / $ (och ungefär dubbelt så många sidor per dollar med batchinferens). API:et är tillgängligt idag på vår utvecklarsvit la Plateforme, och kommer snart till våra moln- och inferenspartners, samt lokalt.
Höjdpunkter
Toppmodern förståelse av komplexa dokument
Flerspråkig och multimodal i inbyggt system
Benchmarks i toppklass
Snabbast i sin kategori
Dokument som snabb, strukturerad utdata
Selektivt tillgänglig för självhosting för organisationer som hanterar mycket känslig eller sekretessbelagd information
Låt oss dyka in i var och en av dem.
Toppmodern förståelse av komplexa dokument
Mistral OCR utmärker sig genom att förstå komplexa dokumentelement, inklusive interfolierade bilder, matematiska uttryck, tabeller och avancerade layouter som LaTeX-formatering. Modellen möjliggör djupare förståelse av rika dokument som vetenskapliga artiklar med diagram, grafer, ekvationer och figurer.
Nedan visas ett exempel på hur modellen extraherar text och bilder från en given PDF till en markdown-fil. Du kan komma åt anteckningsboken här.
Nedan har vi jämförelser sida vid sida av PDF-filer och deras respektive OCR-utgångar. Håll muspekaren över reglaget för att växla mellan inmatning och utmatning.
Tabeller + figurer
3 Exempel
OCR-resultat
3 Ocr
Matematik
4 Exempel
OCR-resultat
4 Ocr
Hindi
5 Exempel
OCR-resultat
Hindi Ocr
Dokument
6 Exempel
OCR-resultat
6 Ocr
Arabiska
7 Exempel
OCR-resultat
Arabiska OCR
Benchmarks i toppklass
Mistral OCR har konsekvent överträffat andra ledande OCR-modeller i rigorösa benchmarktester. Dess överlägsna noggrannhet i flera aspekter av dokumentanalys illustreras nedan. Vi extraherar inbäddade bilder från dokument tillsammans med text. De andra LLM-modellerna som jämförs nedan har inte den kapaciteten. För en rättvis jämförelse utvärderar vi dem på vår interna "text-only" testuppsättning som innehåller olika publikationsdokument och PDF-filer från webben; nedan:
Modell Övergripande Matematik Flerspråkig Skannad Tabeller
Google Document AI 83,42 80,29 86,42 92,77 78,16
Azure OCR 89,52 85,72 87,52 94,65 89,52
Gemini-1.5-Flash-002 90,23 89,11 86,76 94,87 90,48
Gemini-1.5-Pro-002 89,92 88,48 86,33 96,15 89,71
Gemini-2.0-Flash-001 88,69 84,18 85,80 95,11 91,46
GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70
Mistral OCR 2503 94,89 94,29 89,55 98,96 96,12
Flerspråkig från början
Sedan Mistrals grundande har vi strävat efter att tjäna världen med våra modeller och följaktligen strävat efter flerspråkiga funktioner i våra erbjudanden. Mistral OCR tar detta till en ny nivå, eftersom den kan analysera, förstå och transkribera tusentals skript, teckensnitt och språk på alla kontinenter. Denna mångsidighet är avgörande för både globala organisationer som hanterar dokument från olika språkliga bakgrunder, liksom för hyperlokala företag som betjänar nischmarknader.
Modell Fuzzy Match in Generation
Google-Document-AI 95,88
Gemini-2.0-Flash-001 96,53
Azure OCR 97,31
Mistral OCR 2503 99,02
Benchmarks per språk:
Språk Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503
ru 97,35 95,56 96,58 99,09
fr 97,50 96,36 97,06 99,20
hi 96,45 95,65 94,99 97,55
zh 91,40 90,89 91,85 97,11
pt 97,96 96,24 97,25 99,42
de 98,39 97,09 97,19 99,51
es 98,54 97,52 97,75 99,54
tr 95,91 93,85 94,66 97,00
uk 97,81 96,24 96,70 99,29
it 98,31 97,69 97,68 99,42
ro 96,45 95,14 95,88 98,79
Snabbast i sin kategori
Mistral OCR, som är lättare än de flesta modeller i kategorin, är betydligt snabbare än sina konkurrenter och bearbetar upp till 2000 sidor per minut på en enda nod. Möjligheten att snabbt bearbeta dokument säkerställer kontinuerlig inlärning och förbättring även i miljöer med hög genomströmning.
Strukturerad utdata med dokument som prompt
Mistral OCR introducerar också användningen av dokument som uppmaningar, vilket möjliggör mer kraftfulla och exakta instruktioner. Denna funktion gör det möjligt för användare att extrahera specifik information från dokument och formatera den i strukturerade utdata, till exempel JSON. Användare kan kedja extraherade utdata till funktionsanrop nedströms och bygga agenter. Se det här exemplet på en anteckningsbok.
Tillgänglig för självhosting på en selektiv basis
För organisationer med strikta krav på datasekretess erbjuder Mistral OCR ett alternativ för självhosting. Detta säkerställer att känslig eller klassificerad information förblir säker inom din egen infrastruktur, vilket ger efterlevnad av reglerings- och säkerhetsstandarder. Om du vill utforska självdistribution med oss, vänligen meddela oss.
Användningsfall
Vi ger våra betakunder möjlighet att höja organisationens kunskapsnivå genom att omvandla deras omfattande dokumentarkiv till åtgärder och lösningar. Några av de viktigaste användningsområdena där vår teknik gör en betydande inverkan inkluderar:
Digitalisering av vetenskaplig forskning: Ledande forskningsinstitutioner har experimenterat med Mistral OCR för att konvertera vetenskapliga artiklar och tidskrifter till AI-klara format, vilket gör dem tillgängliga för nedströms intelligensmotorer. Detta har lett till mätbart snabbare samarbete och snabbare vetenskapliga arbetsflöden.
Bevarande av historiskt och kulturellt arv: Organisationer och ideella organisationer som förvaltar kulturarv har använt Mistral OCR för att digitalisera historiska dokument och artefakter, säkerställa att de bevaras och göra dem tillgängliga för en bredare publik.
Effektivisering av kundservice: Kundtjänstavdelningar utforskar Mistral OCR för att omvandla dokumentation och manualer till indexerad kunskap, vilket minskar svarstiderna och förbättrar kundnöjdheten.
Att göra litteratur inom design, utbildning, juridik etc. AI-klar: Mistral OCR har också hjälpt företag att konvertera teknisk litteratur, tekniska ritningar, föreläsningsanteckningar, presentationer, lagstadgade ansökningar och mycket mer till indexerade, svarsklara format, vilket frigör intelligens och produktivitet i miljontals dokument.
Upplev det idag
Mistrals OCR-funktioner är gratis att prova på le Chat. För att prova API:et, gå över till la Plateforme. Vi vill gärna få din feedback; förvänta dig att modellen fortsätter att bli ännu bättre under de kommande veckorna. Som en del av våra strategiska engagemangsprogram kommer vi också att erbjuda lokal distribution på en selektiv basis.
Topp 10...
» Topp 10: Bästa bärbara allround/multimediadatorerna
» Topp 10: Bästa bärbara speldatorerna
» Topp 10: Bärbara budget/kontorsdatorer
» Topp 10: Bästa bärbara kontors/premiumdatorerna
» Topp 10: Bärbara arbetsstationer
» Topp 10: De bästa små/kompakta bärbara datorerna
» Topp 10: Bästa ultrabooks
» Topp 10: Bästa hybriddatorerna
» Topp 10: Bästa surfplattorna
» Topp 10: Marknadens bästa smartphones