top-image
top-image

Anmälan till uppdrag 5531

XDin anmälan har skickats
AI Quality Evaluation
Kravgranskare
Är du expert på språk, kvalitet och AI – och vill vara med och forma framtidens flerspråkiga AI-upplevelser? Vi söker en Multilingual AI Quality Evaluation Specialist som ska definiera, testa och kontinuerligt förbättra våra kvalitetsstandarder för flerspråkig AI. I rollen utvecklar du utvärderingsramverk, dataset och betygsmetoder som driver QUAIL (Quality Assessment AI for Language) och MAP, vår Multilingual AI-portal. Du översätter affärs- och innehållsmål till strukturerad evalueringslogik och säkerställer att varje AI-genererat eller AI-översatt innehåll blir korrekt, naturligt, kulturellt relevant och ändamålsenligt. Det här är en roll i gränslandet mellan lingvistik, kvalitetsteknik och AI-utvärderingsdesign. Dina arbetsuppgifter Utforma och implementera evalueringsmetoder för olika språk och innehållstyper. Ta fram och validera flerspråkiga utvärderingsrubriker anpassade till QUAILs multimetriska arkitektur (noggrannhet, flyt, ton, efterlevnad, faktakorrekthet). Designa kalibreringsstudier som jämför QUAILs LLM-bedömningar med mänskliga referensdata för att säkerställa tillförlitlighet och transparens. Definiera provtagnings- och bedömningsprotokoll (human-in-the-loop, konfidensnivåer, korrelationsmått). Samarbeta med ML-ingenjörer för att träna och finjustera evaluatorer med guldstandarddataset och mänskligt annoterade exempel; bidra till pipeline för syntetisk datagenerering. Analysera modellresultat och felmönster och använda QUAIL-data för att identifiera kvalitetsgap samt förbättra routing och promptlogik i MAP. Arbeta tvärfunktionellt med Localization, PZN och GLEE för att säkerställa enhetliga språk- och kvalitetssignaler i alla agentiska produkter. Implementera feedbackloopar tillsammans med ingenjörer för att löpande förbättra modellernas träffsäkerhet och kulturella relevans. Definiera och dokumentera språk-specifika kvalitetsriktlinjer, tröskelvärden och evalueringsprotokoll. Mäta stabilitet och bias hos LLM-evaluatorer och kontinuerligt optimera promptar för rättvisa och träffsäkerhet. Vem du är Har bakgrund inom Language Quality Evaluation, tillämpad lingvistik, computerlingvistik eller språk- och kvalitetforskning. Har erfarenhet av LLM-utvärdering, maskinöversättningsutvärdering eller annoteringsflöden i flerspråkiga miljöer. Har god förståelse för utvärderingsramverk som MQM, MetricX eller COMET samt erfarenhet av att designa flerdimensionella bedömningsrubriker. Förstår metoder för GenAI-utvärdering: prompttesting, modellkalibrering och validering av scoringsystem. Har samarbetat med ML-team kring datadrivna lingvistiska pipelines, annotering och finjustering av evaluatorer. Har djup språk- och kulturkännedom över flera marknader och kan definiera vad ”fit for purpose” innebär per innehållstyp. Meriterande: erfarenhet av programmatisk QA (t.ex. Python, YAML eller API-baserad validering). Meriterande: erfarenhet av reliabilitetsmätningar (t.ex. Krippendorffs alfa, Cohens kappa) eller studier av människa–AI-överensstämmelse. Din påverkan Hos oss får du forma den intelligens som driver hela vårt flerspråkiga AI-ekosystem. Ditt arbete säkerställer att AI-resultat är språkligt korrekta, kulturellt anpassade och förklarbart utvärderade – och påverkar upplevelsen för hundratals miljoner användare världen över. Vill du vara med och höja ribban för global AI-kvalitet?

Personuppgifter -*obligatorisk uppgift

Hemuppgifter

CV o Personligt brev (Word,PDF,Text) / Foto (JPEG)

Företagsuppgifter - Om du är anställd eller företagare

Tipsuppgifter - Var fick du tips om KonsultPoolen