Torna alle carriere

Research and product systems

Evaluation Specialist

This role focuses on the hardest part of AI measurement: deciding what good looks like and making that standard repeatable. You will design human evaluation protocols, build review workflows, and help the team distinguish reliable signals from plausible noise in AI-generated content.

Candidature in arrivo

Sintesi del ruolo

Own the quality standards for how Chatobserver evaluates AI answers, citations, and visibility signals — and build the human review layer that keeps machine output honest.

Perché questo ruolo esiste

As prompt volume scales, the gap between raw output and trustworthy insight grows. We need someone who treats evaluation quality as a discipline, not a checkbox.

Primi 90 giorni

Audit the current evaluation rubrics and identify the top gaps in coverage or consistency.

Perché questo ruolo esiste

As prompt volume scales, the gap between raw output and trustworthy insight grows. We need someone who treats evaluation quality as a discipline, not a checkbox.

Su cosa lavorerai

  • Design and maintain evaluation rubrics for answer quality, citation accuracy, and positioning signals.
  • Run structured human review workflows to label and audit machine-generated analysis outputs.
  • Identify systematic error patterns in the current evaluation pipeline and propose remediation.
  • Collaborate with research and product to translate evaluation findings into product improvements.

Com'è un forte fit

  • Deep experience designing annotation guidelines, evaluation rubrics, or quality review workflows.
  • Strong analytical instincts for identifying bias, inconsistency, and labeling noise in structured datasets.
  • Comfort working with LLM outputs and an understanding of where they tend to fail in practice.
  • Clear writing and the ability to articulate why a quality standard is the right one.

Cosa ti entusiasmerà qui

  • Defining what high quality actually means for a product category that lacks established benchmarks.
  • Building evaluation infrastructure that improves the entire product's trustworthiness.
  • Working at the interface between human judgment and automated analysis.

Primi 90 giorni

  1. 01Audit the current evaluation rubrics and identify the top gaps in coverage or consistency.
  2. 02Design a structured review workflow for at least one core analysis type.
  3. 03Ship a measurable improvement to inter-rater reliability on a key evaluation task.

Processo di hiring

Il processo è volutamente corto, diretto e ancorato al lavoro reale.

  1. 1

    Candidatura

    Mandaci il tuo percorso, il lavoro rilevante e perché questo ruolo ha senso per te.

  2. 2

    Conversazione iniziale

    Una conversazione focalizzata sul tuo lavoro, sul tuo giudizio e sul ruolo.

  3. 3

    Approfondimento specifico del ruolo

    Una discussione o un esercizio che assomiglia più al lavoro reale che a un loop generico di colloqui.

  4. 4

    Conversazione con il founder

    Un confronto finale su standard, ambizione e su come apparirebbe il successo qui.

  5. 5

    Decisione

    Chiudiamo il loop con chiarezza e ci muoviamo velocemente quando c'è convinzione.

Hai bisogno di contesto prima di candidarti? [email protected]

Evaluation Specialist

Il ruolo è già visibile sul sito. Le candidature si aprono non appena il job corrispondente su Dover è attivo.

Le candidature restano chiuse finché il job corrispondente su Dover non viene attivato. Nel frattempo puoi scrivere a [email protected].