Volver a carreras

Research and product systems

Evaluation Specialist

This role focuses on the hardest part of AI measurement: deciding what good looks like and making that standard repeatable. You will design human evaluation protocols, build review workflows, and help the team distinguish reliable signals from plausible noise in AI-generated content.

Candidaturas pronto

Resumen del rol

Own the quality standards for how Chatobserver evaluates AI answers, citations, and visibility signals — and build the human review layer that keeps machine output honest.

Por qué existe este rol

As prompt volume scales, the gap between raw output and trustworthy insight grows. We need someone who treats evaluation quality as a discipline, not a checkbox.

Primeros 90 días

Audit the current evaluation rubrics and identify the top gaps in coverage or consistency.

Por qué existe este rol

As prompt volume scales, the gap between raw output and trustworthy insight grows. We need someone who treats evaluation quality as a discipline, not a checkbox.

En qué trabajarás

  • Design and maintain evaluation rubrics for answer quality, citation accuracy, and positioning signals.
  • Run structured human review workflows to label and audit machine-generated analysis outputs.
  • Identify systematic error patterns in the current evaluation pipeline and propose remediation.
  • Collaborate with research and product to translate evaluation findings into product improvements.

Cómo se ve un gran encaje

  • Deep experience designing annotation guidelines, evaluation rubrics, or quality review workflows.
  • Strong analytical instincts for identifying bias, inconsistency, and labeling noise in structured datasets.
  • Comfort working with LLM outputs and an understanding of where they tend to fail in practice.
  • Clear writing and the ability to articulate why a quality standard is the right one.

Qué te entusiasmará aquí

  • Defining what high quality actually means for a product category that lacks established benchmarks.
  • Building evaluation infrastructure that improves the entire product's trustworthiness.
  • Working at the interface between human judgment and automated analysis.

Primeros 90 días

  1. 01Audit the current evaluation rubrics and identify the top gaps in coverage or consistency.
  2. 02Design a structured review workflow for at least one core analysis type.
  3. 03Ship a measurable improvement to inter-rater reliability on a key evaluation task.

Proceso de hiring

El proceso es intencionalmente corto, directo y anclado en el trabajo real.

  1. 1

    Solicitud

    Envíanos tu trayectoria, trabajo relevante y por qué este rol tiene sentido para ti.

  2. 2

    Conversación base

    Una conversación centrada en tu trabajo, tu criterio y el rol.

  3. 3

    Profundización específica del rol

    Una conversación o ejercicio que se parezca al trabajo real más que a un bucle genérico.

  4. 4

    Conversación con el fundador

    Una charla final sobre estándares, ambición y cómo sería el éxito aquí.

  5. 5

    Decisión

    Cerramos el proceso con claridad y nos movemos rápido cuando hay convicción.

¿Necesitas contexto antes de aplicar? [email protected]

Evaluation Specialist

Este rol ya es visible en la web. Las candidaturas se activan en cuanto el puesto correspondiente en Dover esté activo.

Las candidaturas permanecen cerradas hasta que el puesto correspondiente en Dover se active. Mientras tanto puedes escribir a [email protected].