lexical similarity (jaccard, overlap, cosine)

Implement Jaccard similarity and token overlap metrics with batch scoring support.
2025-03-15 12:09:50 +00:00
parent 82b6ffea79
commit f26e14bf20
1 changed files with 107 additions and 0 deletions
@@ -0,0 +1,107 @@
+"""Lexical similarity metrics."""
+
+from veritext.core.tokenisation import WordTokeniser
+from veritext.metrics.base import AggregateStats, BatchResult
+from veritext.metrics.results import LexicalResult
+
+
+class Lexical:
+    """
+    Lexical similarity metrics.
+
+    Computes Jaccard similarity and token overlap between candidate and reference.
+    """
+
+    def __init__(self, tokeniser: WordTokeniser | None = None) -> None:
+        self._tokeniser = tokeniser or WordTokeniser()
+
+    @property
+    def name(self) -> str:
+        return "lexical"
+
+    @property
+    def requires_reference(self) -> bool:
+        return True
+
+    def score(
+        self, candidate: str, reference: str | list[str] | None = None
+    ) -> LexicalResult:
+        """
+        Compute lexical similarity scores.
+
+        Args:
+            candidate: The text to score.
+            reference: Reference text for comparison. If multiple references
+                provided, uses the first one.
+
+        Returns:
+            LexicalResult with Jaccard similarity and token overlap.
+
+        Raises:
+            ValueError: If reference is None or empty.
+        """
+        if reference is None:
+            raise ValueError("Lexical similarity requires reference text")
+
+        ref_text = reference[0] if isinstance(reference, list) else reference
+
+        candidate_tokens = self._tokeniser.tokenise(candidate)
+        reference_tokens = self._tokeniser.tokenise(ref_text)
+
+        if not reference_tokens:
+            raise ValueError("Reference text cannot be empty")
+
+        if not candidate_tokens:
+            return LexicalResult(jaccard=0.0, token_overlap=0.0)
+
+        candidate_set = set(candidate_tokens)
+        reference_set = set(reference_tokens)
+
+        intersection = candidate_set & reference_set
+        union = candidate_set | reference_set
+
+        jaccard = len(intersection) / len(union) if union else 0.0
+        token_overlap = len(intersection) / len(candidate_set)
+
+        return LexicalResult(jaccard=jaccard, token_overlap=token_overlap)
+
+    def batch_score(
+        self,
+        candidates: list[str],
+        references: list[str] | list[list[str]] | None = None,
+    ) -> BatchResult[LexicalResult]:
+        """
+        Compute lexical similarity scores for a batch of candidates.
+
+        Args:
+            candidates: List of texts to score.
+            references: Reference text(s) for each candidate.
+
+        Returns:
+            BatchResult containing individual results and aggregate statistics.
+
+        Raises:
+            ValueError: If references is None or length mismatch.
+        """
+        if references is None:
+            raise ValueError("Lexical similarity requires reference texts")
+
+        if len(candidates) != len(references):
+            raise ValueError(
+                f"Number of candidates ({len(candidates)}) must match "
+                f"number of references ({len(references)})"
+            )
+
+        results: list[LexicalResult] = []
+        for i, cand in enumerate(candidates):
+            ref: str | list[str] = references[i]
+            results.append(self.score(cand, ref))
+
+        stats = {
+            "jaccard": AggregateStats.from_values([r.jaccard for r in results]),
+            "token_overlap": AggregateStats.from_values(
+                [r.token_overlap for r in results]
+            ),
+        }
+
+        return BatchResult(results=results, count=len(results), stats=stats)