SDK & API Reference

Official SDK and REST API for Compresr.

Installation

pip install compresr

Query-Specific Compression

Preserves tokens relevant to a given query. Ideal for RAG pipelines and Q&A systems.

from compresr import CompressionClient

client = CompressionClient(api_key="cmp_your_api_key")

context = """The James Webb Space Telescope was launched on December 25, 2021.
It cost $10 billion and took 20 years to develop. JWST orbits the Sun at L2,
1.5 million km from Earth. Its primary mirror spans 6.5 meters across 18
gold-plated beryllium segments. The sunshield keeps instruments at -233°C."""

result = client.compress(
    context=context,
    query="What are the key engineering specs of the JWST?",
    compression_model_name="latte_v1",
)

print(f"Compressed: {result.data.compressed_context}")
print(f"Saved: {result.data.tokens_saved} tokens")

General Compression (No Query)

Compress without a query. Ideal for system prompts, documents, or reusable context.

from compresr import CompressionClient

client = CompressionClient(api_key="cmp_your_api_key")

context = """The James Webb Space Telescope was launched on December 25, 2021.
It cost $10 billion and took 20 years to develop. JWST orbits the Sun at L2,
1.5 million km from Earth. Its primary mirror spans 6.5 meters across 18
gold-plated beryllium segments. The sunshield keeps instruments at -233°C."""

result = client.compress(
    context=context,
    compression_model_name="espresso_v1",
)

print(f"Compressed: {result.data.compressed_context}")
print(f"Saved: {result.data.tokens_saved} tokens")

Streaming

from compresr import CompressionClient

client = CompressionClient(api_key="cmp_your_api_key")

for chunk in client.compress_stream(
    context="Your long context...",
    query="What is important?",
    compression_model_name="latte_v1",
):
    print(chunk.content, end="", flush=True)

Async / Await

import asyncio
from compresr import CompressionClient

async def main():
    client = CompressionClient(api_key="cmp_your_api_key")
    result = await client.compress_async(
        context="Your long context...",
        query="What is relevant?",
        compression_model_name="latte_v1",
    )
    print(f"Compressed: {result.data.compressed_tokens} tokens")

asyncio.run(main())

Workflow Integration

Works with any LLM provider.

from compresr import CompressionClient

compresr = CompressionClient(api_key="cmp_xxx")

user_question = "What is machine learning?"

# Compress retrieved documents based on the query
compressed = compresr.compress(
    context="Retrieved documents from your vector DB...",
    query=user_question,
    compression_model_name="latte_v1",
)

# Use with any LLM provider
messages = [
    {"role": "system", "content": compressed.data.compressed_context},
    {"role": "user", "content": user_question}
]

Support

Email: [email protected]
GitHub Discussions