feat(fai): improve website indexing safety and reduce default chunk size #5443

tsbhangu · 2025-11-22T14:39:35Z

Summary

Auto-extract domain_filter and path_filter from base_url when not provided to prevent accidentally scraping beyond the intended scope
Reduce default chunk_size from 1000 to 800 tokens for better search granularity and semantic matching
Replace print statements with structured logging for better debuggability
Add comprehensive test suite (11 tests) for WebsiteCrawlConfig

Changes

Safety improvement: When users don't provide domain_filter or path_filter, the system now automatically extracts them from the base URL. For example:
- base_url = "https://docs.example.com/guide/intro" automatically sets:
  - domain_filter = "docs.example.com"
  - path_filter = "/guide/intro"
- This prevents accidentally crawling the entire web
Chunk size optimization: Default chunk size reduced from 1000 to 800 tokens for more granular search results
Logging improvements: Replaced all print statements in the crawler with structured logging:
- LOGGER.info() for progress updates (crawling URLs, successful chunks)
- LOGGER.warning() for skipped pages
- LOGGER.error() for HTTP/request errors
- Makes debugging stuck indexing jobs much easier
Test coverage: Added tests/utils/website/test_models.py with tests covering:
- Domain and path extraction from base URL
- Explicit filter overrides
- Edge cases (root paths, trailing slashes, subdomains, ports)
- Default values and overrides

Test plan

All 95 website-related tests passing
Mypy type checking passes with no errors
Linting and formatting passes with make code-cleanup
New tests verify automatic filter extraction behavior

🤖 Generated with Claude Code

- Auto-extract domain_filter and path_filter from base_url when not provided to prevent accidentally scraping beyond intended scope - Reduce default chunk_size from 1000 to 800 tokens for better granularity - Add comprehensive test suite for WebsiteCrawlConfig 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>

vercel · 2025-11-22T14:39:40Z

The latest updates on your projects. Learn more about Vercel for GitHub.

Project	Deployment	Preview	Updated (UTC)
dev.ferndocs.com	Ready	Preview	Nov 22, 2025 3:08pm
fern-dashboard	Ready	Preview	Nov 22, 2025 3:08pm
fern-dashboard-dev	Ready	Preview	Nov 22, 2025 3:08pm
prod-assets.ferndocs.com	Ready	Preview	Nov 22, 2025 3:08pm
prod.ferndocs.com	Ready	Preview	Nov 22, 2025 3:08pm

1 Skipped Deployment

Project	Deployment	Preview	Updated (UTC)
fern-platform	Ignored		Nov 22, 2025 3:08pm

- Replace all print() calls with LOGGER.info/warning/error - Improves debuggability of stuck indexing jobs - Maintains verbose parameter to control logging output 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>

tsbhangu self-assigned this Nov 22, 2025

vercel bot deployed to Preview – prod.ferndocs.com November 22, 2025 14:43 View deployment

vercel bot deployed to Preview – prod-assets.ferndocs.com November 22, 2025 14:43 View deployment

vercel bot deployed to Preview – dev.ferndocs.com November 22, 2025 14:43 View deployment

vercel bot deployed to Preview – fern-dashboard November 22, 2025 14:46 View deployment

vercel bot deployed to Preview – fern-dashboard-dev November 22, 2025 14:46 View deployment

tsbhangu temporarily deployed to Fern Dev November 22, 2025 15:01 — with GitHub Actions Inactive

vercel bot deployed to Preview – dev.ferndocs.com November 22, 2025 15:05 View deployment

vercel bot deployed to Preview – prod.ferndocs.com November 22, 2025 15:05 View deployment

vercel bot deployed to Preview – prod-assets.ferndocs.com November 22, 2025 15:05 View deployment

vercel bot deployed to Preview – fern-dashboard November 22, 2025 15:08 View deployment

vercel bot deployed to Preview – fern-dashboard-dev November 22, 2025 15:08 View deployment

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

feat(fai): improve website indexing safety and reduce default chunk size #5443

feat(fai): improve website indexing safety and reduce default chunk size #5443

Uh oh!

tsbhangu commented Nov 22, 2025 •

edited

Loading

Uh oh!

vercel bot commented Nov 22, 2025 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

feat(fai): improve website indexing safety and reduce default chunk size #5443

Are you sure you want to change the base?

feat(fai): improve website indexing safety and reduce default chunk size #5443

Uh oh!

Conversation

tsbhangu commented Nov 22, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Summary

Changes

Test plan

Uh oh!

vercel bot commented Nov 22, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

tsbhangu commented Nov 22, 2025 •

edited

Loading

vercel bot commented Nov 22, 2025 •

edited

Loading