Construiré soluciones de OCR y visión por computadora con python y opencv


Acerca de este Servicio
Traducción automática
¿Necesitas OCR, clasificación de imágenes, detección de objetos o una pipeline personalizada de visión por computadora? Construyo sistemas de CV de nivel producción que realmente funcionan fuera de un Jupyter notebook.
LO QUE ENTREGARÉ:
OCR de documentos (facturas, recibos, formularios, texto manuscrito)
Clasificación de imágenes con CNNs personalizadas
Detección y seguimiento de objetos (YOLO, detectron)
Pipeline multimodal (OCR + NLP + post-procesamiento con LLM)
OCR en idiomas indios (hindi, maratí, scripts indicios)
Despliegue en producción con Docker y APIs REST
LO QUE obtendrás:
- Código Python limpio y documentado que será tuyo
- Preprocesamiento ajustado a la calidad de tus imágenes
- Validación de precisión con tus datos reales
- Contenedor Docker listo para desplegar (Premium)
- Endpoints de API REST (Estándar y Premium)
TECNOLOGÍAS:
OpenCV, Tesseract, EasyOCR, PaddleOCR
TensorFlow, PyTorch, Keras
YOLO, Detectron2, CNNs personalizadas
FastAPI, Flask, Docker
MI HISTORIAL EN CV:
- Implementé la pipeline de video Whisper + OCR en Sambhav AI (50% más rápido, desplegado en Kubernetes)
- Publicé investigación en CNN en IJCNIS (clasificador de cáncer de piel, más del 80% TPR)
- Modelo de predicción de cáncer de mama (97% de precisión en más de 10K registros)
- Creé un parser de facturas POS con OCR (ISKCON, ShopMind)
- GitHub: github.com/harshaldonarkar
Envíame un mensaje
Conoce a Harshal D
AI Engineer: RAG Pipelines and LLM Integration Expert
- DeIndia
- Miembro desdeabr 2022
Idiomas
Hindi, Maratí, Inglés
Traducción automática
Mi porfolio
Otros servicios de Desarrollo de IA que ofrezco
FAQ
Traducción automática
¿Qué calidad de imagen necesito?
Recomendaré preprocesamiento; la mayoría de las imágenes del mundo real (fotos de teléfono, escaneos, capturas de pantalla) funcionan con el pipeline adecuado. Comparte muestras y te diré de antemano.
¿Puedes manejar texto manuscrito?
Sí — EasyOCR o ajuste fino personalizado dependiendo del volumen y estilo de escritura. Comparte muestras para una estimación de precisión.
¿Qué pasa con OCR en idiomas indios?
Sí — Hindi, maratí y otros scripts indios son soportados. Disponible como función Premium o como extra pagado en Basic/Standard.
¿Puedes combinar OCR con post-procesamiento con LLM?
Por supuesto — esta es una de mis fortalezas. Extraer texto → entender contexto → estructurar salida. Ideal para facturas, formularios y documentos no estructurados.
¿Despliegas el modelo o solo entregas el código?
Las versiones Basic y Standard entregan código + API REST. La versión Premium incluye despliegue en Docker, listo para correr en tu servidor o en la nube.
¿Puedes entrenar un modelo personalizado para mi conjunto de datos?
Sí — entrenamiento de CNNs personalizadas incluido en Premium, o disponible como extra. Necesitaré datos de entrenamiento etiquetados de tu parte.
¿Qué precisión puedo esperar?
Depende mucho de tus datos. Para OCR con texto impreso limpio, más del 95% es típico. Para imágenes manuscritas o degradadas, primero validamos con muestras.
¿Procesas videos en tiempo real?
Sí — detección y seguimiento de objetos en streams de video disponibles como extra pagado. Encantado de discutir requisitos de tasa de cuadros y latencia.

