Haré proyectos de modelos de lenguaje grande
Aprendizaje automático, finanzas cuantitativas, datos
Acerca de este Servicio
Entrenaré modelos de lenguaje personalizados desde cero o ajustaré modelos LLM de peso abierto con tus datos. Construyo modelos transformadores estilo GPT desde cero usando PyTorch, que van desde pequeñas demos de 10M parámetros hasta modelos de 50M parámetros. También ajusto modelos existentes como Llama, Phi-3 y Mistral en tu conjunto de datos usando LoRA/QLoRA.
Lo que obtienes:
- Pesos del modelo completamente entrenados y tokenizador adaptado a tus datos
- Código fuente completo con comentarios para entrenamiento e inferencia
- Script de generación de texto + instrucciones de configuración
- Registros de entrenamiento, curvas de pérdida y muestras de salida
- Derechos comerciales completos
Me encargo de preprocesamiento de datos, entrenamiento del tokenizador, arquitectura del modelo y pipeline de entrenamiento. Solo necesitas proporcionar tu conjunto de datos en formato .txt, .csv o PDF, o usaré datos de código abierto de HuggingFace, Kaggle y otros.
Importante: Los modelos con menos de 50M de parámetros están diseñados para demos, uso educativo y aprender tu estilo de datos específico. Demuestran cómo funcionan los LLMs, pero no tendrán un conocimiento amplio como ChatGPT.
Mi porfolio
Otros servicios de Ciencia de datos y aprendizaje automático que ofrezco
FAQ
Traducción automática
¿Qué recibo exactamente?
Obtienes: 1) Pesos del modelo entrenado .safetensors 2) Tokenizador personalizado 3) Código fuente completo en Python para entrenamiento + inferencia 4) Requirements.txt y guía de configuración 5) Registros de entrenamiento con gráficos de pérdida/perplejidad 6) Generaciones de texto de muestra 7) Derechos comerciales completos.
¿Proporcionas los datos de entrenamiento?
Si tienes un conjunto de datos personalizado, puedes proporcionarlo. Yo me encargo de limpiar, formatear, tokenizar y entrenar. Formatos aceptados: .txt, .csv, .json o PDF. Pero si no tienes, según tu elección, usaré datos de código abierto de sitios web como HuggingFace, Kaggle y otros para entrenar nuestro modelo.
¿Mi modelo de 10M o 50M será como ChatGPT?
No. Los modelos con menos de 100M de parámetros son para demostraciones, pruebas de concepto y aprender estilos o patrones específicos de tus datos. Generarán texto en el estilo de tu dominio, pero no tendrán conocimientos amplios, razonamiento ni seguir instrucciones como ChatGPT. Para eso necesitas modelos de 7B+ con conjuntos de datos masivos.
¿Cuánta data necesito proporcionar?
Para modelos de 10M: de 10MB a 100MB de texto. Para modelos de 50M: de 50MB a 500MB de texto. Más datos = mejores resultados. 1MB ≈ 200k tokens. Si no estás seguro, envíame tu conjunto de datos y verificaré si es suficiente antes de comenzar.
