Haré proyectos de modelos de lenguaje grande

Parte de la información se ha traducido automáticamente.

India

Hablo Maratí, Hindi, Inglés

Aprendizaje automático, finanzas cuantitativas, datos

Hola, soy Aniket! Me especializo en aprendizaje automático, aprendizaje profundo y visión por computadora, ofreciendo soluciones expertas para tareas complejas de IA. Mi experiencia incluye: IA centr...

Acerca de este Servicio

Entrenaré modelos de lenguaje personalizados desde cero o ajustaré modelos LLM de peso abierto con tus datos. Construyo modelos transformadores estilo GPT desde cero usando PyTorch, que van desde pequeñas demos de 10M parámetros hasta modelos de 50M parámetros. También ajusto modelos existentes como Llama, Phi-3 y Mistral en tu conjunto de datos usando LoRA/QLoRA.

Lo que obtienes:

Pesos del modelo completamente entrenados y tokenizador adaptado a tus datos
Código fuente completo con comentarios para entrenamiento e inferencia
Script de generación de texto + instrucciones de configuración
Registros de entrenamiento, curvas de pérdida y muestras de salida
Derechos comerciales completos

Me encargo de preprocesamiento de datos, entrenamiento del tokenizador, arquitectura del modelo y pipeline de entrenamiento. Solo necesitas proporcionar tu conjunto de datos en formato .txt, .csv o PDF, o usaré datos de código abierto de HuggingFace, Kaggle y otros.

Importante: Los modelos con menos de 50M de parámetros están diseñados para demos, uso educativo y aprender tu estilo de datos específico. Demuestran cómo funcionan los LLMs, pero no tendrán un conocimiento amplio como ChatGPT.

Pantalla completa

Experiencia:

Aprendizaje de características

•

Análisis predictivo

+1 más

Marcos:

Scikit-learn

•

keras

•

PyTorch

•

Panda

Tipo de datos:

Texto

Lenguaje de programación:

Python

•

SQL

•

Colab

•

NoSQL

Herramientas:

Jupyter Notebook

•

opencv

•

OpenNN

•

TensorFlow

•

Excel

•

Colab

+1 más

Mi porfolio

Otros servicios de Ciencia de datos y aprendizaje automático que ofrezco

Aprendizaje automático
Desde USD 100

FAQ

Traducción automática

¿Qué recibo exactamente?

Obtienes: 1) Pesos del modelo entrenado .safetensors 2) Tokenizador personalizado 3) Código fuente completo en Python para entrenamiento + inferencia 4) Requirements.txt y guía de configuración 5) Registros de entrenamiento con gráficos de pérdida/perplejidad 6) Generaciones de texto de muestra 7) Derechos comerciales completos.

¿Proporcionas los datos de entrenamiento?

Si tienes un conjunto de datos personalizado, puedes proporcionarlo. Yo me encargo de limpiar, formatear, tokenizar y entrenar. Formatos aceptados: .txt, .csv, .json o PDF. Pero si no tienes, según tu elección, usaré datos de código abierto de sitios web como HuggingFace, Kaggle y otros para entrenar nuestro modelo.

¿Mi modelo de 10M o 50M será como ChatGPT?

No. Los modelos con menos de 100M de parámetros son para demostraciones, pruebas de concepto y aprender estilos o patrones específicos de tus datos. Generarán texto en el estilo de tu dominio, pero no tendrán conocimientos amplios, razonamiento ni seguir instrucciones como ChatGPT. Para eso necesitas modelos de 7B+ con conjuntos de datos masivos.

¿Cuánta data necesito proporcionar?

Para modelos de 10M: de 10MB a 100MB de texto. Para modelos de 50M: de 50MB a 500MB de texto. Más datos = mejores resultados. 1MB ≈ 200k tokens. Si no estás seguro, envíame tu conjunto de datos y verificaré si es suficiente antes de comenzar.

¿Necesitas ser creativo?

¿Buscas expertos en tecnología?

¿Listo para llegar a los consumidores y convertirlos en clientes?

¿Buscas escritores?

Opera tus negocios con más inteligencia

Qué incluye

Haré proyectos de modelos de lenguaje grande

Acerca de este Servicio

Mi porfolio

Otros servicios de Ciencia de datos y aprendizaje automático que ofrezco

FAQ

Etiquetas relacionadas