Instalação sem Docker (Poetry)¶
Para quem prefere instalar diretamente no ambiente local. Requer Python 3.12+ e Poetry.
Pré-requisitos¶
- Python 3.12 ou superior
- Poetry
Clonando e instalando¶
Instalação base (CSV e JSON apenas)¶
Instalação com todos os extras¶
Extras disponíveis¶
| Extra | Funcionalidade | Pacote instalado |
|---|---|---|
parquet |
Formato Parquet com compressão Snappy | pyarrow>=16.0 |
avro |
Formato Avro com schema inferido | fastavro>=1.9 |
sql |
SQLite e bancos via SQLAlchemy | sqlalchemy>=2.0 |
postgres |
PostgreSQL | sqlalchemy>=2.0, psycopg2-binary>=2.9 |
mysql |
MySQL / MariaDB | sqlalchemy>=2.0, pymysql>=1.1 |
mssql |
SQL Server | sqlalchemy>=2.0, pyodbc>=5.0 |
gcp |
Google Cloud Storage | google-cloud-storage>=2.0 |
aws |
Amazon S3 | boto3>=1.34 |
azure |
Azure Blob Storage | azure-storage-blob>=12.0 |
Usando o CLI¶
Após instalar, o comando dataset-gen fica disponível no terminal:
# Equivalente a docker compose run --rm cli list-domains
dataset-gen list-domains
# Gerar dataset
dataset-gen generate -d ecommerce -f csv -o ./output
Diferença de caminhos
Sem Docker, use caminhos do host diretamente. O prefixo /app/ não existe fora do container.
Dependências de desenvolvimento¶
Para contribuir com o projeto:
Isso instala ruff, pytest, pytest-cov e pre-commit.
Tarefas disponíveis (taskipy)¶
poetry run task lint # Verifica erros de estilo
poetry run task fmt # Formata o código
poetry run task test # Executa os testes
poetry run task ci # Lint + formato + testes com cobertura
Interface visual sem Docker¶
A interface visual requer Node.js 20+. Para rodar em modo de desenvolvimento:
Acesse http://localhost:5173.