# Pipeline

Ce notebook est tiré du Guide Officiel de Quantopian sur les pipelines. N'oubliez pas de consulter leur documentation pour obtenir de nombreuses autres ressources intéressantes !

De nombreux algorithmes de Trading ont la structure suivante :

1. Pour chaque actif d'un ensemble connu (important), calculer N valeurs scalaires pour l'actif sur la base d'une fenêtre de données.
2. Sélectionnez un ensemble d'actifs négociables plus petit sur la base des valeurs calculées en (1).
3. Calculer les pondérations de portefeuille souhaitées sur l'ensemble des actifs sélectionnés en (2).
4. Passer des ordres pour déplacer les allocations de portefeuille actuelles de l'algorithme vers les pondérations souhaitées calculées en (3).

Il y a plusieurs défis techniques à relever pour réaliser cette opération de manière robuste. Il s'agit notamment de :

* Interroger efficacement de grands ensembles d'actifs
* effectuer des calculs sur de grands ensembles d'actifs
* traitement des ajustements (fractionnements et dividendes)
* les radiations d'actifs

Le pipeline existe pour résoudre ces défis en fournissant une API uniforme pour exprimer les calculs sur une collection diverse d'ensembles de données.

## Facteurs
Un facteur est une fonction d'un actif et d'un moment dans le temps à une valeur numérique.

Un exemple simple de facteur est le prix le plus récent d'un titre. Pour un titre et un moment précis, le prix le plus récent est un nombre. Un autre exemple est le volume moyen des transactions sur 10 jours d'un titre. Les facteurs sont le plus souvent utilisés pour attribuer des valeurs aux titres, qui peuvent ensuite être utilisées de plusieurs façons. Un facteur peut être utilisé dans chacune des procédures suivantes :
* calcul des pondérations cibles
* générer un signal alpha
* construire d'autres facteurs plus complexes
* construction de filtres

## Filtres
Un filtre est une fonction allant d'un actif et d'un moment dans le temps à un booléen.
Un exemple de filtre est une fonction indiquant si le prix d'un titre est inférieur à 10 $. En fonction d'un titre et d'un moment dans le temps, cela permet d'évaluer si le titre est vrai ou faux. Les filtres sont le plus souvent utilisés pour décrire des ensembles d'actifs à inclure ou à exclure dans un but particulier.

## Classificateurs
Un classificateur est une fonction d'un actif et d'un moment dans le temps ayant une sortie catégorielle.
Plus précisément, un classificateur produit une chaîne ou un int qui ne représente pas une valeur numérique (par exemple, un label entier tel qu'un code de secteur). Les classificateurs sont le plus souvent utilisés pour regrouper des actifs pour des transformations complexes sur des sorties de facteurs. Un exemple de classificateur est la bourse sur laquelle un actif est actuellement négocié.

In [49]:
from quantopian.pipeline import Pipeline

In [50]:
def make_pipeline():
    return Pipeline()

In [51]:
pipe = make_pipeline()

In [52]:
from quantopian.research import run_pipeline

In [53]:
result = run_pipeline(pipe,'2017-01-01','2017-01-01')



In [54]:
result.head(10)

Unnamed: 0,Unnamed: 1
2017-01-03 00:00:00+00:00,Equity(2 [ARNC])
2017-01-03 00:00:00+00:00,Equity(21 [AAME])
2017-01-03 00:00:00+00:00,Equity(24 [AAPL])
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR])
2017-01-03 00:00:00+00:00,Equity(31 [ABAX])
2017-01-03 00:00:00+00:00,Equity(39 [DDC])
2017-01-03 00:00:00+00:00,Equity(41 [ARCB])
2017-01-03 00:00:00+00:00,Equity(52 [ABM])
2017-01-03 00:00:00+00:00,Equity(53 [ABMD])
2017-01-03 00:00:00+00:00,Equity(62 [ABT])


In [55]:
result.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 8356 entries, (2017-01-03 00:00:00+00:00, Equity(2 [ARNC])) to (2017-01-03 00:00:00+00:00, Equity(50569 [OUSM]))
Empty DataFrame

# Data

In [56]:
from quantopian.pipeline.data.builtin import USEquityPricing

## Facteurs

N'oubliez pas que les facteurs prennent en compte un actif et un horodatage et rendent une certaine valeur numérique.

In [57]:
from quantopian.pipeline.factors import BollingerBands,SimpleMovingAverage,EWMA

In [58]:
SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)

SimpleMovingAverage([EquityPricing<US>.close], 30)

In [59]:
def make_pipeline():
    
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    
    return Pipeline(columns={
        '30 Day Mean Close':mean_close_30
    })

In [60]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')



In [61]:
results.head(20)

Unnamed: 0,Unnamed: 1,30 Day Mean Close
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394
2017-01-03 00:00:00+00:00,Equity(39 [DDC]),9.523
2017-01-03 00:00:00+00:00,Equity(41 [ARCB]),29.969167
2017-01-03 00:00:00+00:00,Equity(52 [ABM]),42.138239
2017-01-03 00:00:00+00:00,Equity(53 [ABMD]),114.030167
2017-01-03 00:00:00+00:00,Equity(62 [ABT]),38.664333


In [62]:
def make_pipeline():
    
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    return Pipeline(columns={
        '30 Day Mean Close':mean_close_30,
        'Latest Close':latest_close
    })

In [63]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')



In [64]:
results.head(10)

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74
2017-01-03 00:00:00+00:00,Equity(39 [DDC]),9.523,9.69
2017-01-03 00:00:00+00:00,Equity(41 [ARCB]),29.969167,27.75
2017-01-03 00:00:00+00:00,Equity(52 [ABM]),42.138239,40.68
2017-01-03 00:00:00+00:00,Equity(53 [ABMD]),114.030167,112.7
2017-01-03 00:00:00+00:00,Equity(62 [ABT]),38.664333,38.42


## Facteurs Combinés

In [65]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    return Pipeline(columns={
        'Percent Difference':percent_difference,
        '30 Day Mean Close':mean_close_30,
        'Latest Close':latest_close
    })

In [66]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')



In [67]:
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55,-0.022749
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1,-0.005499
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84,0.028481
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,,-0.000474
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74,-0.007665


# Filtres et Ecrans

Les filtres prennent en compte un actif et un horodatage et renvoient un booléen

In [68]:
last_close_price = USEquityPricing.close.latest
close_price_filter = last_close_price > 20

In [69]:
close_price_filter

NumExprFilter(expr='x_0 > (20.0)', bindings={'x_0': Latest([EquityPricing<US>.close], 1)})

In [70]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    return Pipeline(columns={
        'Percent Difference':percent_difference,
        '30 Day Mean Close':mean_close_30,
        'Latest Close':latest_close,
        'Positive Percent Diff': perc_diff_check
    })

In [71]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()



Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55,-0.022749,False
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1,-0.005499,False
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84,0.028481,True
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,,-0.000474,False
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74,-0.007665,False


## Ecrans

In [72]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=perc_diff_check)

In [73]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()



Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84,0.028481,True
2017-01-03 00:00:00+00:00,Equity(66 [AB]),23.119167,23.45,0.004578,True
2017-01-03 00:00:00+00:00,Equity(69 [ACAT]),15.8395,15.02,0.009375,True
2017-01-03 00:00:00+00:00,Equity(70 [VBF]),18.20848,18.49,0.011814,True
2017-01-03 00:00:00+00:00,Equity(84 [ACET]),20.722753,21.97,0.03963,True


### Inverser un écran

In [74]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=~perc_diff_check)

In [75]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()



Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55,-0.022749,False
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1,-0.005499,False
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,,-0.000474,False
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74,-0.007665,False
2017-01-03 00:00:00+00:00,Equity(39 [DDC]),9.523,9.69,-0.015436,False


## Combiner des Filtres

In [76]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    small_price = latest_close < 5
    
    final_filter = perc_diff_check & small_price
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=final_filter)

In [77]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()



Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(535 [ARTW]),3.097778,3.4,0.013271,True
2017-01-03 00:00:00+00:00,Equity(677 [AXAS]),2.265333,2.56,0.145527,True
2017-01-03 00:00:00+00:00,Equity(1144 [LCTX]),3.531167,3.62,0.065795,True
2017-01-03 00:00:00+00:00,Equity(1323 [CAW]),2.541333,2.6,0.016002,True
2017-01-03 00:00:00+00:00,Equity(1546 [CIF]),2.50037,2.57,0.015579,True


# Fundamentals de Morningstar

`Fundamentals` donne un accès à la base de données fondamentale quantopienne. Basée sur les données fournies par Morningstar, `Fundamentals` fournit plus de 600 mesures d'entreprise remontant à 2002 (pour correspondre aux données de tarification de Quantopian).

Regardez la documentation de Fundamentals : https://www.quantopian.com/docs/data-reference/morningstar_fundamentals.


In [78]:
from quantopian.pipeline.data.morningstar import Fundamentals

In [79]:
def make_pipeline():
    
    my_funds = Fundamentals.market_cap.latest
    
    return Pipeline(columns={'Market Cap':my_funds})

In [80]:
results = run_pipeline(make_pipeline(),'2017-01-03','2017-01-03')



In [81]:
results.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 8356 entries, (2017-01-03 00:00:00+00:00, Equity(2 [ARNC])) to (2017-01-03 00:00:00+00:00, Equity(50569 [OUSM]))
Data columns (total 1 columns):
Market Cap    5040 non-null float64
dtypes: float64(1)
memory usage: 130.6+ KB


In [82]:
results

Unnamed: 0,Unnamed: 1,Market Cap
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),8.129387e+09
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),8.370243e+07
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),6.175885e+11
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),1.189172e+09
2017-01-03 00:00:00+00:00,Equity(39 [DDC]),8.039806e+08
2017-01-03 00:00:00+00:00,Equity(41 [ARCB]),7.084623e+08
2017-01-03 00:00:00+00:00,Equity(52 [ABM]),2.268896e+09
2017-01-03 00:00:00+00:00,Equity(53 [ABMD]),4.888170e+09
2017-01-03 00:00:00+00:00,Equity(62 [ABT]),5.655141e+10


In [83]:
def make_pipeline():
    
    my_funds = Fundamentals.market_cap.latest
    
    # Entreprises d'une valeur de 500 milliards ou plus ;)
    cap_filter = my_funds > 500000000000
    
    return Pipeline(columns={'Market Cap':my_funds},
                    screen = cap_filter)

In [84]:
results = run_pipeline(make_pipeline(),'2017-01-03','2017-01-03')



In [85]:
results

Unnamed: 0,Unnamed: 1,Market Cap
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),617588500000.0
2017-01-03 00:00:00+00:00,Equity(26578 [GOOG_L]),546187100000.0
2017-01-03 00:00:00+00:00,Equity(46631 [GOOG]),531968100000.0


# Masques

Parfois, nous voulons ignorer certains atouts lors du calcul des expressions des pipelines. Il y a deux cas courants où il est utile d'ignorer des actifs :
* Nous voulons calculer une expression qui est coûteuse en termes de calcul, et nous savons que nous ne nous soucions que des résultats pour certains actifs.
* Nous voulons calculer une expression qui effectue des comparaisons entre des actifs, mais nous voulons que ces comparaisons soient effectuées uniquement par rapport à un sous-ensemble de tous les actifs. 

In [86]:
def make_pipeline():
    
    # Créer d'abord les masques pour les filtres
    latest_close = USEquityPricing.close.latest
    small_price = latest_close < 5
    
    # Passer dans le masque
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10,mask=small_price)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30,mask=small_price)
    
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    
    final_filter = perc_diff_check
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=final_filter)

In [87]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()



Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(535 [ARTW]),3.097778,3.4,0.013271,True
2017-01-03 00:00:00+00:00,Equity(677 [AXAS]),2.265333,2.56,0.145527,True
2017-01-03 00:00:00+00:00,Equity(1144 [LCTX]),3.531167,3.62,0.065795,True
2017-01-03 00:00:00+00:00,Equity(1323 [CAW]),2.541333,2.6,0.016002,True
2017-01-03 00:00:00+00:00,Equity(1546 [CIF]),2.50037,2.57,0.015579,True


In [88]:
len(results)

391

# Classificateurs

Un classificateur est une fonction d'un actif et d'un moment dans le temps à une sortie catégorielle telle qu'une chaîne de caractères ou un label d'entier.

In [89]:
from quantopian.pipeline.data import morningstar
from quantopian.pipeline.classifiers.morningstar import Sector

In [90]:
morningstar_sector = Sector()

In [91]:
exchange = morningstar.share_class_reference.exchange_id.latest

In [92]:
exchange

Latest([share_class_reference<US>.exchange_id], 1)

### Méthodes Classificateur

* eq (equals)
* isnull
* startswith

In [93]:
nyse_filter = exchange.eq('NYS')

In [94]:
def make_pipeline():
    
    # Créer d'abord les masques pour les filtres
    latest_close = USEquityPricing.close.latest
    small_price = latest_close < 5
    
    # Classificateur
    nyse_filter = exchange.eq('NYS')
    
    # passer dans le masque
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10,mask=small_price)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30,mask=small_price)
    
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    
    final_filter = perc_diff_check & nyse_filter
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=final_filter)

In [95]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()



Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(2586 [EQS]),1.960533,2.02,0.02212,True
2017-01-03 00:00:00+00:00,Equity(3265 [GLF]),1.576367,1.725,0.16242,True
2017-01-03 00:00:00+00:00,Equity(3645 [HOV]),2.406667,2.735,0.176939,True
2017-01-03 00:00:00+00:00,Equity(4577 [LUB]),4.292333,4.27,0.004116,True
2017-01-03 00:00:00+00:00,Equity(4971 [RT]),3.244,3.24,0.009094,True


In [96]:
len(results)

66

# Pipelines dans l'IDE Quantopian

In [None]:
from quantopian.pipeline import Pipeline
from quantopian.algorithm import attach_pipeline, pipeline_output

def initialize(context):
    my_pipe = make_pipeline()
    attach_pipeline(my_pipe, 'my_pipeline')

def make_pipeline():
    return Pipeline()

def before_trading_start(context, data):
    # Stocker les résultats de notre pipeline DataFrame dans la variable context.
    context.output = pipeline_output('my_pipeline')