Abstract: La selección de carteras es un área crítica de la economía financiera y las inversiones. Sin embargo, la selección óptima de carteras sigue enfrentándose a muchos retos, como la naturaleza dinámica del mercado, la incertidumbre de los acontecimientos extremos y la complejidad de los datos de alta dimensión. Por lo tanto, los modelos sólidos de selección de carteras son cruciales en la inversión financiera para mejorar la capacidad de gestión del riesgo de las carteras y preservar la riqueza de los inversores, especialmente en acontecimientos extremos, como las crisis financieras y las pandemias. Es notable que la literatura reciente sobre teoría financiera y de carteras esté incorporando rápidamente técnicas de aprendizaje automático (ML) y aprendizaje por refuerzo profundo (DRL) para una mejor toma de decisiones. La aplicación de técnicas de aprendizaje automático no solo mejora la capacidad de procesar datos de series temporales, sino que también mejora la información para tomar decisiones óptimas para los inversores. Además, DRL ha llamado la atención por su capacidad para resolver problemas complejos de toma de decisiones financieras, especialmente mostrando eficiencia en mercados financieros a gran escala. Esta tesis está dedicada a la selección óptima de cartera desde las siguientes tres perspectivas. El primer estudio propone un modelo dinámico de selección de cartera robusto utilizando el valor condicional del peor de los casos (WCVaR) en una función objetivo. El modelo robusto propuesto para la dinámica de los componentes de la cartera tiene tres características principales: i) se adapta a la dependencia de cola entre activos que emplean una combinación de funciones de cópula; ii) se consideran los efectos de heterocedasticidad condicional y apalancamiento mediante la implementación de un modelo GJR-GARCH; y iii) los eventos extremos se tienen en cuenta considerando modelos híbridos paramétricos y semiparamétricos para la distribución marginal de los rendimientos de los activos. Los resultados empíricos verifican la superioridad del desempeño de la cartera (es decir, el índice de Sharpe, los rendimientos acumulados y la volatilidad) del método de cartera WCVaR propuesto antes y durante la pandemia de COVID-19 frente a las carteras de referencia comúnmente utilizadas por los profesionales. El segundo estudio diseña un marco DRL avanzado sin modelos para construir estrategias de cartera óptimas en mercados financieros dinámicos, complejos y de grandes dimensiones. La aversión al riesgo de los inversores y las limitaciones de los costos de transacción están integradas en una función de recompensa de varianza media ampliada de Markowitz. Para hacer esto, este estudio implementa un algoritmo de gradiente de política determinista profundo (TD3) doble retardado. El método de cartera sensible a los costos de transacción y riesgo basado en DRL-TD3 propuesto combina estrategias de exploración avanzadas y actualizaciones dinámicas de políticas, lo que aborda de manera efectiva los desafíos del problema de optimización de cartera de alta dimensión. Una aplicación empírica ilustra esta metodología para obtener dos carteras óptimas controlando de manera flexible tanto el costo de transacción como el riesgo de la cartera con (i) los componentes del Dow Jones Industrial Average y (ii) los componentes del índice S&P100.; Los resultados muestran mejores desempeños de cartera del método de cartera DRL propuesto en comparación con varios competidores de los métodos DRL tradicionales en diferentes escenarios. El tercer estudio propone una nueva estrategia de inversión basada en DRL para la asignación de carteras a largo plazo en presencia de costos de transacción y aversión al riesgo. Diseñamos un marco de política de cartera avanzado para modelar los patrones dinámicos de precios utilizando redes neuronales convolucionales (CNN), capturar la dependencia de activos grupales utilizando WaveNet y resolver el problema de asignación óptima de activos utilizando DRL. Estos métodos están integrados dentro de un marco de ecuaciones de Bellman de períodos múltiples. Una característica atractiva adicional de nuestra estrategia de inversión es su capacidad de optimizar dinámicamente un gran conjunto de activos de riesgo potencialmente correlacionados. El desempeño de esta cartera se prueba empíricamente en diferentes períodos de tenencia, niveles de aversión al riesgo, tasas de costos de transacción e índices financieros. Los resultados demuestran la efectividad y superioridad de la estrategia de asignación de cartera a largo plazo propuesta en comparación con varios competidores basados en métodos de aprendizaje automático y técnicas de optimización tradicionales. Los tres estudios están estrechamente relacionados con la teoría moderna de carteras, pero cada uno se centra en diferentes condiciones del mercado y desafíos en la toma de decisiones. Estas investigaciones pueden proporcionar a los inversores estrategias de inversión más completas y flexibles en diversas condiciones del mercado.
Abstract (other lang.): This thesis proposes three portfolio selection models by applying robust and DRL methods to perform investment in dynamic and complex financial markets. By implementing these strategies, portfolio performances (e.g., annual return, Sharpe ratio) can be efficiently optimized under different transaction cost rates and risk aversion coefficients. It is proven that the developed DRL-based portfolio method is particularly specialized in handling the complexity of high-dimensional data and improves portfolio performance not only in the short term but also in the long-term portfolio conditions. This thesis is devoted to optimal portfolio selections from the following three perspectives. The first study proposes a dynamic robust portfolio selection model using the worst-case conditional value (WCVaR) at an objective function. The proposed robust model for the dynamics of portfolio constituents has three main features: i) accommodates tail dependence between assets employing a mixture of copula functions; ii) conditional heteroscedasticity and leverage effects are considered through the implementation of a GJR-GARCH model; and iii) extreme events are taken into account by considering parametric and semiparametric hybrid models for the marginal distribution of asset returns. Empirical results verify the portfolio performance superiority (i.e., Sharpe ratio, cumulative returns, and volatility) of the proposed WCVaR portfolio method before and during the COVID-19 pandemic against benchmark portfolios commonly used by practitioners. The second study designs an advanced model-free DRL framework to construct optimal portfolio strategies in dynamic, complex, and large-dimensional financial markets. Investors¿ risk aversion and transaction cost constraints are embedded in an extended Markowitz¿s mean-variance reward function. To do this, this study implements a twin-delayed deep deterministic policy gradient (TD3) algorithm. The proposed DRL-TD3-based risk and transaction cost-sensitive portfolio method combines advanced exploration strategies and dynamic policy updates, which effectively addresses the challenges of the high-dimensional portfolio optimization problem. An empirical application illustrates this methodology to obtain two optimal portfolios by flexibly controlling both transaction cost and portfolio risk with (i) the constituents of the Dow Jones Industrial Average and (ii) the constituents of the S&P100; index. The results show better portfolio performances of the proposed DRL portfolio method compared to several competitors from the traditional DRL methods under different scenarios. The third study proposes a novel investment strategy based on DRL for long-term portfolio allocation in the presence of transaction costs and risk aversion. We design an advanced portfolio policy framework to model the price dynamic patterns using convolutional neural networks (CNN), capture group-wise asset dependence using WaveNet, and solve the optimal asset allocation problem using DRL. These methods are embedded within a multi-period Bellman equation framework. An additional appealing feature of our investment strategy is its ability to optimize dynamically over a large set of potentially correlated risky assets. The performance of this portfolio is tested empirically over different holding periods, risk aversion levels, transaction cost rates, and financial indices. The results demonstrate the effectiveness and superiority of the proposed long-term portfolio allocation strategy compared to several competitors based on machine learning methods and traditional optimization techniques. All three studies are closely related to modern portfolio theory, but each focuses on different market conditions and decision-making challenges. These investigations can provide investors with more comprehensive and flexible investment strategies under various market conditions.
Contribution of the TFG/M to Sustainability: Garantizar una educación de calidad inclusiva y equitativa, y promover las oportunidades de aprendizaje permanente para todos. Alcanzar la igualdad entre los géneros y empoderar a todas las mujeres y niñas. Fomentar el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo, y el trabajo decente para todos.