<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE article
  PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.0 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.0/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.0" specific-use="sps-1.8" xml:lang="en" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">
	<front>
		<journal-meta>
			<journal-id journal-id-type="publisher-id">bbr</journal-id>
			<journal-title-group>
				<journal-title>BBR. Brazilian Business Review</journal-title>
				<abbrev-journal-title abbrev-type="publisher">BBR, Braz. Bus. Rev.</abbrev-journal-title>
			</journal-title-group>
			<issn pub-type="epub">1807-734X</issn>
			<publisher>
				<publisher-name>Fucape Business School</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.15728/bbr.2023.20.1.6.en</article-id>
			<article-id pub-id-type="publisher-id">00006</article-id>
			<article-categories>
				<subj-group subj-group-type="heading">
					<subject>Article</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Analysis of the Tick Rule and Bulk Volume Classification algorithms in the Brazilian stock market</article-title>
				<trans-title-group xml:lang="pt">
					<trans-title>Análise dos algoritmos Tick Rule e Bulk Volume Classification no mercado acionário brasileiro</trans-title>
				</trans-title-group>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0000-0002-7485-8590</contrib-id>
					<name>
						<surname>Siqueira</surname>
						<given-names>Leonardo Souza</given-names>
					</name>
					<xref ref-type="aff" rid="aff1"><sup>1</sup></xref>
                    <role>conceptualization</role>
                    <role>formal analysis</role>
                    <role>investigation</role>
                    <role>methodology</role>
                    <role>writing – original draft</role>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0000-0002-0977-9298</contrib-id>
					<name>
						<surname>Correia</surname>
						<given-names>Laíse Ferraz</given-names>
					</name>
					<xref ref-type="aff" rid="aff2"><sup>2</sup></xref>
                     <role>conceptualization</role>
                    <role>supervision</role>
                    <role>methodology</role>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0000-0001-8455-0285</contrib-id>
					<name>
						<surname>Amaral</surname>
						<given-names>Hudson Fernandes</given-names>
					</name>
					<xref ref-type="aff" rid="aff3"><sup>3</sup></xref>
                    <role>supervision</role>
                    <role>funding acquisition</role>
				</contrib>
			</contrib-group>
			<aff id="aff1">
				<label>1</label>
				<institution content-type="original">Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil</institution>
				<institution content-type="normalized">Universidade Federal de Minas Gerais</institution>
				<institution content-type="orgname">Universidade Federal de Minas Gerais</institution>
				<addr-line>
					<named-content content-type="city">Belo Horizonte</named-content>
					<named-content content-type="state">MG</named-content>
				</addr-line>
				<country country="BR">Brazil</country>
					<email>leonardosiq91@gmail.com</email>
			</aff>
			<aff id="aff2">
				<label>2</label>
				<institution content-type="original">Centro Federal de Educação Tecnológica de Minas Gerais - Programa de Pós-graduação em Administração, Belo Horizonte, Minas Gerais, Brazil</institution>
				<institution content-type="normalized">Centro Federal de Educação Tecnológica de Minas Gerais</institution>
				<institution content-type="orgname">Centro Federal de Educação Tecnológica de Minas Gerais</institution>
				<institution content-type="orgdiv1">Programa de Pós-graduação em Administração</institution>
				<addr-line>
					<named-content content-type="city">Belo Horizonte</named-content>
					<named-content content-type="state">MG</named-content>
				</addr-line>
				<country country="BR">Brazil</country>
					<email>laise@cefetmg.br</email>
			</aff>
			<aff id="aff3">
				<label>3</label>
				<institution content-type="original">Centro Universitário Unihorizontes, Belo Horizonte, Minas Gerais, Brazil</institution>
				<institution content-type="normalized">Centro Universitário Unihorizontes</institution>
				<institution content-type="orgname">Centro Universitário Unihorizontes</institution>
				<addr-line>
					<named-content content-type="city">Belo Horizonte</named-content>
					<named-content content-type="state">MG</named-content>
				</addr-line>
				<country country="BR">Brazil</country>
					<email>hfamaral.cepead@gmail.com </email>
			</aff>
			<author-notes>
				<corresp id="c1">
					<email>leonardosiq91@gmail.com </email>
				</corresp>
				<corresp id="c2">
					<email>laise@cefetmg.br </email>
				</corresp>
				<corresp id="c3">
					<email>hfamaral.cepead@gmail.com</email>
				</corresp>
				<fn fn-type="con" id="fn1">
					<label>AUTHOR’S CONTRIBUTION</label>
					<p><bold>LSS:</bold> research conception and design; formal analysis; investigation; methodology; code development and writing. <bold>LFC:</bold> research conception and design; supervision; methodology. <bold>HFA:</bold> supervision; funding.</p>
				</fn>
				<fn fn-type="conflict" id="fn2">
					<label>2</label>
					<p> The authors state that there is no conflict of interest in the production of this article and none of the authors have any direct or indirect relationship through the institutions promoting the research with companies that may eventually benefit from the results of the study.</p>
				</fn>
			</author-notes>
			<!--<pub-date date-type="pub" publication-format="electronic">
				<day>20</day>
				<month>04</month>
				<year>2023</year>
			</pub-date>
			<pub-date date-type="collection" publication-format="electronic">-->
                <pub-date pub-type="epub-ppub">
                    <season>Jan-Feb</season>
                    <year>2023</year>
                </pub-date>
                <volume>20</volume>
                <issue>1</issue>
			<fpage>99</fpage>
			<lpage>116</lpage>
			<history>
				<date date-type="received">
					<day>18</day>
					<month>02</month>
					<year>2021</year>
				</date>
				<date date-type="rev-recd">
					<day>28</day>
					<month>09</month>
					<year>2021</year>
				</date>
				<date date-type="accepted">
					<day>14</day>
					<month>02</month>
					<year>2022</year>
				</date>
			</history>
			<permissions>
				<license license-type="open-access" xlink:href="https://creativecommons.org/licenses/by/4.0/" xml:lang="en">
					<license-p>This is an open-access article distributed under the terms of the Creative Commons Attribution License</license-p>
				</license>
			</permissions>
			<abstract>
				<title>ABSTRACT</title>
				<p>This study aimed to compare the performance of Tick Rule (TR) and Bulk Volume Classification (BVC) models in classifying assets traded on the Brazilian stock exchange (B3) and indicate which one performs better as an investment decision tool. The assets were split into three groups based on their volume, and actual data was used to assess the accuracy of both algorithms. Data from 2018 was used to estimate the parameters that best fit BVC, and transactions from 2019 were used to test the algorithm’s efficiency. Afterward, the Volume-Synchronized Probability of Informed Trading (VPIN) was calculated for each asset using TR and BVC, and the values obtained were compared against VPIN calculated using real data. In conclusion, the TR algorithm shows betters performance than BVC for all three groups of assets. Analysis of the properties of both methods reveals that the base upon which the TR is built holds up in the Brazilian market, whereas BVC mechanics does not reflect the observed reality.</p>
			</abstract>
			<trans-abstract xml:lang="pt">
				<title>RESUMO</title>
				<p>O objetivo deste artigo foi comparar o desempenho dos algoritmos Tick Rule (TR) e Bulk Volume Classification (BVC) na classificação de transações de ações negociadas na B3 e, assim, indicar o melhor método como ferramenta de auxílio às decisões de investimento. Os ativos foram separados em três grupos conforme o volume transacionado. Os dados reais foram utilizados para verificar a acurácia dos algoritmos, sendo as informações de 2018 utilizadas para estimar os melhores parâmetros do BVC, e as de 2019, para testar a sua eficiência. Posteriormente, foi calculado o Volume-Synchronized Probability of Informed Trading (VPIN) para cada ação utilizando o TR e o BVC. Esses valores foram comparados com o VPIN apurado com os dados reais. Observou-se que o TR apresenta melhor performance em relação ao BVC para todos os três grupos de ações. As análises das propriedades dos métodos revelaram que a base na qual o TR está calcado se sustenta no mercado brasileiro, enquanto a mecânica do BVC não reflete a realidade.</p>
</trans-abstract>
			<kwd-group xml:lang="en">
				<title>Keywords: </title>
				<kwd>Tick Rule</kwd>
				<kwd>Bulk Volume Classification</kwd>
				<kwd>VPIN</kwd>
				<kwd>Market microstructure</kwd>
			</kwd-group>
			<kwd-group xml:lang="pt">
				<title>Palavras-chave: </title>
				<kwd>Tick Rule</kwd>
				<kwd>Bulk Volume Classification</kwd>
				<kwd>VPIN</kwd>
				<kwd>Microestrutura de mercado</kwd>
			</kwd-group>
			<counts>
				<fig-count count="5"/>
				<table-count count="7"/>
				<equation-count count="7"/>
				<ref-count count="16"/>
				<page-count count="18"/>
			</counts>
		</article-meta>
	</front>
	<body>
		<sec sec-type="intro">
			<title>1. INTRODUCTION</title>
			<p>According to the traditional asset pricing perspective, the supply and demand of securities in financial markets are equal and, therefore, define equilibrium prices. However, the literature on market microstructure argues that the price formation process is far more complex since financial actors do not have access to the same information and do not enter the market simultaneously. Thus, fundamental assumptions of traditional pricing models such as the absence of transaction costs and symmetric information are made flexible to better understand the dynamics of prices from the market microstructure perspective. Therefore, the informational content carried by securities prices is one of the strands of study on this topic. </p>
			<p>Given the increasing amounts of stocks traded in high-frequency markets and the simultaneous growth in the availability of tick-by-tick data on financial information platforms, researching the microstructure of markets has gradually become more feasible. To study the effects of microstructure on the price formation process, such as informational asymmetry, information about transactions is needed, including which side initiated the trade.</p>
			<p>As <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) describe, trades in a financial market comprise the buy and sell positions. The position that initiated the trading of the asset may indicate information asymmetry between the transaction participants. Indeed, the disparity between trading volumes of the buy and sell positions may indicate order flow toxicity. However, determining the position that initiated a transaction is no simple task, especially in high-frequency markets where information is rarely available. Faced with this problem, several trade classification algorithms have emerged, including Tick Rule (TR), Quote Rule (QR), Lee-Ready (L-R), and Bulk Volume Classification (BVC), all of which have allowed determining which position initiated a given transaction from information available in traditional databases.</p>
			<p>This paper aimed to compare the performance of the TR and BVC methods in the classification of buy and sell orders of stocks traded on the Brazilian stock market. The choice for testing the accuracy of these methods was made because they use, respectively, tick-by-tick data and compressed data in time or volume intervals. Considering the type of market (in B3, trades are carried out based on orders sent through the brokers’ systems, that is, an “order-driven market”), the higher informational asymmetry and volatility of returns and the smaller trading volume at B3 (which is typical of emerging markets), it is expected that privileged information tends to reach the market sequentially, instead of in volume bulks. Therefore, the risk tends to decrease after a sequence of orders from investors having more information (informed traders), thus impacting the price negatively. In this case, algorithms developed for high-frequency markets (BVC) may not have the same accuracy as traditional ones (TR) in classifying orders in these markets. Thus, it is crucial to test which classification algorithm best distinguishes informed trading in a given market and point out which one is the best tool to aid investment decisions. </p>
			<p>To test the accuracy of the BVC, stocks were divided into three groups according to their respective traded volume. This approach is in line with other empirical studies (<xref ref-type="bibr" rid="B7">Easley et al., 2012b</xref>b; <xref ref-type="bibr" rid="B14">Panayides et al., 2019</xref>) showing that this algorithm performs differently depending on trading volume. In addition, trades from 2018 were used to estimate the most accurate parameters of the algorithm for each group of stocks. To verify whether its performance remained close to that observed in 2018, these parameters were tested using trades of 2019.</p>
			<p>Next, to analyze the impact of the classification method for stock transactions in Brazil, we employed <xref ref-type="bibr" rid="B5">Easley et al. (2011</xref>) VPIN, which measures the probability of privileged trades for a given stock. The choice for VPIN was due to the need to collect information on buying and selling volume for its calculation. Based on actual data, it was possible to compare the results of VPIN estimated by the TR and the BVC and, thus, draw conclusions about their efficiency.</p>
			<p>In our study, BVC significantly underperformed TR, producing estimates for VPIN that were weakly correlated with VPIN calculated from actual data. This is unlike <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>), but in line with other empirical evidence on BVC performance (<xref ref-type="bibr" rid="B3">Chakrabarty et al., 2015</xref>; <xref ref-type="bibr" rid="B13">Omrane &amp; Welch, 2016</xref>; <xref ref-type="bibr" rid="B14">Panayides et al., 2019</xref>).</p>
			<p>The difficulty of classifying the side that initiates transactions has led several authors to propose solutions based on available data, whether tick-by-tick or compressed. Tick-by-tick algorithms require as little granularity as possible, i.e., transaction by transaction. This aspect imposes two challenges on researchers: (i) access to data; and (ii) computational capacity to handle data. Most data providers offer the data in compressed form, in time intervals (1 minute, 5 minutes, 15 minutes, and so on). On the one hand, approaches that rely on compressed data are more affordable for most researchers. Indeed, as for the data used in this paper, the volume was reduced to 12% of its original size by compressing it in 5-minute time intervals, making its handling more feasible and less computationally intensive. On the other hand, the use of compressed data brings along the disadvantage of causing the loss of information intrinsic to the period analyzed since it summarizes thousands of transactions into a single measure (average, median, etc.). </p>
			<p>Therefore, this paper contributes especially to researchers who have limited access to real data, in that it becomes necessary to consider the biases of using aggregated data to classify transactions, such as the volume of stocks traded and the algorithm parameters, which are decisive factors for the correct classification of the buying and selling volume of assets. The following section presents the TR and BVC classification algorithms and their respective empirical applications. Subsequently, the theoretical framework and the VPIN calculation model will be presented.</p>
		</sec>
		<sec>
			<title>2. LITERATURE REVIEW</title>
			<sec>
				<title>2.1. Trade classification algorithms</title>
				<sec>
					<title>2.1.1. Tick Rule</title>
				<p>The TR algorithm uses the price of transactions to classify them. When the price of the current transaction is higher (lower) than the price of the preceding transaction, it is classified as a buy (sell). In cases when the price does not change, the classification given to the preceding transaction is repeated. <xref ref-type="bibr" rid="B7">Easley et al. (2012</xref>b) consider this classification method vulnerable (susceptible to errors), especially in high-frequency markets. For the US market, these authors identified an 86% accuracy of TR when classifying transactions occurring between the months of November 2010 and 2011. In turn, <xref ref-type="bibr" rid="B9">Ellis et al. (2000</xref>) pointed to an 81% TR accuracy in classifying transactions on NASDAQ. For the Australian market, the TR accuracy was 75% (<xref ref-type="bibr" rid="B2">Aikten &amp; Frinos, 1996</xref>). </p>
				<p>On the other hand, <xref ref-type="bibr" rid="B3">Chakrabarty et al. (2015</xref>) showed that TR performance in the US market declines over time. <xref ref-type="bibr" rid="B13">Omrane and Welch (2016</xref>) found that TR correctly classified only 67% of the transactions in the sample analyzed, corroborating the results of Chakrabarty et al. (2015), who pointed to the decreasing effectiveness of TR - possibly because it is a high-frequency market, where tick-by-tick data classifications are more challenging. Similarly, <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) found evidence of reduced TR accuracy for two sample stocks, ranging (i) from 79% to 92% between 2007 and 2008; and (ii) from 39% to 65% in 2017.</p>
			</sec>
			<sec>
				<title>2.1.2. Bulk Volume Classification</title>
				<p>Because of the problems of TR in correctly classifying transactions in markets with high-frequency trading, <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) developed the BVC model, which proposes to reduce the effects of order splitting. BVC relies on standardized price variation to classify trading volumes probabilistically. Its mechanics consists of grouping transactions by time or volume intervals, which are arbitrarily determined or limited according to the structure of the database. After the transactions are grouped, the ratios of the volume of transactions that were initiated by the buyer and seller sides are obtained through equations (1) and (2):</p>
                <p>
	<disp-formula id="e1">
    <mml:math id="m1" display="block">           
<mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>∙</mml:mo><mml:mi>Z</mml:mi><mml:mfenced separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>σ</mml:mi></mml:mrow><mml:mrow><mml:mo>∆</mml:mo><mml:mi>P</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:math>
     <label>(1)</label> 
    </disp-formula>
</p>
                <p>
	<disp-formula id="e2">
    <mml:math id="m2" display="block">           
<mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>∙</mml:mo><mml:mfenced open="[" close="]" separators="|"><mml:mrow><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>Z</mml:mi><mml:mfenced separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>σ</mml:mi></mml:mrow><mml:mrow><mml:mo>∆</mml:mo><mml:mi>P</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:mrow></mml:mfenced><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup></mml:math>
     <label>(2)</label> 
    </disp-formula>
</p>            
				<p>Where: V<sub>τ</sub> is the total volume of the interval τ; <inline-formula><mml:math>
      <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> and <inline-formula><mml:math>
      <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> are, respectively, the buying and selling volumes for the interval τ; Z is the cumulative standard normal distribution function; and σ<sub>
 <italic>ΔP</italic>
</sub> is the estimated standard deviation of the price variation between intervals. </p>
				<p>When prices do not change between the start and end of the interval, BVC divides its volume equally into buy and sell (<xref ref-type="bibr" rid="B6">Easley et al., 2012a</xref>). When the price increases (decreases), a higher ratio of the volume is classified as initiated by the buy (sell) side of the transaction. The volume ratio classified as buy or sell grows as the price change increases.</p>
				<p>The BVC method treats the price variation as independent and identically distributed (i.i.d), with a mean of zero and a constant variance (σ<sub>
 <italic>ΔP</italic>
</sub> ). <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) consider that it would be ideal to obtain the true cumulative distribution function of the price variation. However, among other problems, this procedure would decrease the accuracy in classifying transactions and render it impossible to generalize BVC. Thus, assuming normality in the price variations of securities is the most appropriate way to estimate the buying and selling volumes. According to these authors, BVC’s satisfactory performance in classifying stock transactions with high trading volume is due to the normal approximation procedure. As for illiquid assets, they consider tick-by-tick methods to be the most appropriate. The results revealed that BVC correctly classified (i) 86.61% of the trades of the e-mini S&amp;P500 futures contract when using 1-minute intervals, and (ii) 87.35% when using 5-minute intervals, whereas the TR accuracy remained at 86.43% for both intervals.</p>
				<p>
					<xref ref-type="bibr" rid="B3">Chakrabarty et al. (2015</xref>) compared the efficiencies of the L-R, TR, and BVC algorithms for classifying trades in spot markets. By analyzing actual data relative to 1,471 stocks, the authors found that the TR and L-R accuracies are higher than the BVC accuracy. TR and L-R correctly classified 90.8% and 92.6% of the trades respectively, whereas the best accuracy rate of BVC was approximately 80% when using 1-minute intervals. <xref ref-type="bibr" rid="B13">Omrane and Welch (2016</xref>) corroborate these results as they found that both TR and QR showed better results than BVC for the foreign currency market.</p>
				<p>Following the criticism of BVC, <xref ref-type="bibr" rid="B8">Easley et al. (2016</xref>) argued that, in research on informational asymmetry, the most appropriate approach would be to obtain the underlying information of trades, which depends on proxies because it is unobservable. To compare the accuracies of TR and BVC, they employed three proxies for the information underlying the trades and found that BVC outperformed TR in two of them. Thus, they concluded that BVC allows them to distinguish the intentions inherent in transactions.</p>
				<p>Indeed, <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) corroborate this empirical evidence. They argue that when BVC is calibrated for a given market with the correct time interval or volume, it can convey the informational content present in the analyzed trades with a higher degree of accuracy.</p>
			</sec>
			<sec>
				<title>2.2. VPIN Calculation</title>
				<p>
					<xref ref-type="bibr" rid="B4">Easley et al. (1996</xref>) proposed the Probability of Informed Trading (PIN) as a methodology to quantify the probability of occurrence of trades initiated by insiders. The method is based on the disparity of buy and sell trades of a given stock on independent days. </p>
				<p>To solve the problem of non-convergence of the maximum likelihood function of the Probability of Informed Trading (PIN) on days when the number of orders is high, <xref ref-type="bibr" rid="B6">Easley et al. (2012a</xref>) developed the Volume-Synchronized Probability of Informed Trading (VPIN), which allows for the direct quantification of the level of order toxicity without needing to estimate parameters by maximum probability. </p>
				<p>The idea behind VPIN is to separate the volume information for a given day into equal sets (volume buckets) and treat each one as a unit equivalent to one information arrival time. The transaction imbalance is estimated by the average over n volume buckets. Thus, VPIN is obtained from equation (3)</p>
                <p>
	<disp-formula id="e3">
    <mml:math id="m3" display="block">           
<mml:mi>V</mml:mi><mml:mi>P</mml:mi><mml:mi>I</mml:mi><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mrow><mml:msubsup><mml:mo stretchy="false">∑</mml:mo><mml:mrow><mml:mi>τ</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msubsup><mml:mrow><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup><mml:mo>-</mml:mo><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup><mml:mo>∨</mml:mo></mml:mrow></mml:mrow></mml:mrow><mml:mrow><mml:mi>n</mml:mi><mml:mi>V</mml:mi></mml:mrow></mml:mfrac></mml:math>
     <label>(3)</label> 
    </disp-formula>
</p>
                <p>Where <inline-formula><mml:math>
   <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> and <inline-formula><mml:math>
  <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> are, respectively, the buying and selling volumes in a given t volume bucket. Following the standard calculation employed in the literature, a value of n equal to 50 was adopted, indicating that trades are grouped into 50 buckets of equal transactional volume per day. Based on this aggregation, VPIN is estimated directly through equation (3), that is: (i) the absolute imbalance between buy and sell orders is calculated; and (ii) this value is divided by the number of transactions observed for each set of trading volumes.</p>
				<p>Since it represents an extension of PIN, which is a well-tested proxy, VPIN has also been explored in microstructure studies and has had success in predicting relevant events such as the Flash Crash (<xref ref-type="bibr" rid="B16">Wu et al., 2013</xref>). <xref ref-type="bibr" rid="B1">Abad and Yagüe (2012</xref>) point out that the order flow toxicity measured by VPIN is directly associated with the adverse selection problem to which market makers are susceptible. The buy and sell order imbalance over a short period is related to the information underlying the VPIN.</p>
			</sec>
		</sec>
		</sec>
		<sec sec-type="methods">
			<title>3. METHODOLOGY</title>
			<sec>
				<title>3.1. Population and sample</title>
				<p>The population studied in this paper consisted of the stocks traded on the B3 between January 02, 2018, and June 28, 2019. The year 2018 was used to evaluate the set of parameters that produce the best performance of BVC, and 2019 was used to validate these parameters and compare the performances between BVC and TR. Only the 181 stocks traded every day over the period studied were included in the sample. We adopted the criterion of selecting only those assets that were traded on all days so that the construction of the BVC time or volume intervals would not be affected by external factors relating to long periods between transactions.</p>
				<p>The next segmentation refers to the volume of shares traded for each asset. As this is the input used by the algorithms, each asset was allocated to a class referring to its average volume traded in 2018. Unlike <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>), who segmented the assets into three classes with a similar amount in each, in the present paper, we chose to use the Fisher-Jenks algorithm to separate the assets into three volume classes: small, medium, and large. This algorithm was chosen because it allows for defining the threshold points and isolating the assets within their respective classes. This, in turn, decreases the variance between assets of the same class and increases the variance in relation to the assets of the other classes. The number of assets and the average volume traded in 2018 for each class of assets are displayed in <xref ref-type="table" rid="t1">Table 1</xref>.</p>
				<p>
					<table-wrap id="t1">
						<label>Table 1</label>
						<caption>
							<title>Number of assets and average volume per class</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center">Class</th>
									<th align="center">Average volume</th>
									<th align="center">Number of assets</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">Small</td>
									<td align="center">287,688</td>
									<td align="center">99</td>
								</tr>
								<tr>
									<td align="center">Medium</td>
									<td align="center">1,287,740</td>
									<td align="center">39</td>
								</tr>
								<tr>
									<td align="center">Large</td>
									<td align="center">7,109,882</td>
									<td align="center">43</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN1">
								<p>Source: Research data.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>The average volume traded for small stocks is close to that reported by <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) in the European market; however, medium and large stocks were 44% and 30% lower than what was reported by these authors, which, in turn, points to the first difference between the Brazilian stock market activity and that in more developed countries. </p>
			</sec>
			<sec>
				<title>3.2. Data collection</title>
				<p>One of the primary limitations of the application of PIN and VPIN is the possibility of misclassifying buy and sell orders. To contribute to the analysis of the classification algorithms’ performance, this study relied on actual data traded on the Brazilian market as a basis for comparison with the results generated by the TR and BVC algorithms. The data was collected from B3’s market data directory, which contains information about the issued orders of all stocks traded in B3 in the last two years, as well as the time, price, amount, and side that initiated the transaction.</p>
				<p>The volume of data used in this paper totaled about 150 million rows, where each row represents a buy or sell order executed in the referenced period, averaging 2.6 million shares traded per day. In comparison, the sample used by <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) contained an average of 4 million shares traded daily.</p>
				<p>Finally, several aggregations were performed for the application of BVC, reducing the volume by about 88% when using a 5-minute interval, which, in turn, shows the advantage of using aggregated data.</p>
			</sec>
		</sec>
		<sec sec-type="results">
			<title>4. ANALYSIS AND RESULTS</title>
			<p>In this section, the results of the accuracy rate of the TR and BVC algorithms are discussed. We compare the values of VPIN<sub>ACTUAL</sub> - calculated from the actual buy and sell amount - and those of VPIN<sub>TR</sub> and VPIN<sub>BVC</sub> - calculated from the volumes estimated by TR and BVC, respectively. Finally, the properties of the TR and BVC methods are investigated to highlight at what points these algorithms misclassify trades.</p>
			<sec>
				<title>4.1. Calibration of the BVC parameters</title>
				<p>It is important to calibrate the BVC parameters to subsequently compare the performance of the TR and BVC algorithms. Following <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>), and considering <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) ponderation that BVC performs differently for securities with different transaction volumes, several parameters were tested in 2018 to define the best set for each asset class. In addition, the parameters were tested with 2019 data to check whether the previous performance held and thus attest to the possibility of applying BVC to future data.</p>
				<p>To select the best set of parameters for each asset, the BVC accuracy was calculated using equation (4).</p>
                <p>
	<disp-formula id="e4">
    <mml:math id="m4" display="block">           
<mml:mi>A</mml:mi><mml:mi>R</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mfenced open="" close="" separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:mfenced open="|" close="|" separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mi>m</mml:mi><mml:mi>a</mml:mi><mml:mi>x</mml:mi><mml:mo>⁡</mml:mo><mml:mfenced separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced><mml:mo>+</mml:mo><mml:mfenced open="|" close="|" separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mi>m</mml:mi><mml:mi>a</mml:mi><mml:mi>x</mml:mi><mml:mo>⁡</mml:mo><mml:mfenced separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:math>
     <label>(4)</label> 
    </disp-formula>
</p>
				<p>Wherein: V<sub>
 <italic>B</italic>
</sub> and V<sub>
 <italic>S</italic>
</sub> are the actual buying and selling volumes; and <inline-formula><mml:math>
  <mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub></mml:math>
</inline-formula> and <inline-formula><mml:math>
  <mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mi> </mml:mi></mml:math>
</inline-formula> are the buying and selling volumes estimated by BVC, respectively. For each asset, the highest accuracy was selected. <xref ref-type="table" rid="t2">Table 2</xref> shows the representativity of each parameter within the three analyzed classes, in percent.</p>
				<p>
					<table-wrap id="t2">
						<label>Table 2</label>
						<caption>
							<title>Percentage of representativeness of the parameters used for BVC calibration</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
								<col span="3"/>
							</colgroup>
							<thead>
								<tr>
									<th align="center"> </th>
									<th align="center"> </th>
									<th align="center" colspan="3">Asset class </th>
								</tr>
								<tr>
									<th align="center">Grouping</th>
									<th align="center">Parameter</th>
									<th align="center">Small</th>
									<th align="center">Medium</th>
									<th align="center">Large</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">Time</td>
									<td align="center">1 minute</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Time</td>
									<td align="center">2 minutes</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Time</td>
									<td align="center">3 minutes</td>
									<td align="center">1.01%</td>
									<td align="center">0.00%</td>
									<td align="center">11.63%</td>
								</tr>
								<tr>
									<td align="center"><bold>Time</bold></td>
									<td align="center"><bold>5 minutes</bold></td>
									<td align="center"><bold>20.20%</bold></td>
									<td align="center"><bold>66.67%</bold></td>
									<td align="center"><bold>60.47%</bold></td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">1,000</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">5,000</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">10,000</td>
									<td align="center">6.06%</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">25,000</td>
									<td align="center">3.03%</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">50,000</td>
									<td align="center">9.09%</td>
									<td align="center">2.56%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">75,000</td>
									<td align="center">13.13%</td>
									<td align="center">2.56%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">100,000</td>
									<td align="center">12.12%</td>
									<td align="center">0.00%</td>
									<td align="center">0.00%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">200,000</td>
									<td align="center">17.17%</td>
									<td align="center">12.82%</td>
									<td align="center">4.65%</td>
								</tr>
								<tr>
									<td align="center">Volume</td>
									<td align="center">500,000</td>
									<td align="center">18.18%</td>
									<td align="center">15.38%</td>
									<td align="center">23.26%</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN2">
								<p>Source: Research data.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>For all three classes, BVC showed higher accuracy when using a 5-minute interval. Interestingly, in line with previous studies (<xref ref-type="bibr" rid="B7">Easley et al., 2012b</xref>), assets with lower traded volume showed less consistency in terms of overall parameters, as assets were almost evenly split between the 5-minute time intervals and the volume intervals of 75, 100, 200 and 500 thousand shares.</p>
				<p>This first evidence creates uncertainty regarding the applicability of BVC as a forecasting algorithm, considering that, among the assets with lower traded volume, the parameters do not present consistency. Indeed, other forms of clustering of assets were tested, and, among the 80 smallest assets, the parameters did not stabilize. This suggests that this phenomenon persists even when the traded volume is used to separate the stocks (a customary practice in the literature).</p>
				<p>Another important feature in forecasting algorithms is the applicability of the parameters in various periods. The percentages of stocks for which the most accurate parameter was maintained in the years 2018 and 2019 differed between the groups analyzed, as follows: (i) 78% among high-volume (large) stocks; (ii) 74% among intermediate volume (medium) stocks; (iii) and 35% among low volume (small) stocks.</p>
				<p>As before, inconsistency was more significant in lower-volume assets, which advises caution when using BVC for this asset class. Having established the best set of parameters for BVC (i.e., the 5-minute interval), subsequent results will use these values for estimating the buying and selling volumes.</p>
			</sec>
			<sec>
				<title>4.2. Performance of the TR and BVC algorithms</title>
				<p>
					<xref ref-type="table" rid="t3">Table 3</xref> presents the results of the TR and BVC accuracy rates. It can be seen, for both methods, an improvement in performance as the assets grow in traded volume. The overall performance of TR was 80.82%, a higher value than those found by <xref ref-type="bibr" rid="B13">Omrane and Welch (2016</xref>) and <xref ref-type="bibr" rid="B3">Chakrabarty et al. (2015</xref>).</p>
				<p>
					<table-wrap id="t3">
						<label>Table 3</label>
						<caption>
							<title>TR and BVC accuracy rates</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col span="3"/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center"> </th>
									<th align="center" colspan="3">TR </th>
									<th align="center" colspan="3">BVC</th>
								</tr>
								<tr>
									<th align="center">Class</th>
									<th align="center">Minimum </th>
									<th align="center">Mean</th>
									<th align="center">Maximum </th>
									<th align="center">Minimum </th>
									<th align="center">Mean</th>
									<th align="center">Maximum </th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">Small</td>
									<td align="center">62.99%</td>
									<td align="center">77.71%</td>
									<td align="center">92.63%</td>
									<td align="center">33.08%</td>
									<td align="center">51.60%</td>
									<td align="center">67.28%</td>
								</tr>
								<tr>
									<td align="center">Medium</td>
									<td align="center">74.95%</td>
									<td align="center">82.95%</td>
									<td align="center">91.48%</td>
									<td align="center">37.19%</td>
									<td align="center">62.18%</td>
									<td align="center">68.69%</td>
								</tr>
								<tr>
									<td align="center">Large</td>
									<td align="center">75.10%</td>
									<td align="center">86.05%</td>
									<td align="center">95.60%</td>
									<td align="center">40.89%</td>
									<td align="center">64.10%</td>
									<td align="center">70.90%</td>
								</tr>
								<tr>
									<td align="center">Total</td>
									<td align="center">62.99%</td>
									<td align="center">80.82%</td>
									<td align="center">95.60%</td>
									<td align="center">33.08%</td>
									<td align="center">56.85%</td>
									<td align="center">70.90%</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN3">
								<p>Source: Research data.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>The average performance of BVC was 56.85%, lower than the percentage found by <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>), who analyzed the three most active futures contracts in the US market; and <xref ref-type="bibr" rid="B13">Omrane and Welch (2016</xref>), who analyzed foreign exchange contracts.</p>
				<p>Overall, we can see that TR outperformed BVC. While the lowest accuracy rate of TR was 62.99%, BVC achieved a minimum rate of 33.08%. In addition, for all asset classes, TR performed above 90%, whereas BVC reached a maximum of 70.90% for the assets with the highest trading volume.</p>
				<p>
					<xref ref-type="fig" rid="f1">Figure 1</xref> shows that the performance rate of TR is concentrated in the 80% range and the accuracies among the assets present symmetric behavior in relation to the median. BVC values are around 63%, the first quartile is around 45% and the third quartile is around 66%, slightly above the median (64%). As before, this asymmetry stems from the assets with lower trading volume, which typically deliver inferior performance. This result corroborates the evidence found by <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>), that BVC performs better for stocks with higher trading volumes.</p>
				<p>
					<fig id="f1">
						<label>Figure 1</label>
						<caption>
							<title>Accuracy range of the TR and BVC methods</title>
						</caption>
						<graphic xlink:href="1808-2386-bbr-20-01-99-gf1.jpg"/>
						<attrib>Source: Research data.</attrib>
					</fig>
				</p>
				<p>The preliminary results indicate that the TR algorithm outperforms the BVC algorithm. The next section shows the result of the practical application of the two methods based on a model that requires information on buying and selling volumes as its primary input.</p>
			</sec>
			<sec>
				<title>4.3. Calculating VPIN from actual data, TR and BVC</title>
				<p>To analyze the problems regarding the classification of trades when applying a method that requires the number of buy and sell trades, we proceeded to calculate VPIN using the actual data of transactions performed between January 02 and June 28, 2019, in addition to the volumes determined by TR and BVC. <xref ref-type="bibr" rid="B10">Grammig and Theissen (2002</xref>) and <xref ref-type="bibr" rid="B11">Hwang et al. (2013</xref>) draw attention to the problems concerning the misclassification of orders when estimating informational risk proxies.</p>
				<p>
					<xref ref-type="fig" rid="f2">Figure 2</xref> shows the average VPIN of each set. At first, the disparity of VPINs between the largest and smallest stocks can be identified. This result has been reported by several authors (<xref ref-type="bibr" rid="B4">Easley et al., 1996</xref>; <xref ref-type="bibr" rid="B12">Mohanram &amp; Rajgopal, 2009</xref>; <xref ref-type="bibr" rid="B1">Abad &amp; Yagüe, 2012</xref>; <xref ref-type="bibr" rid="B15">Wei et al., 2013</xref>) and points to the existence of a negative correlation between VPIN and the company’s market value.</p>
				<p>
					<fig id="f2">
						<label>Figure 2</label>
						<caption>
							<title>VPINs calculated from actual data, TR and BVC</title>
						</caption>
						<graphic xlink:href="1808-2386-bbr-20-01-99-gf2.jpg"/>
						<attrib>Source: Research data.</attrib>
					</fig>
				</p>
				<p>From these results, we can see that VPIN<sub>ACTUAL</sub> and VPIN<sub>TR</sub> do not differ significantly, particularly for medium and large stocks. This evidence is reinforced by the results shown in <xref ref-type="table" rid="t4">Table 4</xref>, in which the difference between TR and the actual data varied around 2% or 3%. </p>
				<p>The VPIN<sub>BVC</sub> calculated for small stocks must be highlighted. Although the lower accuracy of BVC was evidenced for this asset class, its VPIN was the closest to the actual one among the three classes. This result is explained by the particularity of the VPIN methodology, in which the imbalance of orders is taken into consideration. If the buy and sell orders are incorrectly estimated but their imbalance is close to the actual estimate, the VPIN will be close to the one calculated with the actual data. This may advise additional caution when using BVC, as it may indicate promising results from incorrect data; this, in turn, may render it inapplicable to other methods that require the buying and selling data as an input. </p>
				<p>
					<table-wrap id="t4">
						<label>Table 4</label>
						<caption>
							<title>Average VPINs by class and method</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center">Class</th>
									<th align="center">VPIN<sub>ACTUAL</sub></th>
									<th align="center">VPIN<sub>BVC</sub></th>
									<th align="center">VPIN<sub>TR</sub></th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">Small</td>
									<td align="center">58.79%</td>
									<td align="center">59.36%</td>
									<td align="center">55.82%</td>
								</tr>
								<tr>
									<td align="center">Medium</td>
									<td align="center">37.32%</td>
									<td align="center">46.76%</td>
									<td align="center">35.98%</td>
								</tr>
								<tr>
									<td align="center">Large</td>
									<td align="center">34.17%</td>
									<td align="center">45.11%</td>
									<td align="center">32.74%</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN4">
								<p>Source: Research data.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>To analyze the characteristics of the estimated VPINs, we calculated, for each asset class, the correlation between VPIN<sub>ACTUAL</sub> and VPIN<sub>TR</sub>, and between VPIN<sub>ACTUAL</sub> and VPIN<sub>BVC</sub>. The weakest correlation, the average, and the strongest correlation between each asset class, as well as the mean, were also calculated (<xref ref-type="table" rid="t5">Table 5</xref>).</p>
				<p>
					<table-wrap id="t5">
						<label>Table 5</label>
						<caption>
							<title>Correlation between VPIN<sub>
 <italic>ACTUAL</italic>
</sub> -VPIN<sub>
 <italic>TR</italic>
</sub> and between VPIN<sub>
 <italic>ACTUAL</italic>
</sub> -VPIN<sub>
 <italic>BVC</italic>
</sub></title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col span="3"/>
								<col span="3"/>
							</colgroup>
							<thead>
								<tr>
									<th align="center"> </th>
									<th align="center" colspan="3">TR </th>
									<th align="center" colspan="3">BVC </th>
								</tr>
								<tr>
									<th align="center">Class</th>
									<th align="center">Minimum </th>
									<th align="center">Mean</th>
									<th align="center">Maximum </th>
									<th align="center">Minimum </th>
									<th align="center">Mean</th>
									<th align="center">Maximum </th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">Small</td>
									<td align="center">0.3551</td>
									<td align="center">0.7817</td>
									<td align="center">0.9732</td>
									<td align="center">-0.1769</td>
									<td align="center">0.2872</td>
									<td align="center">0.7630</td>
								</tr>
								<tr>
									<td align="center">Medium</td>
									<td align="center">0.5733</td>
									<td align="center">0.8636</td>
									<td align="center">0.9855</td>
									<td align="center">0.1018</td>
									<td align="center">0.5018</td>
									<td align="center">0.8563</td>
								</tr>
								<tr>
									<td align="center">Large</td>
									<td align="center">0.6889</td>
									<td align="center">0.8544</td>
									<td align="center">0.9713</td>
									<td align="center">0.2231</td>
									<td align="center">0.4508</td>
									<td align="center">0.8632</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN5">
								<p>All correlations showed p-values equal to zero.</p>
							</fn>
							<fn id="TFN6">
								<p>Source: Research data.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>For all asset classes, VPIN<sub>TR</sub> presented a strong correlation with VPIN<sub>ACTUAL</sub>, averaging roughly 80%. These numbers reinforce the accuracy verified for TR. In contrast, analysis of the correlation of VPIN<sub>BVC</sub> with VPIN<sub>ACTUAL</sub> points to a lower average, of 50% for medium-class assets at most. </p>
				<p>The maximum correlations achieved by BVC are close to the average correlation of TR. For small stocks, there were even cases of negative correlation, which indicates that the imbalance reported by BVC showed an opposite sign to the actual data. This means that, while VPIN<sub>ACTUAL</sub> indicates moments of increased informational risk (alerting to the orders’ imbalance), VPIN<sub>BVC</sub> may indicate the opposite. Therefore, this contradicts the very purpose of VPIN, which, according to <xref ref-type="bibr" rid="B6">Easley et al. (2012a</xref>), is to alert investors of moments of volume imbalance and thus avoid illiquidity events that result in stock market crashes, such as the Flash Crash.</p>
				<p>As a way of showing the consequence of using BVC to classify trade orders, <xref ref-type="fig" rid="f3">Figures 3</xref> and <xref ref-type="fig" rid="f4">4</xref> show the behavior of VPINs for the stocks that presented, respectively, stronger and weaker correlation with the actual data for each class.</p>
				<p>
					<fig id="f3">
						<label>Figure 3</label>
						<caption>
							<title>Stocks with a stronger correlation between BVC and actual data</title>
						</caption>
						<graphic xlink:href="1808-2386-bbr-20-01-99-gf3.jpg"/>
						<attrib>Source: Research data.</attrib>
					</fig>
				</p>
				<p>
					<fig id="f4">
						<label>Figure 4</label>
						<caption>
							<title>Stocks with a weaker correlation between BVC and actual data</title>
						</caption>
						<graphic xlink:href="1808-2386-bbr-20-01-99-gf4.jpg"/>
						<attrib>Source: Research data.</attrib>
					</fig>
				</p>
				<p>The figures show that VPIN<sub>BVC</sub> presents more extreme values than VPIN<sub>ACTUAL</sub> even for the stocks with a stronger correlation. As for the stocks with weaker correlation, VPIN<sub>BVC</sub> reached values close to 90% of VPIN<sub>ACTUAL</sub> on occasion. If used as an indicator of liquidity problems, this method would present multiple false positives when compared to the actual value, which could lead to problems in its practical use. The unbalanced behavior of BVC will be analyzed in the section dedicated to the analysis of the properties of this method.</p>
				<p>The results presented in this section indicate that BVC is not an effective trade classification algorithm compared to actual data. This evidence is corroborated by the application of VPIN, which shows that the values estimated by BVC differ substantially from those obtained from actual data. On the other hand, VPIN<sub>TR</sub> showed similar values to VPIN<sub>ACTUAL</sub> for all stocks analyzed in this study. In the next sections, we will identify and analyze the points when TR and BVC misclassify orders, which would explain the differences in VPIN estimates.</p>
			</sec>
			<sec>
				<title>4.4. Analysis of the Tick Rule properties</title>
				<p>The TR algorithm is based on the economic principle that a buy (sell) order increases (decreases) the demand for a given stock, which leads to an increase (decrease) in its price. To verify in which situations this economic principle holds, we analyzed the frequency of the order signs given the price changes of the trades. That is, we checked, for each value of ΔP<sub>
 <italic>t</italic>
</sub> , the number of buy (for ΔP<sub>
 <italic>t</italic>
</sub> &gt;0) and sell orders (for ΔP<sub>
 <italic>t</italic>
</sub> &lt;0) in relation to the total. Finally, we calculated the number of times the order was repeated for moments when ΔP<sub>
 <italic>t</italic>
</sub> =0. Thus, equations (5), (6), and (7) represent the calculations performed.</p>
                <p>
	<disp-formula id="e5">
    <mml:math id="m5" display="block">           
<mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mo>+</mml:mo></mml:mrow></mml:msup><mml:mo>)</mml:mo></mml:math>
     <label>(5)</label> 
    </disp-formula>
</p>
                <p>
	<disp-formula id="e6">
    <mml:math id="m6" display="block">           
<mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo></mml:mrow></mml:msub><mml:mo>)</mml:mo></mml:math>
     <label>(6)</label> 
    </disp-formula>
</p>
                <p>
	<disp-formula id="e7">
    <mml:math id="m7" display="block">           
<mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mo>)</mml:mo></mml:math>
     <label>(7)</label> 
    </disp-formula>
</p>
                
				<p>Where: B<sub>
 <italic>t</italic>
</sub> and S<sub>
 <italic>t</italic>
</sub> are, respectively, a buy and sell order at the moment t; and P<sup>+</sup> and P_ are the positive and negative values for the price variations between transactions, respectively. Lastly, X<sub>t</sub> represents the sign of the order posted at the moment t, and it can be either a buy (B) or sell order (S). Equation (7) represents the case where the price change equals zero and we intend to check how often the side that initiated the order in t is equal to the side that initiated the previous order.</p>
				<p>The results of equations (5) and (6) are shown in <xref ref-type="table" rid="t6">Table 6</xref>. There is consistency in the frequency of the transaction side, both for positive and negative price changes. Even in more pronounced price changes, above 0.20 currency units, the percentage of buy or sell orders remained at the same level (around 88%).</p>
				<p>The results in <xref ref-type="table" rid="t6">Table 6</xref> show why TR performs well for classifying trades. In general, the basis of this algorithm holds for the sample analyzed, that is, positive price changes point to buy orders, while negative changes indicate sell orders. </p>
				<p>For the result of equation (7) related to price changes equal to zero, it was found that <inline-formula><mml:math>
  <mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mo>)</mml:mo><mml:mo>=</mml:mo><mml:mn>0,9531</mml:mn></mml:math>
</inline-formula>. That is, for the sample analyzed, in 95.31% of the cases, when there was no price change, the transaction at the moment t was the same as at the moment t-1, as recommended by TR.</p>
				<p>
					<table-wrap id="t6">
						<label>Table 6</label>
						<caption>
							<title>Frequency of order signs given the price changes between transactions</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center"><italic>ΔP</italic>
 <sub>
 <italic>t</italic>
</sub></th>
									<th align="center"><italic>P(B</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>| ΔP</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>= P</italic>
 <sup>
 <italic>+</italic>
</sup> )</th>
									<th align="center"><italic>ΔP</italic>
 <sub>
 <italic>t</italic>
</sub></th>
									<th align="center"><italic>P(S</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>| ΔP</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>= P</italic>
 <sub>
 <italic>-</italic>
</sub> )</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">0.01</td>
									<td align="center">88.43%</td>
									<td align="center">-0.01</td>
									<td align="center">88.74%</td>
								</tr>
								<tr>
									<td align="center">0.02</td>
									<td align="center">89.15%</td>
									<td align="center">-0.02</td>
									<td align="center">89.77%</td>
								</tr>
								<tr>
									<td align="center">0.03</td>
									<td align="center">88.35%</td>
									<td align="center">-0.03</td>
									<td align="center">89.22%</td>
								</tr>
								<tr>
									<td align="center">0.04</td>
									<td align="center">87.83%</td>
									<td align="center">-0.04</td>
									<td align="center">88.85%</td>
								</tr>
								<tr>
									<td align="center">0.05</td>
									<td align="center">86.94%</td>
									<td align="center">-0.05</td>
									<td align="center">88.17%</td>
								</tr>
								<tr>
									<td align="center">0.06</td>
									<td align="center">87.27%</td>
									<td align="center">-0.06</td>
									<td align="center">88.48%</td>
								</tr>
								<tr>
									<td align="center">0.07</td>
									<td align="center">87.39%</td>
									<td align="center">-0.07</td>
									<td align="center">88.60%</td>
								</tr>
								<tr>
									<td align="center">0.08</td>
									<td align="center">87.40%</td>
									<td align="center">-0.08</td>
									<td align="center">88.31%</td>
								</tr>
								<tr>
									<td align="center">0.09</td>
									<td align="center">87.04%</td>
									<td align="center">-0.09</td>
									<td align="center">87.77%</td>
								</tr>
								<tr>
									<td align="center">0.10</td>
									<td align="center">85.21%</td>
									<td align="center">-0.10</td>
									<td align="center">86.79%</td>
								</tr>
								<tr>
									<td align="center">0.11</td>
									<td align="center">86.31%</td>
									<td align="center">-0.11</td>
									<td align="center">88.09%</td>
								</tr>
								<tr>
									<td align="center">0.12</td>
									<td align="center">87.10%</td>
									<td align="center">-0.12</td>
									<td align="center">87.75%</td>
								</tr>
								<tr>
									<td align="center">0.13</td>
									<td align="center">87.93%</td>
									<td align="center">-0.13</td>
									<td align="center">88.76%</td>
								</tr>
								<tr>
									<td align="center">0.14</td>
									<td align="center">87.96%</td>
									<td align="center">-0.14</td>
									<td align="center">88.52%</td>
								</tr>
								<tr>
									<td align="center">0.15</td>
									<td align="center">87.49%</td>
									<td align="center">-0.15</td>
									<td align="center">87.61%</td>
								</tr>
								<tr>
									<td align="center">0.16</td>
									<td align="center">87.27%</td>
									<td align="center">-0.16</td>
									<td align="center">87.86%</td>
								</tr>
								<tr>
									<td align="center">0.17</td>
									<td align="center">89.05%</td>
									<td align="center">-0.17</td>
									<td align="center">88.45%</td>
								</tr>
								<tr>
									<td align="center">0.18</td>
									<td align="center">87.84%</td>
									<td align="center">-0.18</td>
									<td align="center">89.02%</td>
								</tr>
								<tr>
									<td align="center">0.19</td>
									<td align="center">87.76%</td>
									<td align="center">-0.19</td>
									<td align="center">88.61%</td>
								</tr>
								<tr>
									<td align="center">0.20</td>
									<td align="center">86.23%</td>
									<td align="center">-0.20</td>
									<td align="center">87.14%</td>
								</tr>
								<tr>
									<td align="center">&gt; 0.20</td>
									<td align="center">88.11%</td>
									<td align="center">&lt; -0.20</td>
									<td align="center">89.27%</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN7">
								<p>Source: Research data.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>To further analyze the situations in which TR misclassifies trades, we verified that five variables influence the performance of this method, namely the price change (ΔP<sub>
 <italic>t</italic>
</sub> ); the sign of the order being sorted; the sign of the previous order; the difference in time between the two trades; and whether the buying and selling brokers are the same as in the previous transaction.</p>
				<p>
					<xref ref-type="table" rid="t7">Table 7</xref> presents the situations and frequencies in which TR initiates a sequence of misclassified transactions. Most of the TR errors derive from situations where the price change is positive, but the order is classified as a sale preceded by another sale. In this case, the brokerage firm involved in the sales at t and t-1 is the same, whereas the buyer is different. Therefore, the situation described is one in which: (i) a given brokerage firm places a sell order at t-1; when this order is executed, (ii) another sell order is placed by the same brokerage firm with a difference of zero (0) seconds, executed by a different buyer than the one who sent the order. In this case, the second order (at t) has a higher price than the trade at t-1, which is probably due to the fast execution of the sell order. This suggests that there is liquidity for the stock at that moment and that its demand is high, which explains the increase in the sale price.</p>
				<p>This is also true for the situation where the current and previous orders are both buy orders, but the price varied negatively between trades (row 2 of <xref ref-type="table" rid="t7">Table 7</xref>). In this case, the broker sending the buy orders is the same for both transactions but is not the seller. The second buy order is executed faster than the first (zero-second difference), indicating that many traders are interested in selling the stock (i.e., the supply is high). This, in turn, leads to a reduction in the price of the transaction, which is executed even at a lower price than the previous transaction.</p>
				<p>The scenarios described above were those that presented the highest frequencies of trades misclassified by TR. When one of these situations occurs, a sequence of misclassifications can follow if there are no further price changes. This is because, in this case, TR continues to misclassify the transaction from the sign of the previous order that had been misclassified before.</p>
				<p>The next two situations involving TR errors are those in which the orders at t are buys (sells), and in which the orders at t-1 are sells (buys), but with an equal price change and time between transactions equal to zero, and the same selling (buying) broker. As in this case the TR repeats the classification, a sequence of errors is initiated. Indeed, the time between transactions and the brokers involved in them play a significant role in defining which side initiated the buy or sell order. Since trades are practically instantaneous, two phenomena can influence the TR classification. The first has to do with order splitting, that is, the same order is divided into several smaller orders so that the market does not notice that a trader is moving a high volume of shares. This type of strategy can be detected by analyzing the time between transactions, the broker executing the order, and the volume traded, since many times the order is split into multiple orders of equal volume. The second phenomenon happens because since the time between trades is practically zero, the market does not adjust in time for the price variation to reflect the supply and demand of the stock in question.</p>
				<p>In general, the results in <xref ref-type="table" rid="t7">Table 7</xref> show that the scenarios present similar frequency for the orders’ signals, therefore pointing to symmetry, besides revealing that the market behaves equivalently regardless of whether the trade in question is initiated by a buyer or a seller. Finally, this analysis points to the opportunity to build a more complex model that can capture the relationship between the variables, thus reducing the initiation of the error sequence.</p>
				<p>
					<table-wrap id="t7">
						<label>Table 7</label>
						<caption>
							<title>Scenarios in which TR initiates a sequence of misclassified trades</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center">Time difference</th>
									<th align="center"><italic>ΔP</italic>
 <sub>
 <italic>t</italic>
</sub></th>
									<th align="center">Current order</th>
									<th align="center">Previous order</th>
									<th align="center">Buying Broker</th>
									<th align="center">Selling Broker</th>
									<th align="center">Frequency</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="center">0</td>
									<td align="center">+</td>
									<td align="center">S</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">=</td>
									<td align="center">10.97%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">-</td>
									<td align="center">B</td>
									<td align="center">B</td>
									<td align="center">=</td>
									<td align="center">≠</td>
									<td align="center">10.70%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">B</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">=</td>
									<td align="center">7.82%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">S</td>
									<td align="center">B</td>
									<td align="center">=</td>
									<td align="center">≠</td>
									<td align="center">7.80%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">+</td>
									<td align="center">S</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">4.67%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">-</td>
									<td align="center">B</td>
									<td align="center">B</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">4.61%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">B</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">4.32%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">S</td>
									<td align="center">B</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">4.20%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">0</td>
									<td align="center">B</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">4.16%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">0</td>
									<td align="center">S</td>
									<td align="center">B</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">4.08%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">+</td>
									<td align="center">S</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">3.15%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">S</td>
									<td align="center">B</td>
									<td align="center">=</td>
									<td align="center">=</td>
									<td align="center">2.94%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">-</td>
									<td align="center">B</td>
									<td align="center">B</td>
									<td align="center">≠</td>
									<td align="center">≠</td>
									<td align="center">2.87%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">B</td>
									<td align="center">S</td>
									<td align="center">=</td>
									<td align="center">=</td>
									<td align="center">2.75%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">0</td>
									<td align="center">B</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">=</td>
									<td align="center">2.40%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">0</td>
									<td align="center">S</td>
									<td align="center">B</td>
									<td align="center">=</td>
									<td align="center">≠</td>
									<td align="center">2.25%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">-</td>
									<td align="center">B</td>
									<td align="center">B</td>
									<td align="center">=</td>
									<td align="center">=</td>
									<td align="center">2.07%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">+</td>
									<td align="center">S</td>
									<td align="center">S</td>
									<td align="center">=</td>
									<td align="center">=</td>
									<td align="center">2.06%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">+</td>
									<td align="center">S</td>
									<td align="center">S</td>
									<td align="center">≠</td>
									<td align="center">=</td>
									<td align="center">1.84%</td>
								</tr>
								<tr>
									<td align="center">+</td>
									<td align="center">-</td>
									<td align="center">B</td>
									<td align="center">B</td>
									<td align="center">=</td>
									<td align="center">≠</td>
									<td align="center">1.67%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">S</td>
									<td align="center">B</td>
									<td align="center">≠</td>
									<td align="center">=</td>
									<td align="center">1.45%</td>
								</tr>
								<tr>
									<td align="center">0</td>
									<td align="center">0</td>
									<td align="center">B</td>
									<td align="center">S</td>
									<td align="center">=</td>
									<td align="center">≠</td>
									<td align="center">1.37%</td>
								</tr>
							</tbody>
						</table>
						<table-wrap-foot>
							<fn id="TFN8">
								<p>Note: ‘+,’ ‘-’ and ‘0’ respectively mean positive and negative price changes (of any magnitude) and no changes. The values in the ‘Buying Broker’ and ‘Selling Broker’ columns, ‘=’ and ‘≠,’ represent whether the broker is the same or different from the previous transaction.</p>
							</fn>
							<fn id="TFN9">
								<p>Source: Research data.</p>
							</fn>
						</table-wrap-foot>
					</table-wrap>
				</p>
				<p>Having identified the scenarios in which TR misclassifies trade signs, we proceed to analyze the properties of BVC in the next section. </p>
			</sec>
			<sec>
				<title>4.5. Analysis of Bulk Volume Classification properties</title>
				<p>By using the normal distribution to compute the buy and sell percentage for each time interval, it is possible to compare them with the actual buy and sell percentages within the same interval. <xref ref-type="fig" rid="f5">Figure 5</xref> shows how the percentage of buying evolves with price variation compared to the percentage signaled by BVC. There were no major disparities between asset classes, so the values reported in <xref ref-type="fig" rid="f5">Figure 5</xref> represent the complete (total) analyzed sample.</p>
				<p>Evidence shows that one of the primary characteristics of BVC is corroborated; that is, when price does not vary, the percentage of buying and selling within the same interval is roughly 50% (51.88% of buying volume in the sample analyzed). In practice, this makes BVC perform satisfactorily for intervals that do not present price variation (about 22% of the intervals). </p>
				<p>However, as the price variation moves away from zero, the percentage signaled by BVC increases more rapidly than is found in practice. This characteristic derives from the distribution defined in the model design. Through the actual data, we can see that, on average, the percentage of buying stabilizes near an absolute price variation of about 0.05 currency units. Given the distribution chosen in the application of BVC, this stabilization does not occur within the first 0.1 currency unit of absolute change.</p>
				<p>This behavior explains why VPIN<sub>BVC</sub> has more frequent peaks than VPIN<sub>ACTUAL</sub> or VPIN<sub>TR</sub>. Since BVC assigns a higher percentage of buying or selling even for low price variations, it is natural that the volume imbalance presented by this model will be higher as well, leading to undetected peaks when relying on actual data to calculate VPIN.</p>
				<p>Moreover, as observed in the analysis of the TR properties, when the price varies, in about 88% of the cases the trade occurs in the direction of the variation; that is, the price increase indicates a buy, and the price decrease indicates a sell. This holds when the analysis is performed transaction by transaction, which led TR to achieve about 80% accuracy in the sample analyzed. In contrast, BVC groups transactions into intervals and uses the last price as a supply or demand indicator. This implies that all the information content present within the interval (captured by TR) is discarded when BVC is used. This also explains why intervals calculated with longer periods or a larger number of aggregate transactions have inferior performance since the last price contains scarce information about the variations occurring within the time interval.</p>
				<p>Finally, the performance of BVC in classifying buy and sell orders for assets traded on B3 may have been significantly inferior to that found in studies with data collected from more developed markets, due to the higher volatility of the Brazilian market. Sharp price variations are not properly captured by this method, which suggests the need to modify its calculation basis in addition to the calibration of its parameters. </p>
				<p>
					<fig id="f5">
						<label>Figure 5</label>
						<caption>
							<title>Actual and estimated buy percentage by BVC in relation to price variation</title>
						</caption>
						<graphic xlink:href="1808-2386-bbr-20-01-99-gf5.jpg"/>
						<attrib>Source: Research data.</attrib>
					</fig>
				</p>
			</sec>
		</sec>
		<sec sec-type="conclusions">
			<title>5. FINAL REMARKS</title>
			<p>This paper aimed to compare the performance of TR and BVC in classifying buy and sell orders for stocks listed on the B3 stock exchange. In general, TR outperformed BVC. Also, the VPIN results pointed to a significant difference in the probability estimates of insider trades from the buy and sell volumes calculated by BVC, which was confirmed by the low - and occasionally negative - correlation between VPIN<sub>ACTUAL</sub> and VPIN<sub>BVC</sub>.</p>
			<p>Despite the greater ease of applying BVC, due to its expanded access to databases and the smaller volume of data required, it showed significantly inferior performance in classifying transactions in the Brazilian stock market, which in turn explains the difference between VPIN<sub>ACTUAL</sub> and VPIN<sub>BVC</sub>. By analyzing the properties of BVC, we concluded that its underperformance stems from its mechanics of determining the buying and selling ratios. The standard normal distribution produces extreme values as the price variation increases. However, in the case of BVC, we empirically verified that the buying and selling parcels do not move away from equilibrium to the same extent as the value of Z. BVC performs best when there is no price variation at all between intervals. As the time intervals become longer, the distribution used by BVC does not follow the trend of the actual data.</p>
			<p>On the other hand, in the case of TR, the situations in which the algorithm initiates a sequence of misclassifications are primarily related to the presence of the buying and selling brokers in the trades and moments of high activity in the market, that is, trades with little or no time difference between them.</p>
			<p>We conclude that, due to the lower trading volume in Brazil, compared to those of more developed countries, and the higher volatility in stock prices, TR proved to be a more efficient method for classifying trades. The low activity for certain asset classes, compared to those listed in markets for which BVC was developed, may have contributed to its classification mechanics not being applicable with equivalent success in Brazil. Since tick-by-tick data are unavailable to many researchers, they must resort to aggregate data. The evidence documented here suggests that BVC should be used with caution, given that its performance varies greatly depending on the nature of the stock. Thus, researchers (or investors in the Brazilian market) should be aware of BVC problems when they have no access to tick-by-tick data. </p>
		</sec>
	</body>
	<back>
		<ref-list>
			<title>REFERENCES</title>
			<ref id="B1">
				<mixed-citation>Abad, D., &amp; Yagüe, J. (2012). From PIN to VPIN: An introduction to order flow toxicity. The Spanish Review of Financial Economics, 10(2), 74-83. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.srfe.2012.10.002">https://doi.org/10.1016/j.srfe.2012.10.002</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Abad</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Yagüe</surname>
							<given-names>J.</given-names>
						</name>
					</person-group>
					<year>2012</year>
					<article-title>From PIN to VPIN: An introduction to order flow toxicity</article-title>
					<source>The Spanish Review of Financial Economics,</source>
					<volume>10</volume>
					<issue>2</issue>
					<fpage>74</fpage>
					<lpage>83</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.srfe.2012.10.002">https://doi.org/10.1016/j.srfe.2012.10.002</ext-link>
				</element-citation>
			</ref>
			<ref id="B2">
				<mixed-citation>Aikten, M., &amp; Frino, A. (1996). The determinants of market bid ask spreads on the Australian stock exchange: cross-sectional analysis. Accounting &amp; Finance, 36(1), 51-63. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1111/j.1467-629X.1996.tb00298.x">https://doi.org/10.1111/j.1467-629X.1996.tb00298.x</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Aikten</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>Frino</surname>
							<given-names>A.</given-names>
						</name>
					</person-group>
					<year>1996</year>
					<article-title>The determinants of market bid ask spreads on the Australian stock exchange: cross-sectional analysis</article-title>
					<source>Accounting &amp; Finance</source>
					<volume>36</volume>
					<issue>1</issue>
					<fpage>51</fpage>
					<lpage>63</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1111/j.1467-629X.1996.tb00298.x">https://doi.org/10.1111/j.1467-629X.1996.tb00298.x</ext-link>
				</element-citation>
			</ref>
			<ref id="B3">
				<mixed-citation>Chakrabarty, B., Pascual, R., &amp; Shkilko, A. (2015). Evaluating trade classification algorithms: Bulk Volume Classification versus the Tick Rule and the Lee-Ready algorithm. Journal of Financial Markets, 25, 52-79. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.finmar.2015.06.001">https://doi.org/10.1016/j.finmar.2015.06.001</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Chakrabarty</surname>
							<given-names>B.</given-names>
						</name>
						<name>
							<surname>Pascual</surname>
							<given-names>R.</given-names>
						</name>
						<name>
							<surname>Shkilko</surname>
							<given-names>A.</given-names>
						</name>
					</person-group>
					<year>2015</year>
					<article-title>Evaluating trade classification algorithms: Bulk Volume Classification versus the Tick Rule and the Lee-Ready algorithm</article-title>
					<source>Journal of Financial Markets</source>
					<volume>25</volume>
					<fpage>52</fpage>
					<lpage>79</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.finmar.2015.06.001">https://doi.org/10.1016/j.finmar.2015.06.001</ext-link>
				</element-citation>
			</ref>
			<ref id="B4">
				<mixed-citation>Easley, D., Kiefer, N., O’Hara, M., &amp; Paperman, M. (1996) Liquidity, information, and infrequently traded stocks. The Journal of Finance, 51(4), 1405-1436. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1111/j.1540-6261.1996.tb04074.x">https://doi.org/10.1111/j.1540-6261.1996.tb04074.x</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Easley</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Kiefer</surname>
							<given-names>N.</given-names>
						</name>
						<name>
							<surname>O’Hara</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>Paperman</surname>
							<given-names>M.</given-names>
						</name>
					</person-group>
					<year>1996</year>
					<article-title>Liquidity, information, and infrequently traded stocks</article-title>
					<source>The Journal of Finance</source>
					<volume>51</volume>
					<issue>4</issue>
					<fpage>1405</fpage>
					<lpage>1436</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1111/j.1540-6261.1996.tb04074.x">https://doi.org/10.1111/j.1540-6261.1996.tb04074.x</ext-link>
				</element-citation>
			</ref>
			<ref id="B5">
				<mixed-citation>Easley, D., Lopéz de Prado, M., &amp; O’Hara, M. (2011). The microstructure of the “Flash Crash”: Flow toxicity, liquidity crashes, and the probability of informed trading. The Journal of Portfolio Management, 37(2), 118-128. <ext-link ext-link-type="uri" xlink:href="http://doi.org/10.3905/jpm.2011.37.2.118">http://doi.org/10.3905/jpm.2011.37.2.118</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Easley</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Lopéz de Prado</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>O’Hara</surname>
							<given-names>M</given-names>
						</name>
					</person-group>
					<year>2011</year>
					<article-title>The microstructure of the “Flash Crash”: Flow toxicity, liquidity crashes, and the probability of informed trading</article-title>
					<source>The Journal of Portfolio Management</source>
					<volume>37</volume>
					<issue>2</issue>
					<fpage>118</fpage>
					<lpage>128</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://doi.org/10.3905/jpm.2011.37.2.118">http://doi.org/10.3905/jpm.2011.37.2.118</ext-link>
				</element-citation>
			</ref>
			<ref id="B6">
				<mixed-citation>Easley, D., Lopéz de Prado, M., &amp; O’Hara, M. (2012a). Flow toxicity and liquidity in a high frequency world. Review of Financial Studies, 25(5), 1457-1493. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1093/rfs/hhs053">https://doi.org/10.1093/rfs/hhs053</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Easley</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Lopéz de Prado</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>O’Hara</surname>
							<given-names>M.</given-names>
						</name>
					</person-group>
					<year>2012</year>
					<article-title>Flow toxicity and liquidity in a high frequency world</article-title>
					<source>Review of Financial Studies</source>
					<volume>25</volume>
					<issue>5</issue>
					<fpage>1457</fpage>
					<lpage>1493</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1093/rfs/hhs053">https://doi.org/10.1093/rfs/hhs053</ext-link>
				</element-citation>
			</ref>
			<ref id="B7">
				<mixed-citation>Easley, D., Lopéz de Prado, M., &amp; O’Hara, M. (2012b). Bulk classification of trading activity. Johnson School Research Paper Series, (8), 1-40. <ext-link ext-link-type="uri" xlink:href="http://doi.org/10.2139/ssrn.1989555">http://doi.org/10.2139/ssrn.1989555</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Easley</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Lopéz de Prado</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>O’Hara</surname>
							<given-names>M.</given-names>
						</name>
					</person-group>
					<year>2012</year>
					<article-title>Bulk classification of trading activity</article-title>
					<source>Johnson School Research Paper Series</source>
					<issue>8</issue>
					<fpage>1</fpage>
					<lpage>40</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://doi.org/10.2139/ssrn.1989555">http://doi.org/10.2139/ssrn.1989555</ext-link>
				</element-citation>
			</ref>
			<ref id="B8">
				<mixed-citation>Easley, D., Lopéz de Prado, M., &amp; O’Hara, M. (2016). Discerning information from trade data. Journal of Financial Economics, 120(2), 269-286. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jfineco.2016.01.018">https://doi.org/10.1016/j.jfineco.2016.01.018</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>Easley</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Lopéz de Prado</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>O’Hara</surname>
							<given-names>M.</given-names>
						</name>
					</person-group>
					<year>2016</year>
					<source>Discerning information from trade data. Journal of Financial Economics</source>
					<volume>120</volume>
					<issue>2</issue>
					<fpage>269</fpage>
					<lpage>286</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jfineco.2016.01.018">https://doi.org/10.1016/j.jfineco.2016.01.018</ext-link>
				</element-citation>
			</ref>
			<ref id="B9">
				<mixed-citation>Ellis, K., Michaely, R., &amp; O’Hara, M. (2000). The accuracy of trade classification rules: evidence from NASDAQ. Journal of Finance and Quantitative Analysis, 35(4), 529-551. <ext-link ext-link-type="uri" xlink:href="http://doi.org/10.2307/2676254">http://doi.org/10.2307/2676254</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Ellis</surname>
							<given-names>K.</given-names>
						</name>
						<name>
							<surname>Michaely</surname>
							<given-names>R.</given-names>
						</name>
						<name>
							<surname>O’Hara</surname>
							<given-names>M</given-names>
						</name>
					</person-group>
					<year>2000</year>
					<article-title>The accuracy of trade classification rules: evidence from NASDAQ</article-title>
					<source>Journal of Finance and Quantitative Analysis</source>
					<volume>35</volume>
					<issue>4</issue>
					<fpage>529</fpage>
					<lpage>551</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://doi.org/10.2307/2676254">http://doi.org/10.2307/2676254</ext-link>
				</element-citation>
			</ref>
			<ref id="B10">
				<mixed-citation>Grammig, J., &amp; Theissen, E. (2002). Estimating the probability of informed trading: does trade misclassification matter? Bonn Econ Discussion Papers, 37, 1-21.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Grammig</surname>
							<given-names>J.</given-names>
						</name>
						<name>
							<surname>Theissen</surname>
							<given-names>E.</given-names>
						</name>
					</person-group>
					<year>2002</year>
					<article-title>Estimating the probability of informed trading: does trade misclassification matter?</article-title>
					<source>Bonn Econ Discussion Papers</source>
					<volume>37</volume>
					<fpage>1</fpage>
					<lpage>21</lpage>
				</element-citation>
			</ref>
			<ref id="B11">
				<mixed-citation>Hwang, L., Lee, W., Lim, S., &amp; Park, K. (2013). Does information risk affect the implied cost of equity capital? An analysis of PIN and adjusted PIN. Journal of Accounting and Economics, 55(1-2), 148-167. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jacceco.2013.01.005">https://doi.org/10.1016/j.jacceco.2013.01.005</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Hwang</surname>
							<given-names>L.</given-names>
						</name>
						<name>
							<surname>Lee</surname>
							<given-names>W.</given-names>
						</name>
						<name>
							<surname>Lim</surname>
							<given-names>S.</given-names>
						</name>
						<name>
							<surname>Park</surname>
							<given-names>K.</given-names>
						</name>
					</person-group>
					<year>2013</year>
					<article-title>Does information risk affect the implied cost of equity capital? An analysis of PIN and adjusted PIN</article-title>
					<source>Journal of Accounting and Economics</source>
					<volume>55</volume>
					<issue>1-2</issue>
					<fpage>148</fpage>
					<lpage>167</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jacceco.2013.01.005">https://doi.org/10.1016/j.jacceco.2013.01.005</ext-link>
				</element-citation>
			</ref>
			<ref id="B12">
				<mixed-citation>Mohanran, P., &amp; Rajgopal, S. (2009). Is PIN priced risk? Journal of Accounting and Economics, 47(3), 226-243. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jacceco.2008.10.001">https://doi.org/10.1016/j.jacceco.2008.10.001</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Mohanran</surname>
							<given-names>P.</given-names>
						</name>
						<name>
							<surname>Rajgopal</surname>
							<given-names>S.</given-names>
						</name>
					</person-group>
					<year>2009</year>
					<article-title>Is PIN priced risk?</article-title>
					<source>Accounting and Economics</source>
					<volume>47</volume>
					<issue>3</issue>
					<fpage>226</fpage>
					<lpage>243</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jacceco.2008.10.001">https://doi.org/10.1016/j.jacceco.2008.10.001</ext-link>
				</element-citation>
			</ref>
			<ref id="B13">
				<mixed-citation>Omrane, W., &amp; Welch, R. (2016). Tick test accuracy in foreign exchange ECN markets. Research in International Business and Finance, 37, 135-152. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.ribaf.2015.10.001">https://doi.org/10.1016/j.ribaf.2015.10.001</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Omrane</surname>
							<given-names>W.</given-names>
						</name>
						<name>
							<surname>Welch</surname>
							<given-names>R.</given-names>
						</name>
					</person-group>
					<year>2016</year>
					<article-title>Tick test accuracy in foreign exchange ECN markets</article-title>
					<source>Research in International Business and Finance</source>
					<volume>37</volume>
					<fpage>135</fpage>
					<lpage>152</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.ribaf.2015.10.001">https://doi.org/10.1016/j.ribaf.2015.10.001</ext-link>
				</element-citation>
			</ref>
			<ref id="B14">
				<mixed-citation>Panayides, M., Shohfi, T., &amp; Smith, J. (2019). Bulk volume classification and information detection. Journal of Banking and Finance, 103, 113-129. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jbankfin.2019.04.001">https://doi.org/10.1016/j.jbankfin.2019.04.001</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Panayides</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>Shohfi</surname>
							<given-names>T.</given-names>
						</name>
						<name>
							<surname>Smith</surname>
							<given-names>J.</given-names>
						</name>
					</person-group>
					<year>2019</year>
					<article-title>Bulk volume classification and information detection</article-title>
					<source>Journal of Banking and Finance,</source>
					<volume>103</volume>
					<fpage>113</fpage>
					<lpage>129</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jbankfin.2019.04.001">https://doi.org/10.1016/j.jbankfin.2019.04.001</ext-link>
				</element-citation>
			</ref>
			<ref id="B15">
				<mixed-citation>Wei, W., Gerace, D., &amp; Frino, A. (2013). Informed trading, flow toxicity and the impact on intraday trading factors. Australasian Accounting, Business and Finance Journal, 7(2), 3-24. <ext-link ext-link-type="uri" xlink:href="http://doi.org/10.14453/aabfj.v7i2.2">http://doi.org/10.14453/aabfj.v7i2.2</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Wei</surname>
							<given-names>W.</given-names>
						</name>
						<name>
							<surname>Gerace</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Frino</surname>
							<given-names>A.</given-names>
						</name>
					</person-group>
					<year>2013</year>
					<article-title>Informed trading, flow toxicity and the impact on intraday trading factors</article-title>
					<source>Australasian Accounting, Business and Finance Journal</source>
					<volume>7</volume>
					<issue>2</issue>
					<fpage>3</fpage>
					<lpage>24</lpage>
					<ext-link ext-link-type="uri" xlink:href="http://doi.org/10.14453/aabfj.v7i2.2">http://doi.org/10.14453/aabfj.v7i2.2</ext-link>
				</element-citation>
			</ref>
			<ref id="B16">
				<mixed-citation>Wu, K., Bethel, W., Gu, M., Leiweber, D., &amp; Rübel, O. (2013). A big data approach to analyzing market volatility. Algorithmic Finance, 2(3-4), 241-267. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.2139/ssrn.2274991">https://doi.org/10.2139/ssrn.2274991</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Wu</surname>
							<given-names>K.</given-names>
						</name>
						<name>
							<surname>Bethel</surname>
							<given-names>W.</given-names>
						</name>
						<name>
							<surname>Gu</surname>
							<given-names>M.</given-names>
						</name>
						<name>
							<surname>Leiweber</surname>
							<given-names>D.</given-names>
						</name>
						<name>
							<surname>Rübel</surname>
							<given-names>O.</given-names>
						</name>
					</person-group>
					<year>2013</year>
					<article-title>A big data approach to analyzing market volatility</article-title>
					<source>Algorithmic Finance</source>
					<volume>2</volume>
					<issue>3-4</issue>
					<fpage>241</fpage>
					<lpage>267</lpage>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.2139/ssrn.2274991">https://doi.org/10.2139/ssrn.2274991</ext-link>
				</element-citation>
			</ref>
		</ref-list>
	</back>
	<!--<sub-article article-type="translation" id="s1" xml:lang="pt">
		<front-stub>
            <article-id pub-id-type="doi">10.15728/bbr.2023.20.1.6.pt</article-id>
			<article-categories>
				<subj-group subj-group-type="heading">
					<subject>Artigo</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Análise dos algoritmos Tick Rule e Bulk Volume Classification no mercado acionário brasileiro</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0000-0002-7485-8590</contrib-id>
					<name>
						<surname>Siqueira</surname>
						<given-names>Leonardo Souza</given-names>
					</name>
					<xref ref-type="aff" rid="aff10"><sup>1</sup></xref>
                    <role content-type="http://credit.niso.org/contributor-roles/conceptualization/">conceitualização</role>
                    <role content-type="http://credit.niso.org/contributor-roles/formal-analysis/">análise de dados</role>
                    <role content-type="http://credit.niso.org/contributor-roles/investigation/">pesquisa</role>
                    <role content-type="http://credit.niso.org/contributor-roles/methodology/">metodologia</role>
                    <role content-type="http://credit.niso.org/contributor-roles/writing–original-draft/">redação do manuscrito original</role>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0000-0002-0977-9298</contrib-id>
					<name>
						<surname>Correia</surname>
						<given-names>Laíse Ferraz</given-names>
					</name>
					<xref ref-type="aff" rid="aff20"><sup>2</sup></xref>
                     <role content-type="http://credit.niso.org/contributor-roles/conceptualization/">conceitualização</role>
                    <role content-type="http://credit.niso.org/contributor-roles/supervision/">supervisão</role>
                    <role content-type="http://credit.niso.org/contributor-roles/methodology/">metodologia</role>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0000-0001-8455-0285</contrib-id>
					<name>
						<surname>Amaral</surname>
						<given-names>Hudson Fernandes</given-names>
					</name>
					<xref ref-type="aff" rid="aff30"><sup>3</sup></xref>
                    <role content-type="http://credit.niso.org/contributor-roles/supervision/">supervisão</role>
                    <role content-type="http://credit.niso.org/contributor-roles/funding-acquisition/">recebimento de financiamento</role>
				</contrib>
			</contrib-group>
			<aff id="aff10">
				<label>1</label>
				<institution content-type="original">Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil</institution>
				<institution content-type="orgname">Universidade Federal de Minas Gerais</institution>
				<addr-line>
					<city>Belo Horizonte</city>
					<state>MG</state>
				</addr-line>
				<country country="BR">Brazil</country>
			</aff>
			<aff id="aff20">
				<label>2</label>
				<institution content-type="original">Centro Federal de Educação Tecnológica de Minas Gerais - Programa de Pós-graduação em Administração, Belo Horizonte, Minas Gerais, Brazil</institution>
				<institution content-type="orgname">Centro Federal de Educação Tecnológica de Minas Gerais</institution>
				<institution content-type="orgdiv1">Programa de Pós-graduação em Administração</institution>
				<addr-line>
					<city>Belo Horizonte</city>
					<state>Minas Gerais</state>
				</addr-line>
				<country country="BR">Brazil</country>
			</aff>
			<aff id="aff30">
				<label>3</label>
				<institution content-type="original">Centro Universitário Unihorizontes, Belo Horizonte, Minas Gerais, Brazil</institution>
				<institution content-type="orgname">Centro Universitário Unihorizontes</institution>
				<addr-line>
					<city>Belo Horizonte</city>
					<state>Minas Gerais</state>
				</addr-line>
				<country country="BR">Brazil</country>
			</aff>
			<author-notes>
				<corresp id="c10">
					<email>leonardosiq91@gmail.com</email>
				</corresp>
				<corresp id="c20">
					<email>laise@cefetmg.br</email>
				</corresp>
				<corresp id="c30">
					<email>hfamaral.cepead@gmail.com</email>
				</corresp>
				<fn fn-type="con" id="fn3">
					<label>CONTRIBUIÇÕES DE AUTORIA</label>
					<p><bold>LSS:</bold> conceptualização da pesquisa; análise formal; investigação, metodologia; desenvolvimento do código e escrita. <bold>LFC:</bold> conceptualização da pesquisa; supervisão; metodologia. <bold>HFA:</bold> supervisão; financiamento.</p>
				</fn>
				<fn fn-type="conflict" id="fn4">
					<label>CONFLITO DE INTERESSE</label>
					<p> Os autores declaram que não há conflito de interesse na produção deste artigo e que não há relação de nenhum autor, direta, ou indiretamente através das instituições promotoras da pesquisa, com empresas que eventualmente possam se beneficiar dos resultados do estudo.</p>
				</fn>
			</author-notes>
			<abstract>
				<title>RESUMO</title>
				<p>O objetivo deste artigo foi comparar o desempenho dos algoritmos Tick Rule (TR) e Bulk Volume Classification (BVC) na classificação de transações de ações negociadas na B3 e, assim, indicar o melhor método como ferramenta de auxílio às decisões de investimento. Os ativos foram separados em três grupos conforme o volume transacionado. Os dados reais foram utilizados para verificar a acurácia dos algoritmos, sendo as informações de 2018 utilizadas para estimar os melhores parâmetros do BVC, e as de 2019, para testar a sua eficiência. Posteriormente, foi calculado o Volume-Synchronized Probability of Informed Trading (VPIN) para cada ação utilizando o TR e o BVC. Esses valores foram comparados com o VPIN apurado com os dados reais. Observou-se que o TR apresenta melhor performance em relação ao BVC para todos os três grupos de ações. As análises das propriedades dos métodos revelaram que a base na qual o TR está calcado se sustenta no mercado brasileiro, enquanto a mecânica do BVC não reflete a realidade.</p>
			</abstract>
			<kwd-group xml:lang="pt">
				<title>Palavras-chave: </title>
				<kwd>Tick Rule</kwd>
				<kwd>Bulk Volume Classification</kwd>
				<kwd>VPIN</kwd>
				<kwd>Microestrutura de mercado</kwd>
			</kwd-group>
		</front-stub>
		<body>
			<sec sec-type="intro">
				<title>1. INTRODUÇÃO</title>
				<p>Na perspectiva tradicional de precificação de ativos, a oferta e a demanda de títulos nos mercados financeiros se igualam, definindo os preços de equilíbrio. Diferentemente, na literatura de microestrutura de mercado, argumenta-se que o processo de formação de preços é mais complexo, uma vez que os atores financeiros não têm o mesmo acesso às informações e não entram simultaneamente no mercado. Assim, pressupostos fundamentais dos modelos tradicionais de precificação, como ausência de custos de transação e informações simétricas, são flexibilizadas de maneira a entender melhor a dinâmica dos preços na perspectiva de microestrutura de mercado. O conteúdo informacional carregado pelos preços dos títulos é, por conseguinte, uma das suas vertentes de estudo. </p>
				<p>Em vista do aumento da quantidade de ações negociadas nos mercados de alta frequência e ao simultâneo crescimento na disponibilização de dados tick-by-tick pelas plataformas de informações financeiras, a realização de pesquisas sobre a microestrutura dos mercados tem gradativamente se tornado mais viável. De forma a estudar os efeitos da microestrutura no processo de formação do preço, como o da assimetria informacional, são necessárias informações sobre as transações, entre elas o lado que iniciou a negociação.</p>
				<p>Como descrevem <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>), as transações em um mercado financeiro compreendem duas posições: (i) compradora; e (ii) vendedora. A posição que iniciou a negociação do ativo pode indicar assimetria de informações entre os participantes da transação. E a desproporção entre os volumes de negociação das posições de compra e venda pode indicar toxicidade no fluxo de ordens. Porém, determinar a posição que iniciou uma transação não é simples, sobretudo em mercados de alta frequência, cujas informações raramente estão disponíveis. Frente a esse problema, surgiram diversos algoritmos de classificação de transações, entre eles, o Tick Rule (TR), Quote Rule (QR), Lee-Ready (L-R) e Bulk Volume Classification (BVC), que permitem determinar a posição iniciadora da transação a partir de informações de bancos de dados tradicionais.</p>
				<p>O objetivo deste artigo foi comparar o desempenho dos métodos TR e BVC na classificação de ordens de compra e venda de títulos no mercado acionário brasileiro. A escolha por testar a acurácia desses métodos deveu-se ao fato de utilizarem, respectivamente, dados tick-by-tick e dados comprimidos em intervalos de tempo ou volume. Considerando-se o tipo de mercado (na B3 as negociações são realizadas a partir de ordens enviadas por meio dos sistemas das corretoras - order-driven market), a assimetria informacional e a volatilidade dos retornos mais elevadas e o volume de negociação mais reduzido da B3 - característicos de mercados emergentes -, espera-se que informações privadas tendam a chegar ao mercado sequencialmente, em vez de em bulks de volume. Com isso, o risco tende a diminuir após uma sequência de ordens de investidores com mais informações (informed), alterando o preço negativamente. Nesse caso, algoritmos desenvolvidos para mercados de alta frequência (BVC) podem não ter a mesma acurácia que os tradicionais (TR) na classificação das ordens nesses mercados. Assim, é importante testar qual algoritmo de classificação distingue melhor a negociação informada em um determinado mercado e, assim, indicar o melhor como ferramenta de auxílio às decisões de investimento. </p>
				<p>De maneira a verificar a acurácia do BVC, as ações foram divididas em três grupos, segundo seu volume transacionado. Essa abordagem está em linha com outras pesquisas empíricas (<xref ref-type="bibr" rid="B7">Easley et al., 2012b</xref>; <xref ref-type="bibr" rid="B14">Panayides et al., 2019</xref>) que mostram que, dependendo do volume de negociações, esse algoritmo apresenta performances diferentes. Além disso, foram empregadas as negociações de 2018 para estimar os parâmetros de maior acurácia desse algoritmo para cada grupo de ações. Para averiguar se sua performance se mantinha próxima à observada para o ano de 2018, esses parâmetros foram testados utilizando-se as negociações de 2019. </p>
				<p>Em seguida, para analisar o impacto do método de classificação de transações de ações no Brasil, foi utilizado o VPIN de <xref ref-type="bibr" rid="B5">Easley et al. (2011</xref>), o qual mensura a probabilidade de negociações privilegiadas para uma dada ação. A escolha pelo VPIN deveu-se à necessidade das informações de volume de compra e venda para o seu cálculo. A partir dos dados reais, foi possível comparar os resultados de VPIN estimado pelo TR e pelo BVC e, assim, tirar conclusões acerca de suas eficiências.</p>
				<p>Diferentemente de <xref ref-type="bibr" rid="B7">Easley et al. (2012</xref>b), mas em consonância com outras evidências empíricas sobre a performance do BVC (<xref ref-type="bibr" rid="B3">Chakrabarty et al., 2015</xref>; <xref ref-type="bibr" rid="B13">Omrane &amp; Welch, 2016</xref>; <xref ref-type="bibr" rid="B14">Panayides et al., 2019</xref>), neste estudo o BVC apresentou desempenho significativamente inferior ao TR, produzindo estimativas para o VPIN fracamente correlacionadas com o VPIN calculado com os dados reais.</p>
				<p>A dificuldade de classificar o lado que inicia as transações levou diversos autores a proporem soluções baseadas em dados disponíveis, sejam tick-by-tick ou comprimidos. Algoritmos tick-by-tick necessitam da menor granularidade possível - ou seja, transação a transação. Esse aspecto impõe dois desafios aos pesquisadores: (i) acesso aos dados; e (ii) capacidade computacional de tratamento dos dados. A maior parte dos distribuidores de dados os fornecem na forma comprimida, em intervalos de tempo (1 minuto, 5 minutos, 15 minutos; e assim por diante). Por um lado, abordagens que utilizam dados comprimidos são mais acessíveis para a maioria dos pesquisadores - para os dados do presente artigo, ao comprimi-los em intervalos de tempo de 5 minutos, o volume foi reduzido a 12% do seu tamanho original, tornando a sua manipulação mais factível e computacionalmente menos intensa. Por outro, o uso de dados comprimidos tem a desvantagem da perda das informações intrínsecas ao período analisado, uma vez que resume milhares de transações a uma única medida - média, mediana etc. </p>
				<p>Dessa forma, este artigo contribui especialmente para aqueles pesquisadores que não possuem acesso a dados reais, na medida em que se torna necessário levar em consideração os vieses da utilização de dados agregados na classificação de transações, por exemplo o volume transacionado das ações e os parâmetros do algoritmo, fatores decisivos na classificação correta do volume de compra e venda dos ativos. Na seção seguinte, serão apresentados os algoritmos de classificação TR e BVC e suas respectivas aplicações empíricas. Posteriormente, serão apresentadas a base teórica e a forma de cálculo do VPIN.</p>
			</sec>
			<sec>
				<title>2. REVISÃO DA LITERATURA</title>
				<sec>
					<title>2.1. Algoritmos de classificação de transações</title>
				</sec>
				<sec>
					<title><italic>2.1.1. Tick Rule</italic></title>
					<p>O algoritmo TR utiliza o preço das transações para classificá-las. Quando o preço da operação corrente é maior (menor) do que o preço da operação precedente, ela é classificada como compra (venda). Quando o preço não se altera, repete-se a classificação dada à operação antecedente. <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) consideram esse método de classificação vulnerável (suscetível a erros), principalmente em mercados de alta frequência. Para o mercado norte-americano, esses autores reportam uma precisão de 86% do TR ao classificar as transações ocorridas entre os meses de novembro de 2010 e 2011. <xref ref-type="bibr" rid="B9">Ellis et al. (2000</xref>), por sua vez, documentam uma precisão de 81% do TR na classificação das transações na NASDAQ. Para o mercado australiano, a precisão do TR foi de 75% (<xref ref-type="bibr" rid="B2">Aikten &amp; Frinos, 1996</xref>). </p>
					<p>Por outro lado, <xref ref-type="bibr" rid="B3">Chakrabarty et al. (2015</xref>) mostram que o desempenho do TR no mercado norte-americano é decrescente ao longo do tempo. <xref ref-type="bibr" rid="B13">Omrane e Welch (2016</xref>) constatam que o TR classificou corretamente somente 67% das transações da amostra analisada, corroborando, assim, os resultados de Chakrabarty et al. (<xref ref-type="bibr" rid="B3">2015</xref>) de eficácia decrescente do TR - possivelmente por ser um mercado de alta frequência, para o qual as classificações de dados tick-by-tick são mais difíceis. Similarmente, <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) encontram evidências de redução da precisão do TR para duas amostras de ações, cujas variações foram: (i) de 79% a 92% entre 2007 e 2008; e (ii) de 39% a 65% em 2017.</p>
					<p><italic>2.1.4 Bulk Volume Classification</italic></p>
					<p>Devido aos problemas do TR para classificar corretamente transações em mercados com altas frequências de negociação, <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) desenvolveram o modelo BVC, que se propõe a reduzir os efeitos do desdobramento de ordens de compra e venda (order splitting). O BVC utiliza a variação padronizada do preço para classificar os volumes de negociação probabilisticamente. A sua mecânica consiste em agrupar as transações por intervalos de tempo ou de volume, os quais são determinados arbitrariamente ou limitados conforme a estrutura do banco de dados. Após esse agrupamento, as proporções do volume de transações que se iniciaram pelo lado comprador e pelo vendedor são obtidas por meio das equações (1) e (2):</p>
                    <p>
	<disp-formula id="e10">
    <mml:math id="m10" display="block">           
<mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>∙</mml:mo><mml:mi>Z</mml:mi><mml:mfenced separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>σ</mml:mi></mml:mrow><mml:mrow><mml:mo>∆</mml:mo><mml:mi>P</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:math>
     <label>(1)</label> 
    </disp-formula>
</p>
                    <p>
	<disp-formula id="e20">
    <mml:math id="m20" display="block">           
<mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>∙</mml:mo><mml:mfenced open="[" close="]" separators="|"><mml:mrow><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>Z</mml:mi><mml:mfenced separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>σ</mml:mi></mml:mrow><mml:mrow><mml:mo>∆</mml:mo><mml:mi>P</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:mrow></mml:mfenced><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup></mml:math>
     <label>(2)</label> 
    </disp-formula>
</p>
					<p>Em que: V<sub>τ</sub> é o volume total do intervalo τ;  <inline-formula><mml:math>
  <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> e <inline-formula><mml:math>
 <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> são, respectivamente, os volumes de compra e venda para o intervalo τ; Z é a função de distribuição normal padrão acumulada; e σ<sub>
 <italic>ΔP</italic>
</sub> é o desvio-padrão estimado da variação de preços entre os intervalos. </p>
					<p>Quando não há variações de preço entre o início e o fim do intervalo, o BVC divide o seu volume igualmente em compra e venda (<xref ref-type="bibr" rid="B6">Easley et al., 2012a</xref>). Quando o preço aumenta (diminui), maior proporção do volume é classificada como iniciada pelo lado comprador (vendedor) da operação. A proporção de volume classificada como compra ou venda cresce à medida que a variação de preço aumenta.</p>
					<p>No método BVC, considera-se que a variação de preços seja independente e identicamente distribuída (i.i.d), com média zero e variância constante (σ<sub>
 <italic>ΔP</italic>
</sub> ). <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) consideram que o ideal seria obter a verdadeira função de distribuição acumulada da variação de preços. Todavia, entre outros problemas, esse procedimento diminuiria a precisão na classificação das transações e impossibilitaria a generalização do BVC. Dessa forma, supor a normalidade das variações de preço dos títulos é o mais adequado na estimação dos volumes de compra e venda. Segundo esses autores, o bom desempenho do BVC em classificar transações de ações com elevado volume de negociação se deve ao procedimento de aproximação normal. Para ativos pouco líquidos, consideram que os métodos tick-by-tick sejam os mais adequados. Os resultados revelam que o BVC classifica corretamente (i) 86,61% das transações dos contratos futuros do e-mini S&amp;P500, quando utilizados intervalos de 1 minuto, e (ii) 87,35%, quando utilizados intervalos de 5 minutos; enquanto a precisão do TR se mantém em 86,43% em ambos esses intervalos.</p>
					<p>
						<xref ref-type="bibr" rid="B3">Chakrabarty et al. (2015</xref>) comparam as eficácias dos algoritmos L-R, TR e BVC na classificação das transações nos mercados à vista. Analisando dados reais de 1.471 ações. os autores encontram que as precisões do TR e do L-R são superiores à do BVC. O TR e o L-R classificam de forma correta, respectivamente, 90,8% e 92,6% das transações, ao passo que a melhor precisão do BVC é de aproximadamente 80%, quando se utilizam intervalos de 1 minuto. <xref ref-type="bibr" rid="B13">Omrane e Welch (2016</xref>) corroboram esses resultados: tanto o TR quanto o QR apresentam resultados melhores do que o BVC para o mercado de moedas estrangeiras.</p>
					<p>Após as críticas ao BVC, <xref ref-type="bibr" rid="B8">Easley et al. (2016</xref>) argumentam que, nas pesquisas sobre assimetria informacional, o mais adequado seria obter a informação subjacente às transações, que depende de proxies por não ser observável. Para comparar a precisão do TR e BVC, eles se utilizam de três proxies para a informação subjacente às transações e encontram que o BVC tem um melhor desempenho para duas delas. Concluem, assim, que o BVC permite distinguir as intenções inerentes às transações.</p>
					<p>
						<xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) corroboram essas evidências empíricas. Eles argumentam que, quando o BVC é calibrado para determinado mercado - com o intervalo de tempo ou volume correto - ele é capaz de transmitir com maior precisão o conteúdo informacional presente nas transações analisadas.</p>
				</sec>
				<sec>
					<title>2.2. Cálculo do VPIN</title>
					<p>
						<xref ref-type="bibr" rid="B4">Easley et al. (1996</xref>) propuseram a Probability of Informed Trading (PIN) como uma forma de quantificar a probabilidade de ocorrência de transações iniciadas por agentes com informações privilegiadas. O método se baseia na disparidade da quantidade de compras e vendas ocorridas para uma ação em dias independentes. </p>
					<p>Para resolver o problema de não convergência da função de máxima verossimilhança da Probability of Informed Trading (PIN) para dias em que o número de ordens é alto, <xref ref-type="bibr" rid="B6">Easley et al. (2012a</xref>) desenvolveram o Volume-Synchronized Probability of Informed Trading (VPIN), o qual permite quantificar diretamente o nível de toxicidade das ordens sem a necessidade de estimação de parâmetros por máxima verossimilhança. </p>
					<p>A ideia do VPIN consiste na separação das informações de volume, em um dia, em conjuntos iguais (volume buckets), tratando cada um equivalente a um período de chegada de informação. O desequilíbrio de transações é estimado pela média sobre n conjuntos de volume (volume buckets). Assim, o VPIN é obtido pela equação (3)</p>
                    <p>
	<disp-formula id="e30">
    <mml:math id="m30" display="block">           
<mml:mi>V</mml:mi><mml:mi>P</mml:mi><mml:mi>I</mml:mi><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mrow><mml:msubsup><mml:mo stretchy="false">∑</mml:mo><mml:mrow><mml:mi>τ</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msubsup><mml:mrow><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup><mml:mo>-</mml:mo><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup><mml:mo>∨</mml:mo></mml:mrow></mml:mrow></mml:mrow><mml:mrow><mml:mi>n</mml:mi><mml:mi>V</mml:mi></mml:mrow></mml:mfrac></mml:math>
     <label>(3)</label> 
    </disp-formula>
</p>
                    <p>Em que: <inline-formula><mml:math>
 <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> e <inline-formula><mml:math>
 <mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>τ</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msubsup></mml:math>
</inline-formula> representam, respectivamente, os volumes de compra e venda em um conjunto de volume t (buckets). Seguindo o cálculo padrão na literatura, utilizou-se um n igual a 50, indicando que as transações são agrupadas em 50 conjuntos iguais em volume transacional por dia. Com base nessa agregação, o VPIN é estimado diretamente através da equação (3), ou seja: (i) calcula-se o desbalanceamento absoluto entre as ordens de compra e venda; e (ii) divide-se esse valor pela quantidade de transações observadas para cada conjunto de volumes transacionais.</p>
					<p>Por representar uma extensão da PIN, proxy bastante testada, o VPIN também vem sendo explorado nos estudos em microestrutura, tendo obtido sucesso na previsão de eventos relevantes como o Flash Crash (<xref ref-type="bibr" rid="B16">Wu et al., 2013</xref>). <xref ref-type="bibr" rid="B1">Abad e Yagüe (2012</xref>) destacam que a toxicidade do fluxo de ordens mensurada pelo VPIN está diretamente associada ao problema de seleção adversa ao qual os market makers estão suscetíveis. O desbalanceamento das ordens de compra e venda, em um período curto, está relacionado às informações subjacentes ao VPIN.</p>
				</sec>
			</sec>
			<sec sec-type="methods">
				<title>3. METODOLOGIA</title>
				<sec>
					<title>3.1. População e amostra</title>
					<p>A população estudada nesta pesquisa foi formada pelas ações negociadas na B3 entre 02 de janeiro de 2018 e 28 de junho de 2019. Os dados de 2018 foram utilizados para avaliar o conjunto de parâmetros que produz a melhor performance do BVC e os de 2019, para validar esses parâmetros e comparar as performances do BVC com as do TR. No total, foram analisados os ativos negociados todos os dias no período observado: 181 ações. Foi definido o critério de selecionar apenas os ativos com negociação em todos os dias para que a construção dos intervalos de tempo ou volume do BVC não fossem afetados por fatores externos relativos a períodos distantes entre as transações.</p>
					<p>A próxima segmentação refere-se ao volume de ações negociadas para cada ativo. Como esse é o insumo utilizado pelos algoritmos, cada ativo foi alocado a uma classe relacionada ao seu volume médio transacionado em 2018. Diferentemente de <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>), que segmentaram os ativos em três classes com quantidade semelhantes em cada, no presente artigo, optou-se por utilizar o algoritmo de fisher-jenks para separar os ativos em três classes: pequeno, médio e grande volume. Esse algoritmo foi escolhido porque ele permite definir os pontos de corte e isolar os ativos dentro de suas respectivas classes, diminuindo a variância entre os ativos de mesma classe, e aumentar a variância em relação aos ativos das demais classes. A quantidade de ativos e o volume médio negociado em 2018 para cada classe são exibidos na <xref ref-type="table" rid="t10">Tabela 1</xref>.</p>
					<p>
						<table-wrap id="t10">
							<label>Tabela 1</label>
							<caption>
								<title>Número de ativos e volume médio por classe</title>
							</caption>
							<table frame="hsides" rules="groups">
								<colgroup>
									<col/>
									<col/>
									<col/>
								</colgroup>
								<thead>
									<tr>
										<th align="center">Classe</th>
										<th align="center">Volume médio</th>
										<th align="center">Número de ativos</th>
									</tr>
								</thead>
								<tbody>
									<tr>
										<td align="center">Pequeno</td>
										<td align="center">287.688</td>
										<td align="center">99</td>
									</tr>
									<tr>
										<td align="center">Médio</td>
										<td align="center">1.287.740</td>
										<td align="center">39</td>
									</tr>
									<tr>
										<td align="center">Grande</td>
										<td align="center">7.109.882</td>
										<td align="center">43</td>
									</tr>
								</tbody>
							</table>
							<table-wrap-foot>
								<fn id="TFN10">
									<p>Fonte: dados da pesquisa.</p>
								</fn>
							</table-wrap-foot>
						</table-wrap>
					</p>
					<p>A média do volume transacionado para as ações pequenas se aproxima do reportado por <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) no mercado europeu, porém as de médio e grande porte são 44% e 30% menores do que o reportado por esses autores, indicando assim uma primeira diferença entre a atividade do mercado acionário brasileiro e a de países mais desenvolvidos. </p>
				</sec>
				<sec>
					<title>3.2. Coleta de dados</title>
					<p>Uma das limitações principais ao se aplicar a PIN e o VPIN é a possibilidade de classificação incorreta das ordens de compra e venda. De forma a contribuir com a análise do desempenho dos algoritmos de classificação, esta pesquisa utilizou dados reais transacionados no mercado brasileiro como base de comparação com os resultados gerados pelos algoritmos TR e BVC. Os dados foram coletados no diretório market data da B3, que contém as informações sobre as ordens emitidas de todas as ações transacionadas na B3 nos últimos dois anos, além de horário, preço, quantidade e lado que iniciou a transação.</p>
					<p>O volume total de dados utilizados neste artigo foi de cerca de 150 milhões de linhas, em que cada linha representa uma ordem de compra ou venda executada no período referido, com média de 2,6 milhões de ações transacionadas por dia. Em comparação, a amostra utilizada por <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>) contém uma média de 4 milhões de ações transacionadas diariamente.</p>
					<p>Finalmente, para a aplicação do BVC, foram feitas diversas agregações, chegando a reduzir o volume em cerca de 88% quando utilizado um intervalo de 5 minutos, demonstrando uma vantagem em se utilizar dados agregados.</p>
				</sec>
			</sec>
			<sec sec-type="results">
				<title>4. ANÁLISE DOS RESULTADOS</title>
				<p>Nesta seção, discutem-se resultados para a taxa de precisão dos algoritmos TR e BVC. Comparam-se os valores do VPIN<sub>REAL</sub> - calculado com a quantidade real de compra e venda - e os de VPIN<sub>TR</sub> e VPIN<sub>BVC</sub> - calculados, respectivamente, com os volumes estimados pelo TR e pelo BVC. Finalmente, analisam-se as propriedades dos métodos TR e BVC, de maneira a evidenciar em que momentos esses algoritmos classificam erroneamente as transações.</p>
				<sec>
					<title>4.1. Calibração dos parâmetros do BVC</title>
					<p>É importante calibrar os parâmetros do BVC - para, subsequentemente, comparar a performance dos algoritmos TR e BVC. Seguindo <xref ref-type="bibr" rid="B14">Panayides et al. (2019</xref>), e considerando a ponderação de <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) de que as performances do BVC são diferentes para títulos de diferentes volumes de transações, foram testados diversos parâmetros no ano de 2018 para definir o melhor conjunto para cada classe de ativos. Além disso, os parâmetros foram testados com os dados de 2019, de forma a verificar se a performance anterior se mantinha e, assim, atestasse a possibilidade de aplicação do BVC em dados futuros.</p>
					<p>A fim de selecionar o melhor conjunto de parâmetros para cada ativo, a acurácia do BVC foi calculada mediante a equação (4).</p>
                    <p>
	<disp-formula id="e40">
    <mml:math id="m40" display="block">           
<mml:mi>A</mml:mi><mml:mi>R</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mfenced open="" close="" separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:mfenced open="|" close="|" separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mi>m</mml:mi><mml:mi>a</mml:mi><mml:mi>x</mml:mi><mml:mo>⁡</mml:mo><mml:mfenced separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced><mml:mo>+</mml:mo><mml:mfenced open="|" close="|" separators="|"><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mi>m</mml:mi><mml:mi>a</mml:mi><mml:mi>x</mml:mi><mml:mo>⁡</mml:mo><mml:mfenced separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac></mml:mrow></mml:mfenced></mml:math>
     <label>(4)</label> 
    </disp-formula>
</p>
					<p>Em que: V<sub>
 <italic>B</italic>
</sub> e V<sub>
 <italic>S</italic>
</sub> representam os volumes reais de compra e venda; e <inline-formula><mml:math>
 <mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>B</mml:mi></mml:mrow></mml:msub></mml:math>
</inline-formula> e <inline-formula><mml:math>
 <mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mi> </mml:mi></mml:math>
</inline-formula> representam, respectivamente, os volumes de compra e venda estimados pelo BVC. Para cada ativo, foi selecionada a maior acurácia. A <xref ref-type="table" rid="t20">Tabela 2</xref> apresenta os percentuais de representatividade de cada parâmetro dentro das três classes analisadas.</p>
					<p>
						<table-wrap id="t20">
							<label>Tabela 2</label>
							<caption>
								<title>Percentual de representatividade dos parâmetros utilizados na calibração do BVC</title>
							</caption>
							<table frame="hsides" rules="groups">
								<colgroup>
									<col/>
									<col/>
									<col span="3"/>
								</colgroup>
								<thead>
									<tr>
										<th align="center"> </th>
										<th align="center"> </th>
										<th align="center" colspan="3">Classe de ativos </th>
									</tr>
									<tr>
										<th align="center">Agrupamento</th>
										<th align="center">Parâmetro</th>
										<th align="center">Pequeno</th>
										<th align="center">Médio</th>
										<th align="center">Grande</th>
									</tr>
								</thead>
								<tbody>
									<tr>
										<td align="center">Tempo</td>
										<td align="center">1 minuto</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Tempo</td>
										<td align="center">2 minutos</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Tempo</td>
										<td align="center">3 minutos</td>
										<td align="center">1,01%</td>
										<td align="center">0,00%</td>
										<td align="center">11,63%</td>
									</tr>
									<tr>
										<td align="center"><bold>Tempo</bold></td>
										<td align="center"><bold>5 minutos</bold></td>
										<td align="center"><bold>20,20%</bold></td>
										<td align="center"><bold>66,67%</bold></td>
										<td align="center"><bold>60,47%</bold></td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">1.000</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">5.000</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">10.000</td>
										<td align="center">6,06%</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">25.000</td>
										<td align="center">3,03%</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">50.000</td>
										<td align="center">9,09%</td>
										<td align="center">2,56%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">75.000</td>
										<td align="center">13,13%</td>
										<td align="center">2,56%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">100.000</td>
										<td align="center">12,12%</td>
										<td align="center">0,00%</td>
										<td align="center">0,00%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">200.000</td>
										<td align="center">17,17%</td>
										<td align="center">12,82%</td>
										<td align="center">4,65%</td>
									</tr>
									<tr>
										<td align="center">Volume</td>
										<td align="center">500.000</td>
										<td align="center">18,18%</td>
										<td align="center">15,38%</td>
										<td align="center">23,26%</td>
									</tr>
								</tbody>
							</table>
							<table-wrap-foot>
								<fn id="TFN11">
									<p>Fonte: dados da pesquisa.</p>
								</fn>
							</table-wrap-foot>
						</table-wrap>
					</p>
					<p>O BVC apresentou, para as três classes, uma maior acurácia quando utilizado intervalo de 5 minutos. É interessante destacar que, em linha com estudos anteriores (<xref ref-type="bibr" rid="B7">Easley et al., 2012b</xref>), os ativos de menor volume transacionado apresentaram menor consistência em termos de parâmetros gerais, já que os ativos ficaram quase que uniformemente divididos entre os intervalos de tempo de 5 minutos e os intervalos de volume de 75, 100, 200 e 500 mil ações.</p>
					<p>Essa primeira evidência levanta uma incerteza em relação à aplicabilidade do BVC como algoritmo de previsão, tendo em vista que, entre os ativos com menor volume transacionado, os parâmetros não apresentam consistência - foram testadas outras formas de clusterização dos ativos e, entre os 80 menores ativos, os parâmetros não se estabilizaram, e isso sugere que esse fenômeno persiste mesmo quando a forma de separação das ações utilizada é o volume transacionado (prática comum na literatura).</p>
					<p>Outra característica importante em algoritmos de previsão é a aplicabilidade dos parâmetros em períodos de tempos distintos. Os percentuais de ações em que o parâmetro de maior acurácia se manteve nos anos de 2018 e 2019 diferiu entre os grupos analisados: (i) entre as ações de volume alto (grande), foi de 78%; (ii) entre as ações de volume intermediário (médio), 74%; (iii) entre as ações de volume baixo (pequeno), 35%.</p>
					<p>Novamente, verifica-se maior inconsistência em ativos de menor volume, o que alerta para um possível cuidado ao se utilizar o BVC nessa classe de ativos. Tendo estabelecido o melhor conjunto de parâmetros para o BVC - intervalo de 5 minutos -, os resultados subsequentes utilizarão esses valores para a estimativa do volume de compra e venda.</p>
				</sec>
				<sec>
					<title>4.2. Desempenho dos algoritmos TR e BVC</title>
					<p>A <xref ref-type="table" rid="t30">Tabela 3</xref> apresenta os resultados para as taxas de precisão do TR e do BVC. Verifica-se, para ambos os métodos, uma melhora de performance à medida que os ativos crescem em volume transacionado. O desempenho geral do TR foi de 80,82%, valor superior aos relatados por <xref ref-type="bibr" rid="B13">Omrane e Welch (2016</xref>) e <xref ref-type="bibr" rid="B3">Chakrabarty et al. (2015</xref>).</p>
					<p>
						<table-wrap id="t30">
							<label>Tabela 3</label>
							<caption>
								<title>Taxas de precisão para o TR e o BVC</title>
							</caption>
							<table frame="hsides" rules="groups">
								<colgroup>
									<col/>
									<col span="3"/>
									<col/>
									<col/>
									<col/>
								</colgroup>
								<thead>
									<tr>
										<th align="center"> </th>
										<th align="center" colspan="3">TR </th>
										<th align="center" colspan="3">BVC</th>
									</tr>
									<tr>
										<th align="center">Classe</th>
										<th align="center">Mínimo</th>
										<th align="center">Média</th>
										<th align="center">Máximo</th>
										<th align="center">Mínimo</th>
										<th align="center">Média</th>
										<th align="center">Máximo</th>
									</tr>
								</thead>
								<tbody>
									<tr>
										<td align="center">Pequeno</td>
										<td align="center">62,99%</td>
										<td align="center">77,71%</td>
										<td align="center">92,63%</td>
										<td align="center">33,08%</td>
										<td align="center">51,60%</td>
										<td align="center">67,28%</td>
									</tr>
									<tr>
										<td align="center">Médio</td>
										<td align="center">74,95%</td>
										<td align="center">82,95%</td>
										<td align="center">91,48%</td>
										<td align="center">37,19%</td>
										<td align="center">62,18%</td>
										<td align="center">68,69%</td>
									</tr>
									<tr>
										<td align="center">Grande</td>
										<td align="center">75,10%</td>
										<td align="center">86,05%</td>
										<td align="center">95,60%</td>
										<td align="center">40,89%</td>
										<td align="center">64,10%</td>
										<td align="center">70,90%</td>
									</tr>
									<tr>
										<td align="center">Geral</td>
										<td align="center">62,99%</td>
										<td align="center">80,82%</td>
										<td align="center">95,60%</td>
										<td align="center">33,08%</td>
										<td align="center">56,85%</td>
										<td align="center">70,90%</td>
									</tr>
								</tbody>
							</table>
							<table-wrap-foot>
								<fn id="TFN12">
									<p>Fonte: dados da pesquisa.</p>
								</fn>
							</table-wrap-foot>
						</table-wrap>
					</p>
					<p>O desempenho médio do BVC foi de 56,85%, valor inferior ao apresentado por <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>), os quais analisaram os três contratos de futuros mais ativos do mercado norte-americano; e <xref ref-type="bibr" rid="B13">Omrane e Welch (2016</xref>), que analisaram contratos de câmbio.</p>
					<p>No geral, percebe-se que o TR apresentou desempenho superior ao BVC. Enquanto o desempenho mais baixo do TR atingiu 62,99% de acurácia, o do BVC foi de 33,08%. Além disso, para todas as classes de ativos, o TR atingiu um desempenho superior a 90%, enquanto o BVC chegou a um máximo de 70,90% entre os ativos de maior volume transacionado.</p>
					<p>A <xref ref-type="fig" rid="f10">Figura 1</xref> mostra que o desempenho do TR se concentra na faixa de 80% sendo que as acurácias entre os ativos apresentam comportamento simétrico em relação à mediana. O BVC apresenta valores os quais giram em torno de 63%, com o primeiro quartil em torno de 45%, e o terceiro quartil em torno de 66%, pouco acima da mediana de 64%. Novamente, essa assimetria é carregada pelos ativos de menor volume transacionado, que apresentam, em geral, desempenho inferior. Esse resultado está em consonância com as evidências de <xref ref-type="bibr" rid="B7">Easley et al. (2012b</xref>) de que o BVC possui melhor performance para ações de maior volume transacionado.</p>
					<p>
						<fig id="f10">
							<label>Figura 1</label>
							<caption>
								<title>Amplitude das acurácias dos métodos TR e BVC</title>
							</caption>
							<graphic xlink:href="1808-2386-bbr-20-01-99-gf10.jpg"/>
							<attrib>Fonte: dados da pesquisa.</attrib>
						</fig>
					</p>
					<p>Os resultados preliminares indicam que o algoritmo TR apresenta performance superior à do BVC. A próxima seção mostra o resultado da aplicação prática dos dois métodos em um modelo que necessita, como insumos principais, das informações de volumes de compra e venda.</p>
				</sec>
				<sec>
					<title>4.3. Cálculo do VPIN a partir de dados reais, TR e BVC</title>
					<p>De maneira a analisar os problemas relacionados à classificação das transações quando aplicado um método que necessita da quantidade de compras e vendas, calculou-se o VPIN utilizando os dados reais das transações realizadas entre 02 de janeiro e 28 de junho de 2019, além dos volumes apontados pelo TR e pelo BVC. <xref ref-type="bibr" rid="B10">Grammig e Theissen (2002</xref>) e <xref ref-type="bibr" rid="B11">Hwang et al. (2013</xref>) atentam para os problemas relacionados à má classificação das ordens ao se estimar proxies de risco informacional.</p>
					<p>A <xref ref-type="fig" rid="f20">Figura 2</xref> mostra a média do VPIN de cada conjunto. De início, verifica-se a disparidade dos VPINs entre as maiores e menores ações. Esse resultado, reportado por diversos autores (<xref ref-type="bibr" rid="B4">Easley et al., 1996</xref>; <xref ref-type="bibr" rid="B12">Mohanram &amp; Rajgopal, 2009</xref>; <xref ref-type="bibr" rid="B1">Abad &amp; Yagüe, 2012</xref>; <xref ref-type="bibr" rid="B15">Wei et al., 2013</xref>), indica que há uma correlação negativa entre o VPIN e o valor de mercado da empresa.</p>
					<p>
						<fig id="f20">
							<label>Figura 2</label>
							<caption>
								<title>VPINs calculados com base em dados reais, TR e BVC</title>
							</caption>
							<graphic xlink:href="1808-2386-bbr-20-01-99-gf20.jpg"/>
							<attrib>Fonte: dados da pesquisa.</attrib>
						</fig>
					</p>
					<p>A partir desses resultados é possível observar que o VPIN<sub>REAL</sub> e o VPIN<sub>TR</sub> não se diferem significativamente, em especial para as ações médias e grandes. Essa evidência é reforçada pelos resultados da <xref ref-type="table" rid="t40">Tabela 4</xref> em que a diferença entre o TR e os dados reais flutuou em torno de 2% a 3%. </p>
					<p>Um ponto de destaque reside no VPIN<sub>BVC</sub> calculado para as ações pequenas. Apesar de ter sido evidenciada uma acurácia menor do BVC para essa classe de ação, o seu VPIN foi o mais próximo do real entre as três classes de ações. Esse resultado se deve à particularidade da metodologia do VPIN, em que o desbalanceamento de ordens é levado em consideração. Caso as ordens de compra e venda estejam sendo estimadas de forma incorreta, porém seu desbalanceamento esteja próximo ao real, o VPIN será próximo daquele calculado com os dados reais. Isso pode indicar que mais um cuidado deva ser tomado ao utilizar o BVC, uma vez que ele pode indicar resultados promissores advindos de dados incorretos, podendo torná-lo incapaz de ser aplicado em outros métodos que necessitem dos dados de compra e venda como insumo. </p>
					<p>
						<table-wrap id="t40">
							<label>Tabela 4</label>
							<caption>
								<title>VPINs médios por classe e por método</title>
							</caption>
							<table frame="hsides" rules="groups">
								<colgroup>
									<col/>
									<col/>
									<col/>
									<col/>
								</colgroup>
								<thead>
									<tr>
										<th align="center">Classe</th>
										<th align="center">VPIN<sub>REAL</sub></th>
										<th align="center">VPIN<sub>BVC</sub></th>
										<th align="center">VPIN<sub>TR</sub></th>
									</tr>
								</thead>
								<tbody>
									<tr>
										<td align="center">Pequeno</td>
										<td align="center">58,79%</td>
										<td align="center">59,36%</td>
										<td align="center">55,82%</td>
									</tr>
									<tr>
										<td align="center">Médio</td>
										<td align="center">37,32%</td>
										<td align="center">46,76%</td>
										<td align="center">35,98%</td>
									</tr>
									<tr>
										<td align="center">Grande</td>
										<td align="center">34,17%</td>
										<td align="center">45,11%</td>
										<td align="center">32,74%</td>
									</tr>
								</tbody>
							</table>
							<table-wrap-foot>
								<fn id="TFN13">
									<p>Fonte: dados da pesquisa.</p>
								</fn>
							</table-wrap-foot>
						</table-wrap>
					</p>
					<p>Objetivando analisar as características dos VPINs estimados, procedeu-se ao cálculo, para cada classe de ações, da correlação entre o VPIN<sub>REAL</sub> e o VPIN<sub>TR</sub>; e entre o VPIN<sub>REAL</sub> e o VPIN<sub>BVC</sub>. Calcularam-se também a menor correlação, a média e a maior correlação entre cada classe de ações, bem como a média (<xref ref-type="table" rid="t50">Tabela 5</xref>).</p>
					<p>
						<table-wrap id="t50">
							<label>Tabela 5</label>
							<caption>
								<title>Correlação entre VPIN<sub>
 <italic>REAL</italic>
</sub> -VPIN<sub>
 <italic>TR</italic>
</sub> e entre VPIN<sub>
 <italic>REAL</italic>
</sub> -VPIN<sub>
 <italic>BVC</italic>
</sub></title>
							</caption>
							<table frame="hsides" rules="groups">
								<colgroup>
									<col/>
									<col span="3"/>
									<col span="3"/>
								</colgroup>
								<thead>
									<tr>
										<th align="center"> </th>
										<th align="center" colspan="3">TR </th>
										<th align="center" colspan="3">BVC </th>
									</tr>
									<tr>
										<th align="center">Classe</th>
										<th align="center">Mínimo</th>
										<th align="center">Média</th>
										<th align="center">Máximo</th>
										<th align="center">Mínimo</th>
										<th align="center">Média</th>
										<th align="center">Máximo</th>
									</tr>
								</thead>
								<tbody>
									<tr>
										<td align="center">Pequeno</td>
										<td align="center">0,3551</td>
										<td align="center">0,7817</td>
										<td align="center">0,9732</td>
										<td align="center">-0,1769</td>
										<td align="center">0,2872</td>
										<td align="center">0,7630</td>
									</tr>
									<tr>
										<td align="center">Médio</td>
										<td align="center">0,5733</td>
										<td align="center">0,8636</td>
										<td align="center">0,9855</td>
										<td align="center">0,1018</td>
										<td align="center">0,5018</td>
										<td align="center">0,8563</td>
									</tr>
									<tr>
										<td align="center">Grande</td>
										<td align="center">0,6889</td>
										<td align="center">0,8544</td>
										<td align="center">0,9713</td>
										<td align="center">0,2231</td>
										<td align="center">0,4508</td>
										<td align="center">0,8632</td>
									</tr>
								</tbody>
							</table>
							<table-wrap-foot>
								<fn id="TFN14">
									<p>Todas as correlações apresentaram p.valores iguais a zero.</p>
								</fn>
								<fn id="TFN15">
									<p>Fonte: dados da pesquisa.</p>
								</fn>
							</table-wrap-foot>
						</table-wrap>
					</p>
					<p>Percebe-se que, para todas as classes de ações, o VPIN<sub>TR</sub> apresentou uma forte correlação com o VPIN<sub>REAL</sub> com média próxima a 80%. Esses números reforçam a acurácia verificada para o TR. Em contraste, ao se analisar a correlação do VPIN<sub>BVC</sub> com o VPIN<sub>REAL</sub>, verifica-se uma média mais baixa de, no máximo, 50% para as ações da classe média. </p>
					<p>As correlações máximas atingidas pelo BVC se aproximam da correlação média do TR. Para as ações pequenas, houve inclusive casos de correlação negativa, indicando que o desbalanceamento informado pelo BVC apresentava sinal contrário ao dos dados reais. Isso significa que, enquanto o VPIN<sub>REAL</sub> indica momentos de aumento do risco informacional (alertando para o desbalanceamento das ordens), o VPIN<sub>BVC</sub> pode indicar o oposto, contrariando, dessa forma, o objetivo do VPIN - que, segundo <xref ref-type="bibr" rid="B6">Easley et al. (2012a</xref>), é de alertar os investidores para momentos de desequilíbrio de volume e, assim, evitar eventos de iliquidez que resultem em crashes das bolsas, como o Flash Crash.</p>
					<p>Como forma de mostrar a consequência da utilização do BVC para se classificarem as ordens de transações, as <xref ref-type="fig" rid="f30">Figuras 3</xref> e <xref ref-type="fig" rid="f40">4</xref> mostram o comportamento dos VPINs para as ações que apresentaram, respectivamente, maior e menor aderência em relação aos dados reais para cada classe.</p>
					<p>
						<fig id="f30">
							<label>Figura 3</label>
							<caption>
								<title>Ações com maior aderência entre o BVC e os dados reais</title>
							</caption>
							<graphic xlink:href="1808-2386-bbr-20-01-99-gf30.jpg"/>
							<attrib>Fonte: dados da pesquisa.</attrib>
						</fig>
					</p>
					<p>
						<fig id="f40">
							<label>Figura 4</label>
							<caption>
								<title>Ações com menor aderência entre o BVC e os dados reais</title>
							</caption>
							<graphic xlink:href="1808-2386-bbr-20-01-99-gf40.jpg"/>
							<attrib>Fonte: dados da pesquisa.</attrib>
						</fig>
					</p>
					<p>As figuras mostram que o VPIN<sub>BVC</sub> apresenta valores mais extremos do que o VPIN<sub>REAL</sub> mesmo para as ações com maior aderência. Para as ações de menor aderência, o VPIN<sub>BVC</sub> apresentou em alguns momentos valores próximos a 90% de VPIN<sub>REAL</sub>. Caso fosse utilizado como um indicador de problemas de liquidez, tal método apresentaria diversos falsos positivos quando comparado ao valor real, o que poderia causar problemas em uma utilização prática. Esse comportamento mais desbalanceado do BVC será analisado na seção dedicada à análise de suas propriedades desse método.</p>
					<p>Os resultados apresentados nesta seção indicam que o BVC não se apresenta como um algoritmo de classificação de transações eficaz frente aos dados reais. Essa evidência é corroborada pela aplicação do VPIN, que mostra que os valores estimados pelo BVC destoam substancialmente daqueles obtidos a partir dos dados reais. Em contrapartida, o VPIN<sub>TR</sub> se aproxima do VPIN<sub>REAL</sub> para todas as ações analisadas nesta pesquisa. Nas próximas seções, analisam-se os momentos em que o TR e o BVC classificam erroneamente as ordens, e isso explicaria as diferenças nas estimações do VPIN.</p>
				</sec>
				<sec>
					<title><italic>4.4. Análise das propriedades do Tick Rule</italic></title>
					<p>O algoritmo TR está calcado no princípio econômico de que uma ordem de compra (venda) aumenta (diminui) a demanda pela ação, o que leva a um acréscimo (decréscimo) no preço. Para verificar em quais situações esse princípio econômico se mantém, foi analisada a frequência dos sinais das ordens dada às mudanças de preço das transações. Ou seja, verificou-se, para cada valor de ΔP<sub>
 <italic>t</italic>
</sub> , qual a quantidade de ordens de compra (para ΔP<sub>
 <italic>t</italic>
</sub> &gt;0) e venda (para ΔP<sub>
 <italic>t</italic>
</sub> &lt;0) em relação ao total. Por fim, foi calculada a quantidade de vezes nas quais a ordem se repetiu para momentos em que ΔP<sub>
 <italic>t</italic>
</sub> =0. Assim, as equações (5), (6) e (7) indicam os cálculos realizados.</p>
                    <p>
	<disp-formula id="e50">
    <mml:math id="m50" display="block">           
<mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mo>+</mml:mo></mml:mrow></mml:msup><mml:mo>)</mml:mo></mml:math>
     <label>(5)</label> 
    </disp-formula>
</p>
                    <p>
	<disp-formula id="e60">
    <mml:math id="m60" display="block">           
<mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo></mml:mrow></mml:msub><mml:mo>)</mml:mo></mml:math>
     <label>(6)</label> 
    </disp-formula>
</p>
                    <p>
	<disp-formula id="e70">
    <mml:math id="m70" display="block">           
<mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mo>)</mml:mo></mml:math>
     <label>(7)</label> 
    </disp-formula>
</p>
					<p>Em que: B<sub>
 <italic>t</italic>
</sub> e S<sub>
 <italic>t</italic>
</sub> representam, respectivamente, uma ordem de compra e venda no momento t; e P<sup>+</sup> e P_ representam, respectivamente, valores positivos e negativos para as variações de preço entre as transações. Por fim, X<sub>
 <italic>t</italic>
</sub> representa o sinal da ordem lançada no momento t, podendo ser uma ordem de compra (B) ou venda (S). A equação (7) representa o caso em que a mudança de preço é igual a zero e deseja-se verificar qual a frequência de que o lado iniciador da ordem em t seja igual ao lado iniciador da ordem anterior.</p>
					<p>Os resultados das equações (5) e (6) estão expostos na <xref ref-type="table" rid="t60">Tabela 6</xref>. Verifica-se, tanto para as mudanças de preço positivas quanto negativas, uma consistência na frequência do lado da transação. Mesmo em mudanças de preço mais fortes, acima de 0,20 unidade monetária, o percentual de ordens de compra ou venda continuam no mesmo patamar - cerca de 88%.</p>
					<p>Os resultados da tabela 6 mostram por que o TR apresenta bom desempenho para a classificação das transações. De forma geral, a base na qual está calcado esse algoritmo se sustenta para a amostra analisada, ou seja, mudanças positivas de preço apontam para ordens de compra, enquanto mudanças negativas indicam ordens de venda. </p>
					<p>Para o resultado da equação (7) relacionado às mudanças de preço iguais a zero, verificou-se que <inline-formula><mml:math>
<mml:mi>P</mml:mi><mml:mfenced close="|" separators="|"><mml:mrow><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>∆</mml:mo><mml:msub><mml:mrow><mml:mi>P</mml:mi></mml:mrow><mml:mrow><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mo>)</mml:mo><mml:mo>=</mml:mo><mml:mn>0,9531</mml:mn></mml:math>
</inline-formula>. Ou seja, para a amostra analisada, em 95,31% dos casos, quando não houve mudança de preço, a transação no momento t foi a mesma do momento t-1, como preconizado pelo TR.</p>
					<p>
						<table-wrap id="t60">
							<label>Tabela 6</label>
							<caption>
								<title>Frequência dos sinais das ordens dadas as mudanças de preço entre as transações</title>
							</caption>
							<table frame="hsides" rules="groups">
								<colgroup>
									<col/>
									<col/>
									<col/>
									<col/>
								</colgroup>
								<thead>
									<tr>
										<th align="center"><italic>ΔP</italic>
 <sub>
 <italic>t</italic>
</sub></th>
										<th align="center"><italic>P(B</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>| ΔP</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>= P</italic>
 <sup>
 <italic>+</italic>
</sup> )</th>
										<th align="center"><italic>ΔP</italic>
 <sub>
 <italic>t</italic>
</sub></th>
										<th align="center"><italic>P(S</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>| ΔP</italic>
 <sub>
 <italic>t</italic> 
</sub> 
 <italic>= P</italic>
 <sub>
 <italic>-</italic>
</sub> )</th>
									</tr>
								</thead>
								<tbody>
									<tr>
										<td align="center">0,01</td>
										<td align="center">88,43%</td>
										<td align="center">-0,01</td>
										<td align="center">88,74%</td>
									</tr>
									<tr>
										<td align="center">0,02</td>
										<td align="center">89,15%</td>
										<td align="center">-0,02</td>
										<td align="center">89,77%</td>
									</tr>
									<tr>
										<td align="center">0,03</td>
										<td align="center">88,35%</td>
										<td align="center">-0,03</td>
										<td align="center">89,22%</td>
									</tr>
									<tr>
										<td align="center">0,04</td>
										<td align="center">87,83%</td>
										<td align="center">-0,04</td>
										<td align="center">88,85%</td>
									</tr>
									<tr>
										<td align="center">0,05</td>
										<td align="center">86,94%</td>
										<td align="center">-0,05</td>
										<td align="center">88,17%</td>
									</tr>
									<tr>
										<td align="center">0,06</td>
										<td align="center">87,27%</td>
										<td align="center">-0,06</td>
										<td align="center">88,48%</td>
									</tr>
									<tr>
										<td align="center">0,07</td>
										<td align="center">87,39%</td>
										<td align="center">-0,07</td>
										<td align="center">88,60%</td>
									</tr>
									<tr>
										<td align="center">0,08</td>
										<td align="center">87,40%</td>
										<td align="center">-0,08</td>
										<td align="center">88,31%</td>
									</tr>
									<tr>
										<td align="center">0,09</td>
										<td align="center">87,04%</td>
										<td align="center">-0,09</td>
										<td align="center">87,77%</td>
									</tr>
									<tr>
										<td align="center">0,10</td>
										<td align="center">85,21%</td>
										<td align="center">-0,10</td>
										<td align="center">86,79%</td>
									</tr>
									<tr>
										<td align="center">0,11</td>
										<td align="center">86,31%</td>
										<td align="center">-0,11</td>
										<td align="center">88,09%</td>
									</tr>
									<tr>
										<td align="center">0,12</td>
										<td align="center">87,10%</td>
										<td align="center">-0,12</td>
										<td align="center">87,75%</td>
									</tr>
									<tr>
										<td align="center">0,13</td>
										<td align="center">87,93%</td>
										<td align="center">-0,13</td>
										<td align="center">88,76%</td>
									</tr>
									<tr>
										<td align="center">0,14</td>
										<td align="center">87,96%</td>
										<td align="center">-0,14</td>
										<td align="center">88,52%</td>
									</tr>
									<tr>
										<td align="center">0,15</td>
										<td align="center">87,49%</td>
										<td align="center">-0,15</td>
										<td align="center">87,61%</td>
									</tr>
									<tr>
										<td align="center">0,16</td>
										<td align="center">87,27%</td>
										<td align="center">-0,16</td>
										<td align="center">87,86%</td>
									</tr>
									<tr>
										<td align="center">0,17</td>
										<td align="center">89,05%</td>
										<td align="center">-0,17</td>
										<td align="center">88,45%</td>
									</tr>
									<tr>
										<td align="center">0,18</td>
										<td align="center">87,84%</td>
										<td align="center">-0,18</td>
										<td align="center">89,02%</td>
									</tr>
									<tr>
										<td align="center">0,19</td>
										<td align="center">87,76%</td>
										<td align="center">-0,19</td>
										<td align="center">88,61%</td>
									</tr>
									<tr>
										<td align="center">0,20</td>
										<td align="center">86,23%</td>
										<td align="center">-0,20</td>
										<td align="center">87,14%</td>
									</tr>
									<tr>
										<td align="center">&gt; 0,20</td>
										<td align="center">88,11%</td>
										<td align="center">&lt; -0,20</td>
										<td align="center">89,27%</td>
									</tr>
								</tbody>
							</table>
							<table-wrap-foot>
								<fn id="TFN16">
									<p>Fonte: dados da pesquisa.</p>
								</fn>
							</table-wrap-foot>
						</table-wrap>
					</p>
					<p>Com o objetivo de aprofundar a análise das situações em que o TR classifica incorretamente as transações, foi verificado que cinco variáveis influenciam no desempenho desse método, e são elas: a mudança de preço (ΔP<sub>
 <italic>t</italic>
</sub> ); o sinal da ordem que está sendo classificada; o sinal da ordem anterior; a diferença no tempo entre as duas transações; e se as corretoras de compra e venda são as mesmas da transação anterior.</p>
					<p>A <xref ref-type="table" rid="t70">Tabela 7</xref> apresenta as situações e as frequências nas quais o TR inicia uma sequência de transações classificadas erroneamente. A maior parte dos erros do TR advém de situações em que a mudança de preço é positiva, porém a ordem sendo classificada é uma venda precedida de outra venda. Nesse caso, a corretora que está envolvida nas vendas em t e t-1 é a mesma, enquanto a compradora é diferente. Portanto, a situação descrita é aquela na qual: (i) uma corretora lança uma ordem de venda em t-1; quando essa ordem é executada, (ii) outra ordem de venda é lançada pela mesma corretora com uma diferença de 0 segundo, sendo executada por um comprador diferente daquele que enviou a ordem. Nesse caso, a segunda ordem (em t) apresenta um preço superior em relação ao da transação em t-1, preço esse provavelmente decorrente da rápida execução da ordem de venda. Isso indica haver liquidez para a ação naquele momento, e que a sua demanda está alta, o que justifica o acréscimo no preço da venda.</p>
					<p>A mesma análise pode ser feita para a situação na qual as ordens atual e anterior são de compra, porém houve uma variação de preço negativa entre as transações (linha 2 da tabela 7). Nesse caso, a corretora que está enviando as ordens de compra é a mesma para as duas transações, porém não é a vendedora. A segunda ordem de compra é executada com rapidez em relação à primeira (0 segundo de diferença), indicando a existência de muitos negociadores interessados na venda da ação (a oferta é alta), provocando uma redução do preço da transação, que é executada mesmo tendo sido a um preço inferior ao da transação anterior.</p>
					<p>Os cenários descritos acima foram aqueles que apresentaram maiores frequências de transações classificadas incorretamente pelo TR. Quando uma dessas situações acontece, uma sequência de classificações erradas pode se suceder se não houver mais mudanças de preços. Isso porque, nesse caso, o TR continua a classificar a transação a partir do sinal da ordem anterior, que já estava classificada de forma incorreta.</p>
					<p>As duas situações seguintes onde houve erros do TR são aquelas em que as ordens em t são compras (vendas) e em t-1 são vendas (compras), porém com uma variação de preço igual e tempo entre as transações iguais a zero, e a mesma corretora de venda (compra). Como nesse caso o TR repete a classificação, é iniciada uma sequência de erros. Observou-se que o tempo entre as transações e as corretoras nelas envolvidas têm um papel importante na definição do lado que iniciou a compra ou a venda. Como as transações são praticamente instantâneas, dois fenômenos podem influenciar na classificação do TR. O primeiro deve-se à ação de order splitting, isto é, uma mesma ordem é dividida em diversas ordens menores a fim de o mercado não perceber que existe um trader movimentando um alto volume de ações. Esse tipo de estratégia pode ser detectado ao se analisar o tempo entre as transações, a corretora e o volume transacionado, já que muitas vezes a ordem é dividida em parcelas de volumes iguais. O segundo fenômeno se deve-se ao fato de que, como o tempo entre as transações é praticamente nulo, por ser o tempo entre as transações praticamente nulo, o mercado não se ajusta a tempo para que a variação do preço reflita a oferta e a demanda da ação.</p>
					<p>De forma geral, percebe-se por meio dos resultados da tabela 7 que as situações apresentam frequência similar para os sinais das ordens, indicando uma simetria nesse sentido, e mostram que o mercado se comporta de forma similar independente se a transação em questão for iniciada por um comprador ou um vendedor. Por fim, tal análise indica uma oportunidade de construção de um modelo mais complexo que possa capturar a relação entre as variáveis, reduzindo a iniciação da sequência de erros.</p>
					<p>
						<table-wrap id="t70">
							<label>Tabela 7</label>
							<caption>
								<title>Situações em que o TR inicia uma sequência de transações classificadas incorretamente</title>
							</caption>
							<table frame="hsides" rules="groups">
								<colgroup>
									<col/>
									<col/>
									<col/>
									<col/>
									<col/>
									<col/>
									<col/>
								</colgroup>
								<thead>
									<tr>
										<th align="center">Diferença de tempo</th>
										<th align="center"><italic>ΔP</italic>
 <sub>
 <italic>t</italic>
</sub></th>
										<th align="center">Ordem atual</th>
										<th align="center">Ordem anterior</th>
										<th align="center">Corretora de compra</th>
										<th align="center">Corretora de venda</th>
										<th align="center">Frequência</th>
									</tr>
								</thead>
								<tbody>
									<tr>
										<td align="center">0</td>
										<td align="center">+</td>
										<td align="center">S</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">=</td>
										<td align="center">10,97%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">-</td>
										<td align="center">B</td>
										<td align="center">B</td>
										<td align="center">=</td>
										<td align="center">≠</td>
										<td align="center">10,70%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">B</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">=</td>
										<td align="center">7,82%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">S</td>
										<td align="center">B</td>
										<td align="center">=</td>
										<td align="center">≠</td>
										<td align="center">7,80%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">+</td>
										<td align="center">S</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">4,67%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">-</td>
										<td align="center">B</td>
										<td align="center">B</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">4,61%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">B</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">4,32%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">S</td>
										<td align="center">B</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">4,20%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">0</td>
										<td align="center">B</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">4,16%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">0</td>
										<td align="center">S</td>
										<td align="center">B</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">4,08%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">+</td>
										<td align="center">S</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">3,15%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">S</td>
										<td align="center">B</td>
										<td align="center">=</td>
										<td align="center">=</td>
										<td align="center">2,94%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">-</td>
										<td align="center">B</td>
										<td align="center">B</td>
										<td align="center">≠</td>
										<td align="center">≠</td>
										<td align="center">2,87%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">B</td>
										<td align="center">S</td>
										<td align="center">=</td>
										<td align="center">=</td>
										<td align="center">2,75%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">0</td>
										<td align="center">B</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">=</td>
										<td align="center">2,40%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">0</td>
										<td align="center">S</td>
										<td align="center">B</td>
										<td align="center">=</td>
										<td align="center">≠</td>
										<td align="center">2,25%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">-</td>
										<td align="center">B</td>
										<td align="center">B</td>
										<td align="center">=</td>
										<td align="center">=</td>
										<td align="center">2,07%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">+</td>
										<td align="center">S</td>
										<td align="center">S</td>
										<td align="center">=</td>
										<td align="center">=</td>
										<td align="center">2,06%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">+</td>
										<td align="center">S</td>
										<td align="center">S</td>
										<td align="center">≠</td>
										<td align="center">=</td>
										<td align="center">1,84%</td>
									</tr>
									<tr>
										<td align="center">+</td>
										<td align="center">-</td>
										<td align="center">B</td>
										<td align="center">B</td>
										<td align="center">=</td>
										<td align="center">≠</td>
										<td align="center">1,67%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">S</td>
										<td align="center">B</td>
										<td align="center">≠</td>
										<td align="center">=</td>
										<td align="center">1,45%</td>
									</tr>
									<tr>
										<td align="center">0</td>
										<td align="center">0</td>
										<td align="center">B</td>
										<td align="center">S</td>
										<td align="center">=</td>
										<td align="center">≠</td>
										<td align="center">1,37%</td>
									</tr>
								</tbody>
							</table>
							<table-wrap-foot>
								<fn id="TFN17">
									<p>Nota: ‘+’, ‘-‘ e ‘0’ significam respectivamente uma variação de preço positiva e negativa (de qualquer magnitude) e nenhuma variação. Os valores das colunas ‘Corretora de compra’ e ‘Corretora de venda’, ‘=’ e ‘≠’, representam respectivamente se a corretora é a mesma ou não da transação anterior.</p>
								</fn>
								<fn id="TFN18">
									<p>Fonte: dados da pesquisa.</p>
								</fn>
							</table-wrap-foot>
						</table-wrap>
					</p>
					<p>Tendo identificado os momentos em que o TR classifica incorretamente os sinais das transações, procede-se na próxima seção à análise das propriedades do BVC. </p>
				</sec>
				<sec>
					<title><italic>4.5. Análise das propriedades do Bulk Volume Classification</italic></title>
					<p>Ao utilizar a distribuição normal para computar os percentuais de compra e venda de cada intervalo de tempo, é possível compará-los com os de compra e venda reais dentro do mesmo intervalo. A <xref ref-type="fig" rid="f50">Figura 5</xref> mostra como o percentual de compra evolui com a variação do preço em comparação com o assinalado pelo BVC - não foram verificadas grandes divergências entre as classes de ativos, portanto os valores reportados na figura 5 representam toda a amostra analisada (total).</p>
					<p>Tem-se evidência de que uma das principais características do BVC é corroborada: quando não há variação de preço, o percentual de compra e venda dentro do mesmo intervalo fica próxima de 50% (51,88% de volume de compra na amostra analisada). Isso faz com que, na prática, o BVC tenha desempenho satisfatório para intervalos que não apresentem variação de preço (cerca de 22% dos intervalos). </p>
					<p>No entanto, à medida que a variação de preço se distancia de zero, o percentual assinalado pelo BVC aumenta de forma mais acelerada do que o verificado na prática. Essa característica decorre da distribuição definida na construção do modelo. Através dos dados reais, verifica-se que, na média, o percentual de compra se estabiliza próximo de uma variação de preço absoluta de cerca de 0,05 unidade monetária. Dada a distribuição escolhida na aplicação do BVC, essa estabilização não ocorre dentro dos primeiros 0,1 unidade monetária de variação absoluta.</p>
					<p>Esse comportamento explica por que o VPIN<sub>BVC</sub> apresenta picos mais frequentes do que o VPIN<sub>REAL</sub> ou o VPIN<sub>TR</sub>. Como o BVC atribui um percentual maior de compra ou venda inclusive para variações baixas de preço, é natural que o desbalanceamento de volume apresentado por ele seja maior, levando a picos não detectados ao utilizar os dados reais no cálculo da VPIN.</p>
					<p>Além disso, como observado na análise das propriedades do TR, quando há variação de preço, em cerca de 88% dos casos, a transação se dá na direção da variação - ou seja, aumento de preço indica compra, e diminuição de preço indica venda. Isso se sustenta quando a análise é realizada transação a transação, o que leva o TR a ter um desempenho de cerca de 80% de acurácia na amostra analisada. Em contrapartida, o BVC agrupa transações em intervalos e utiliza o último preço como indicador de demanda ou de oferta. Isso implica, portanto, que todo o conteúdo informacional presente dentro do intervalo - capturado pelo TR - é descartado na utilização do BVC. Isso explica também por que intervalos calculados com um maior período ou com uma maior quantidade de transações agregadas apresentam desempenho pior, já que o último preço carrega pouca informação acerca das variações ocorridas dentro do intervalo de tempo.</p>
					<p>Finalmente, o desempenho do BVC na classificação de ordens de compra e venda de ativos negociados na B3 pode ter sido significativamente inferior ao apresentado em estudos com dados de mercados mais desenvolvidos devido à maior volatilidade do mercado brasileiro. As variações acentuadas de preços não são bem capturadas por esse método, levantando uma possível necessidade de modificação em sua base de cálculo; e não somente uma calibragem dos seus parâmetros. </p>
					<p>
						<fig id="f50">
							<label>Figura 5</label>
							<caption>
								<title>Percentual de compra real e estimado pelo BVC em relação à variação de preço</title>
							</caption>
							<graphic xlink:href="1808-2386-bbr-20-01-99-gf50.jpg"/>
							<attrib>Fonte: dados da pesquisa.</attrib>
						</fig>
					</p>
				</sec>
			</sec>
			<sec sec-type="conclusions">
				<title>5. CONSIDERAÇÕES FINAIS</title>
				<p>O objetivo deste artigo foi comparar os desempenhos do TR e BVC na classificação de ordens de compra e venda de ações transacionadas na B3. Observou-se, de maneira geral, que o TR apresentou desempenho superior ao BVC. Além disso, os resultados para o VPIN indicaram forte diferença nas estimativas da probabilidade de negociações privilegiadas a partir dos volumes de compra e venda calculados pelo BVC, o que foi confirmado pela baixa - e, por vezes, negativa - correlação entre o VPIN<sub>REAL</sub> e o VPIN<sub>BVC</sub>.</p>
				<p>A despeito da maior facilidade de se aplicar o BVC - maior acesso às bases de dados e menor volume de dados necessários -, ele apresentou performance significativamente inferior em classificar transações no mercado acionário brasileiro - justificando assim a diferença entre o VPIN<sub>REAL</sub> e o VPIN<sub>BVC</sub>. Ao se analisarem as propriedades do BVC, verificou-se que o seu desempenho inferior decorre da sua mecânica de determinação da parcela de compra e venda. A distribuição normal padrão produz valores extremos à proporção que a variação de preço é maior. Porém, empiricamente, com o BVC, verificou-se que as parcelas de compra e venda não se distanciam do equilíbrio na mesma medida que o valor de Z. O BVC apresenta melhor desempenho quando não há variação de preço entre os intervalos. À medida que os intervalos de tempo se tornam maiores, a distribuição utilizada pelo BVC não segue a tendência dos dados reais.</p>
				<p>Por outro lado, para o TR, verificou-se que as situações nas quais ele inicia uma sequência de classificações incorretas estão relacionadas principalmente à presença das corretoras de compra e venda nas transações e aos momentos de alta atividade no mercado - transações com pouca ou nenhuma diferença de tempo entre elas.</p>
				<p>Conclui-se que, devido ao menor volume transacionado no Brasil, em comparação com os de países mais desenvolvidos, e à maior volatilidade nos preços das ações, o TR se revelou um método melhor para classificar transações. A baixa atividade para certas classes de ações, em comparação com as dos mercados para os quais o BVC foi desenvolvido, pode ter contribuído para que a sua mecânica de classificação não seja aplicável com sucesso semelhante no Brasil. Como dados tick-by-tick são indisponíveis para muitos pesquisadores, é necessário recorrer a dados agregados. As evidências aqui documentadas sugerem que o BVC deve ser utilizado com cautela, dado que seu desempenho varia muito a depender da natureza da ação. Dessa forma, os pesquisadores (ou investidores do mercado brasileiro) devem se atentar para os problemas do BVC quando não detiverem acesso a dados tick-by-tick. </p>
			</sec>
		</body>
	</sub-article>-->
</article>