{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,2]],"date-time":"2026-04-02T15:46:24Z","timestamp":1775144784363,"version":"3.50.1"},"publisher-location":"Cham","reference-count":45,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031198113","type":"print"},{"value":"9783031198120","type":"electronic"}],"license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022]]},"DOI":"10.1007\/978-3-031-19812-0_38","type":"book-chapter","created":{"date-parts":[[2022,10,29]],"date-time":"2022-10-29T14:03:42Z","timestamp":1667052222000},"page":"659-675","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":496,"title":["MOTR: End-to-End Multiple-Object Tracking with\u00a0Transformer"],"prefix":"10.1007","author":[{"given":"Fangao","family":"Zeng","sequence":"first","affiliation":[]},{"given":"Bin","family":"Dong","sequence":"additional","affiliation":[]},{"given":"Yuang","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Tiancai","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Xiangyu","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Yichen","family":"Wei","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,10,30]]},"reference":[{"key":"38_CR1","unstructured":"CodaLab Competition - CVPR 2020 BDD100K multiple object tracking challenge, July 2022. https:\/\/competitions.codalab.org\/competitions\/24910. Accessed 19 Jul 2022"},{"key":"38_CR2","doi-asserted-by":"crossref","unstructured":"Bergmann, P., Meinhardt, T., Leal-Taixe, L.: Tracking without bells and whistles. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00103"},{"key":"38_CR3","doi-asserted-by":"crossref","unstructured":"Bewley, A., Ge, Z., Ott, L., Ramos, F., Upcroft, B.: Simple online and realtime tracking. In: ICIP (2016)","DOI":"10.1109\/ICIP.2016.7533003"},{"key":"38_CR4","doi-asserted-by":"crossref","unstructured":"Bochinski, E., Eiselein, V., Sikora, T.: High-speed tracking-by-detection without using image information. In: AVSS (2017)","DOI":"10.1109\/AVSS.2017.8078516"},{"key":"38_CR5","unstructured":"Camgoz, N.C., Koller, O., Hadfield, S., Bowden, R.: Sign language transformers: Joint end-to-end sign language recognition and translation. In: CVPR (2020)"},{"key":"38_CR6","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"213","DOI":"10.1007\/978-3-030-58452-8_13","volume-title":"Computer Vision","author":"N Carion","year":"2020","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12346, pp. 213\u2013229. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58452-8_13"},{"key":"38_CR7","doi-asserted-by":"crossref","unstructured":"Chang, X., Zhang, W., Qian, Y., Le Roux, J., Watanabe, S.: End-to-end multi-speaker speech recognition with transformer. In: ICASSP (2020)","DOI":"10.1109\/ICASSP40776.2020.9054029"},{"key":"38_CR8","unstructured":"Chu, P., Wang, J., You, Q., Ling, H., Liu, Z.: TransMOT: spatial-temporal graph transformer for multiple object tracking. arXiv preprint arXiv:2104.00194 (2021)"},{"key":"38_CR9","unstructured":"Dosovitskiy, A., et al.: An image is worth 16 x 16 words: transformers for image recognition at scale. In: ICLR (2021)"},{"key":"38_CR10","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.90"},{"issue":"1\u20132","key":"38_CR11","doi-asserted-by":"publisher","first-page":"83","DOI":"10.1002\/nav.3800020109","volume":"2","author":"HW Kuhn","year":"1955","unstructured":"Kuhn, H.W.: The Hungarian method for the assignment problem. Naval Res. Logistics Q. 2(1\u20132), 83\u201397 (1955)","journal-title":"Naval Res. Logistics Q."},{"key":"38_CR12","doi-asserted-by":"crossref","unstructured":"Leal-Taix\u00e9, L., Canton-Ferrer, C., Schindler, K.: Learning by tracking: Siamese CNN for robust target association. In: CVPRW (2016)","DOI":"10.1109\/CVPRW.2016.59"},{"key":"38_CR13","doi-asserted-by":"crossref","unstructured":"Li, N., Liu, S., Liu, Y., Zhao, S., Liu, M.: Neural speech synthesis with transformer network. In: AAAI (2019)","DOI":"10.1609\/aaai.v33i01.33016706"},{"key":"38_CR14","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Goyal, P., Girshick, R., He, K., Doll\u00e1r, P.: Focal loss for dense object detection. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.324"},{"key":"38_CR15","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., et al.: Microsoft coco: common objects in context. In: ECCV (2014)","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"38_CR16","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"38_CR17","doi-asserted-by":"publisher","unstructured":"Luiten, J., et al.: HOTA: a higher order metric for evaluating multi-object tracking. Int. J. Comput. Vis. 1\u201331 (2020). https:\/\/doi.org\/10.1007\/s11263-020-01375-2","DOI":"10.1007\/s11263-020-01375-2"},{"key":"38_CR18","doi-asserted-by":"crossref","unstructured":"Meinhardt, T., Kirillov, A., Leal-Taixe, L., Feichtenhofer, C.: TrackFormer: multi-object tracking with transformers. arXiv preprint arXiv:2101.02702 (2021)","DOI":"10.1109\/CVPR52688.2022.00864"},{"key":"38_CR19","unstructured":"Milan, A., Leal-Taix\u00e9, L., Reid, I., Roth, S., Schindler, K.: Mot16: a benchmark for multi-object tracking. arXiv preprint arXiv:1603.00831 (2016)"},{"key":"38_CR20","doi-asserted-by":"crossref","unstructured":"Pang, J., et al.: Quasi-dense similarity learning for multiple object tracking. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00023"},{"key":"38_CR21","doi-asserted-by":"crossref","unstructured":"Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., Savarese, S.: Generalized intersection over union: a metric and a loss for bounding box regression. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00075"},{"key":"38_CR22","doi-asserted-by":"crossref","unstructured":"Schulter, S., Vernaza, P., Choi, W., Chandraker, M.: Deep network flow for multi-object tracking. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.292"},{"key":"38_CR23","unstructured":"Shao, S., et al.: CrowdHuman: a benchmark for detecting human in a crowd. arXiv preprint arXiv:1805.00123 (2018)"},{"key":"38_CR24","doi-asserted-by":"crossref","unstructured":"Sharma, S., Ansari, J.A., Murthy, J.K., Krishna, K.M.: Beyond pixels: leveraging geometry and shape cues for online multi-object tracking. In: ICRA (2018)","DOI":"10.1109\/ICRA.2018.8461018"},{"issue":"11","key":"38_CR25","doi-asserted-by":"publisher","first-page":"2298","DOI":"10.1109\/TPAMI.2016.2646371","volume":"39","author":"B Shi","year":"2016","unstructured":"Shi, B., Bai, X., Yao, C.: An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. TPAMI 39(11), 2298\u20132304 (2016)","journal-title":"TPAMI"},{"key":"38_CR26","unstructured":"Shuai, B., Berneshawi, A.G., Modolo, D., Tighe, J.: Multi-object tracking with Siamese track-RCNN. arXiv preprint arXiv:2004.07786 (2020)"},{"key":"38_CR27","doi-asserted-by":"crossref","unstructured":"Stadler, D., Beyerer, J.: Modelling ambiguous assignments for multi-person tracking in crowds. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 133\u2013142 (2022)","DOI":"10.1109\/WACVW54805.2022.00019"},{"key":"38_CR28","doi-asserted-by":"crossref","unstructured":"Sun, P., et al.: DanceTrack: multi-object tracking in uniform appearance and diverse motion. arXiv preprint arXiv:2111.14690 (2021)","DOI":"10.1109\/CVPR52688.2022.02032"},{"key":"38_CR29","unstructured":"Sun, P., et al.: TransTrack: multiple-object tracking with transformer. arXiv preprint arXiv: 2012.15460 (2020)"},{"key":"38_CR30","unstructured":"Sutskever, I., Vinyals, O., Le, Q.V.: Sequence to sequence learning with neural networks. In: NeurlPS (2014)"},{"key":"38_CR31","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurlPS (2017)"},{"key":"38_CR32","doi-asserted-by":"crossref","unstructured":"Wang, Q., Zheng, Y., Pan, P., Xu, Y.: Multiple object tracking with correlation learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3876\u20133886 (2021)","DOI":"10.1109\/CVPR46437.2021.00387"},{"key":"38_CR33","doi-asserted-by":"crossref","unstructured":"Wang, S., Sheng, H., Zhang, Y., Wu, Y., Xiong, Z.: A general recurrent tracking framework without real data. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 13219\u201313228 (2021)","DOI":"10.1109\/ICCV48922.2021.01297"},{"key":"38_CR34","doi-asserted-by":"crossref","unstructured":"Wang, X., Girshick, R., Gupta, A., He, K.: Non-local neural networks. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00813"},{"key":"38_CR35","doi-asserted-by":"crossref","unstructured":"Wang, Y., Kitani, K., Weng, X.: Joint object detection and multi-object tracking with graph neural networks. In: 2021 IEEE International Conference on Robotics and Automation (ICRA), pp. 13708\u201313715. IEEE (2021)","DOI":"10.1109\/ICRA48506.2021.9561110"},{"key":"38_CR36","doi-asserted-by":"crossref","unstructured":"Wang, Y., et al.: End-to-end video instance segmentation with transformers. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00863"},{"key":"38_CR37","doi-asserted-by":"crossref","unstructured":"Wang, Z., Zheng, L., Liu, Y., Li, Y., Wang, S.: Towards real-time multi-object tracking. In: ECCV (2020)","DOI":"10.1007\/978-3-030-58621-8_7"},{"key":"38_CR38","unstructured":"Welch, G., Bishop, G., et al.: An introduction to the kalman filter (1995)"},{"key":"38_CR39","doi-asserted-by":"crossref","unstructured":"Wojke, N., Bewley, A., Paulus, D.: Simple online and realtime tracking with a deep association metric. In: ICIP (2017)","DOI":"10.1109\/ICIP.2017.8296962"},{"key":"38_CR40","doi-asserted-by":"crossref","unstructured":"Wu, J., Cao, J., Song, L., Wang, Y., Yang, M., Yuan, J.: Track to detect and segment: an online multi-object tracker. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.01217"},{"key":"38_CR41","doi-asserted-by":"crossref","unstructured":"Yu, F., et al.: Bdd100k: a diverse driving dataset for heterogeneous multitask learning. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020","DOI":"10.1109\/CVPR42600.2020.00271"},{"key":"38_CR42","doi-asserted-by":"crossref","unstructured":"Zhang, Y., et al.: ByteTrack: multi-object tracking by associating every detection box. arXiv preprint arXiv:2110.06864 (2021)","DOI":"10.1007\/978-3-031-20047-2_1"},{"issue":"11","key":"38_CR43","doi-asserted-by":"publisher","first-page":"3069","DOI":"10.1007\/s11263-021-01513-4","volume":"129","author":"Y Zhang","year":"2021","unstructured":"Zhang, Y., Wang, C., Wang, X., Zeng, W., Liu, W.: FairMOT: on the fairness of detection and re-identification in multiple object tracking. Int. J. Comput. Vis. 129(11), 3069\u20133087 (2021). https:\/\/doi.org\/10.1007\/s11263-021-01513-4","journal-title":"Int. J. Comput. Vis."},{"key":"38_CR44","doi-asserted-by":"crossref","unstructured":"Zhou, X., Koltun, V., Kr\u00e4henb\u00fchl, P.: Tracking objects as points. In: ECCV (2020)","DOI":"10.1007\/978-3-030-58548-8_28"},{"key":"38_CR45","unstructured":"Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: deformable transformers for end-to-end object detection. In: ICLR (2020)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2022"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-19812-0_38","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,4,27]],"date-time":"2023-04-27T13:10:19Z","timestamp":1682601019000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-19812-0_38"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"ISBN":["9783031198113","9783031198120"],"references-count":45,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-19812-0_38","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022]]},"assertion":[{"value":"30 October 2022","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Tel Aviv","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Israel","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2022","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 October 2022","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 October 2022","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2022","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2022.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"CMT","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"5804","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"1645","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"28% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.21","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.91","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"From the workshops, 367 reviewed full papers have been selected for publication","order":10,"name":"additional_info_on_review_process","label":"Additional Info on Review Process","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}